MathPro Demo

Executive Summary

비개발자용 요약

Mission A — 유형 분류

진행 상황

Dataset 2의 원본 HWP/GIF 문항을 대상으로, 문항 텍스트와 수식을 추출한 뒤 LLM별 쎈 유형 분류 결과를 DB에 적재하고 비교하는 구조를 완성했습니다.

동일 원형의 3개 변형 문항은 하나의 그룹으로 묶어 일관된 유형이 부여되도록 처리했으며, 별도의 사후 보정이나 수작업 라벨 수정, 사람의 개입은 반영하지 않았습니다.

현재 등록된 모델 런은 OpenAI gpt-5.4, Claude claude-opus-4-6, Gemini gemini-3.1-pro-preview이며, 모델별 분류 분포와 일치율을 대시보드에서 비교할 수 있습니다.

현재 한계

정답 라벨셋 미확보 — 각 문항이 실제로 어떤 쎈 유형에 해당하는지에 대한 고객사 기준 정답표가 제공되지 않아, AI 예측 결과를 생성할 수는 있어도 공식 정확도(%)를 산출하거나 오분류 원인을 정량적으로 분석할 수 없습니다.

정확도 평가 불가 — 고객사 보유 정답지 또는 최소한의 검수용 정답 매핑표가 추가 제공되어야 실제 정확도 측정, 오분류 패턴 분석, 프롬프트 및 분류 로직 보정까지 이어갈 수 있습니다.

모델 간 비교만 가능 — 현재는 모델끼리의 일치·불일치만 확인할 수 있으며, 어떤 모델이 더 정확한지는 정답 기준 없이 판단할 수 없습니다.

Mission B — 문항 구조화·검증

진행 상황

Dataset 1 원본 HWP/GIF를 분리 스키마에 적재하고, 문제·해설·정답을 역할별로 구조화 저장했습니다.

3단계 검증을 모두 완료했습니다 — ① 원본 GIF 이상 탐지, ② 문제 텍스트 추출 검증, ③ LaTeX 수식 추출 검증.

OpenAI gpt-5.4, Claude claude-opus-4-6, Gemini gemini-3.1-pro-preview 3개 모델로 문항 메타를 예측하고, 모델별 결과를 나란히 비교할 수 있도록 DB와 UI에 반영했습니다.

현재 한계

공식 단원·목표 체계 미반영 — 대단원, 중단원, 목표 요약은 매쓰프로 내부 단원 체계가 아닌, AI가 문항 내용을 바탕으로 임시 추정한 메타데이터입니다. 정식 단원표 및 목표표가 제공되면 이에 맞춘 재매핑과 검증이 필요합니다.

AI 메타는 예측값 — 대단원, 중단원, 난이도, 출처, 문항 형태 등은 사람이 확정한 값이 아니라 AI 예측값이므로, 고객사 기준의 추가 검수가 필요합니다.

최종 생성 단계 미진행 — 3단계 검증은 완료되었으나, 검증된 데이터를 기반으로 최종 출력물을 생성하고 품질까지 검증하는 단계는 아직 진행 전입니다.

Mission A

비교 대시보드 →

현재 진행 상황

현재 Mission A는 제공된 Dataset 2의 원본 HWP/GIF 문항을 대상으로, 문항 텍스트와 수식을 추출한 뒤 LLM별 유형 분류 결과를 DB에 적재하여 비교하는 방식으로 수행하고 있습니다. 동일 원형의 3개 변형 문항은 하나의 그룹으로 묶어 일관된 유형이 부여되도록 처리했고, 이 과정에서 별도의 추가 가공이나 사후 보정, 수작업 라벨 수정, 사람의 개입은 반영하지 않았습니다. 현재 화면에는 DB에 적재된 모델 결과만 표시되며, 지금 등록된 런은 OpenAI gpt-5.4, Claude claude-opus-4-6, Gemini gemini-3.1-pro-preview 입니다.

다만 현재 제공받은 자료에는 Mission A 평가 기준인 “정확도(%)”를 산출하기 위한 정답 라벨셋이 포함되어 있지 않습니다. 다시 말해, 각 문항이 실제로 어떤 쎈 유형에 해당하는지에 대한 고객사 기준 정답표가 없기 때문에, 지금 단계에서는 AI 예측 결과를 생성할 수는 있어도 공식 정확도를 계산하거나 오분류 원인을 정량적으로 분석할 수는 없습니다. 따라서 향후에는 고객사 보유 정답지 또는 최소한의 검수용 정답 매핑표가 추가로 제공되어야 하며, 이를 기반으로 실제 정확도 측정, 오분류 패턴 분석, 프롬프트 및 분류 로직 보정까지 이어져야 Mission A를 평가 기준에 맞게 최종 완료할 수 있습니다.

적재된 모델 런

분류된 그룹 수

125

비교 가능 그룹

125

모델 간 일치율

75.2%

125개 그룹 기준

모델별 런

3개 런 적재됨

OpenAI

gpt-5.4

mission_a_v2

그룹

125

유형 수

평균 conf.

0.93

최다 유형

수의 부호 판별하기(2)

12건 · 2026. 4. 2. 오전 5:54

23 수의 부호 판별하기(2)12 · 9.6%

08 유리수의 덧셈과 뺄셈의 활용; 수직선11 · 8.8%

09 유리수의 덧셈과 뺄셈의 활용; 도형10 · 8.0%

24 유리수의 덧셈, 뺄셈, 곱셈, 나눗셈의 혼합 계산9 · 7.2%

04 덧셈과 뺄셈의 혼합 계산8 · 6.4%

Claude

claude-opus-4-6

mission_a_v2

그룹

125

유형 수

평균 conf.

0.90

최다 유형

덧셈과 뺄셈의 혼합 계산

12건 · 2026. 4. 2. 오전 6:26

04 덧셈과 뺄셈의 혼합 계산12 · 9.6%

24 유리수의 덧셈, 뺄셈, 곱셈, 나눗셈의 혼합 계산12 · 9.6%

08 유리수의 덧셈과 뺄셈의 활용; 수직선10 · 8.0%

23 수의 부호 판별하기(2)10 · 8.0%

07 절댓값이 주어진 수의 덧셈과 뺄셈8 · 6.4%

Gemini

gemini-3.1-pro-preview

mission_a_v2

그룹

125

유형 수

평균 conf.

0.95

최다 유형

유리수의 덧셈, 뺄셈, 곱셈, 나눗셈의 혼합 계산

12건 · 2026. 4. 2. 오전 6:36

24 유리수의 덧셈, 뺄셈, 곱셈, 나눗셈의 혼합 계산12 · 9.6%

04 덧셈과 뺄셈의 혼합 계산10 · 8.0%

08 유리수의 덧셈과 뺄셈의 활용; 수직선10 · 8.0%

23 수의 부호 판별하기(2)9 · 7.2%

07 절댓값이 주어진 수의 덧셈과 뺄셈7 · 5.6%

Mission B

비교 대시보드 →

현재 진행 상황

현재 Mission B는 Dataset 1 원본 HWP/GIF를 완전히 분리된 스키마에 적재하고, 문제·해설·정답을 역할별로 분리 저장한 상태입니다. 또한 OpenAI gpt-5.4, Claude claude-opus-4-6, Gemini gemini-3.1-pro-preview를 사용해 문항 메타를 예측하고, 모델별 결과를 비교할 수 있도록 DB와 UI에 함께 반영했습니다.

다만 현재 화면의 대단원, 중단원, 목표 요약은 매쓰프로의 공식 내부 단원체계나 목표 체계를 받은 뒤 매핑한 값이 아니라, AI가 문항 내용을 바탕으로 임시 추정한 메타데이터입니다. 따라서 이 값들은 탐색과 비교를 위한 참고 정보이며, 고객사 기준의 정식 단원표·목표표가 제공되면 그 기준으로 재매핑하거나 검증하는 단계가 추가로 필요합니다.

현재 AI 메타 비교 영역에서는 대단원, 중단원, 목표 요약, 최종 난이도, 출처, 최종 문항 형태를 모델별로 나란히 비교합니다. 스파크 아이콘이 붙은 값은 사람이 직접 입력한 확정값이 아니라, 파싱된 문항 텍스트를 바탕으로 AI가 예측해 DB에 적재한 메타데이터입니다. 현재 비교 화면에는 OpenAI, Claude, Gemini 결과를 함께 보여주며, 모델 간 값이 다르면 바로 비교할 수 있도록 구성했습니다.

적재 문항 세트

302

누적 수식 레코드

5948

문서 총합

906

자산 총합

2206

AI 모델 런

2모델 이상 비교

302

3모델 비교 가능

302

필드 합의율

54.5%

예측 필드 기준

세트당 평균 수식

19.70

세트당 평균 자산

7.30

AI 모델별 적재 런

3개 런 적재됨

OpenAI

gpt-5.4

mission_b_metadata_v1

문항

302

coverage

100.0%

평균 conf.

0.79

예측 row 1812개 · 2026. 4. 3. 오전 12:02

Claude

claude-opus-4-6

mission_b_metadata_v1

문항

302

coverage

100.0%

평균 conf.

0.83

예측 row 1812개 · 2026. 4. 3. 오전 12:02

Gemini

gemini-3.1-pro-preview

mission_b_metadata_v1

문항

302

coverage

100.0%

평균 conf.

0.83

예측 row 1812개 · 2026. 4. 3. 오전 12:03