모델 랭킹
순위 = holdout 평균(과적합 방지). 공개셋 평균은 별도 컬럼 — 두 값의 격차가 공개셋 과적합 신호. 각 모델은 버전핀으로 동결(append-only).
| # | 모델 | holdout 평균 (순위) | 공개셋 평균 | 등급분포 (holdout) |
|---|
| 1 | claude-opus-4-8 scaffold v1closed_bookrag법령 2026-06-11✓ 재현 검증 | 92.2 | 91.4 | A:92 B:16 C:3 D:4 |
| 2 | claude-sonnet-4-6 scaffold v1closed_bookrag법령 2026-06-11✓ 재현 검증 | 85.3 | 87.4 | A:40 B:11 C:2 D:6 |
| 3 | claude-haiku-4-5 scaffold v1closed_bookrag법령 2026-06-11✓ 재현 검증 | 46.3 | 54.8 | A:15 B:13 C:7 D:50 |
차원별 평균 (holdout)
7차원 루브릭 — 어느 축이 약한지(환각·계산·근거).
| 모델 | calculation_or_process | clarity | conclusion_accuracy | deliverable_quality | fact_handling | legal_basis | practicality | risk_handling | tool_process |
|---|
| claude-opus-4-8 | 19.2 | 4.9 | 20.6 | 14.2 | 10.6 | 21.3 | 14.4 | 11.8 | 16.9 |
| claude-sonnet-4-6 | 14.1 | 4.7 | 19.1 | 13.0 | 10.1 | 22.4 | 14.0 | 11.8 | 11.5 |
| claude-haiku-4-5 | 9.3 | 4.1 | 13.3 | 8.6 | 7.9 | 11.6 | 10.8 | 7.9 | 7.3 |
분야별 평균 (holdout)
| 모델 | accounting | basic_tax_law | corp_tax | income_tax | mixed | vat |
|---|
| claude-opus-4-8 | 90.1 | 97.4 | 91.3 | 93.4 | 93.3 | 90.5 |
| claude-sonnet-4-6 | 92.6 | 75.9 | 83.9 | 88.8 | – | 86.1 |
| claude-haiku-4-5 | 81.0 | 32.6 | 45.8 | 47.0 | 23.1 | 34.6 |
대표 오류 사례
공개셋은 문항 id 노출, holdout은 type별 카운트만(문항 비공개 — 해자 보호).
공개셋 (id 표시)
- hallucinationktb-vat-0001 · claude-haiku-4-5/closed_book — fake_source
- hallucinationktb-vat-0002 · claude-haiku-4-5/closed_book — ignore_time_basis, fake_source
- hallucinationktb-vat-0002 · claude-haiku-4-5/rag — fake_source, assert_without_source
- hallucinationktb-corp-tax-0001 · claude-haiku-4-5/closed_book — fake_source, assert_without_source
- hallucinationktb-corp-tax-0001 · claude-haiku-4-5/rag — fake_source, assert_without_source
- hallucinationktb-income-tax-0002 · claude-haiku-4-5/closed_book — fake_source
- hallucinationktb-basic-tax-law-0001 · claude-haiku-4-5/closed_book — unverified_citation:제27조, assert_without_source, fake_source
- citation_errorktb-basic-tax-law-0001 · claude-haiku-4-5/closed_book — 근거 조문 불일치(0점)
- hallucinationktb-basic-tax-law-0001 · claude-haiku-4-5/rag — unverified_citation:제119조, unverified_citation:제47조, fake_source, assert_without_source
- hallucinationktb-mixed-0001 · claude-haiku-4-5/closed_book — fake_source
- hallucinationktb-mixed-0001 · claude-haiku-4-5/rag — assert_without_source, fake_source
- hallucinationktb-vat-0003 · claude-haiku-4-5/closed_book — threshold_swap, fake_source, assert_without_source
holdout (집계 카운트)
- calc_error 6건
- citation_error 14건
- hallucination 94건
제출·운영 정책 (ADR 0009)
- 순위는 holdout으로만 — 공개셋(연습용) 점수는 별도 표기. 두 값의 격차로 과적합을 가시화.
- 버전핀 동결·append-only — 제출은 model·날짜·scaffold·mode 동결. 재제출은 새 행(덮어쓰기 금지) → 재시도 best-pick 차단.
- 철회 불가 — 게시 결과는 내릴 수 없고 supersede 행으로만 정정. 손실 표본 은폐 차단.
- 재현 검증 등재 — 버전핀으로 재실행 재현된 결과만 등재 (self-report 금지, judge=비self).
- holdout 문항 비공개 — 본문·정답·문항 id 미노출(집계값만). 채점셋 해자 보호.