K-TaxBench 리더보드

한국 회계·세무 AI 실무 신뢰도 평가 · 읽기전용 v1 · 순위는 비공개 holdout 기준, 공개셋 점수는 별도 표기 (ADR 0009)

모델 랭킹

순위 = holdout 평균(과적합 방지). 공개셋 평균은 별도 컬럼 — 두 값의 격차가 공개셋 과적합 신호. 각 모델은 버전핀으로 동결(append-only).

#	모델	holdout 평균 (순위)	공개셋 평균	등급분포 (holdout)
1	claude-opus-4-8 scaffold v1closed_bookrag법령 2026-06-11✓ 재현 검증	92.2	91.4	A:92 B:16 C:3 D:4
2	claude-sonnet-4-6 scaffold v1closed_bookrag법령 2026-06-11✓ 재현 검증	85.3	87.4	A:40 B:11 C:2 D:6
3	claude-haiku-4-5 scaffold v1closed_bookrag법령 2026-06-11✓ 재현 검증	46.3	54.8	A:15 B:13 C:7 D:50

7차원 루브릭 — 어느 축이 약한지(환각·계산·근거).

모델	calculation_or_process	clarity	conclusion_accuracy	deliverable_quality	fact_handling	legal_basis	practicality	risk_handling	tool_process
claude-opus-4-8	19.2	4.9	20.6	14.2	10.6	21.3	14.4	11.8	16.9
claude-sonnet-4-6	14.1	4.7	19.1	13.0	10.1	22.4	14.0	11.8	11.5
claude-haiku-4-5	9.3	4.1	13.3	8.6	7.9	11.6	10.8	7.9	7.3

모델	accounting	basic_tax_law	corp_tax	income_tax	mixed	vat
claude-opus-4-8	90.1	97.4	91.3	93.4	93.3	90.5
claude-sonnet-4-6	92.6	75.9	83.9	88.8	–	86.1
claude-haiku-4-5	81.0	32.6	45.8	47.0	23.1	34.6

공개셋은 문항 id 노출, holdout은 type별 카운트만(문항 비공개 — 해자 보호).

hallucinationktb-vat-0001 · claude-haiku-4-5/closed_book — fake_source
hallucinationktb-vat-0002 · claude-haiku-4-5/closed_book — ignore_time_basis, fake_source
hallucinationktb-vat-0002 · claude-haiku-4-5/rag — fake_source, assert_without_source
hallucinationktb-corp-tax-0001 · claude-haiku-4-5/closed_book — fake_source, assert_without_source
hallucinationktb-corp-tax-0001 · claude-haiku-4-5/rag — fake_source, assert_without_source
hallucinationktb-income-tax-0002 · claude-haiku-4-5/closed_book — fake_source
hallucinationktb-basic-tax-law-0001 · claude-haiku-4-5/closed_book — unverified_citation:제27조, assert_without_source, fake_source
citation_errorktb-basic-tax-law-0001 · claude-haiku-4-5/closed_book — 근거 조문 불일치(0점)
hallucinationktb-basic-tax-law-0001 · claude-haiku-4-5/rag — unverified_citation:제119조, unverified_citation:제47조, fake_source, assert_without_source
hallucinationktb-mixed-0001 · claude-haiku-4-5/closed_book — fake_source
hallucinationktb-mixed-0001 · claude-haiku-4-5/rag — assert_without_source, fake_source
hallucinationktb-vat-0003 · claude-haiku-4-5/closed_book — threshold_swap, fake_source, assert_without_source

순위는 holdout으로만 — 공개셋(연습용) 점수는 별도 표기. 두 값의 격차로 과적합을 가시화.
버전핀 동결·append-only — 제출은 model·날짜·scaffold·mode 동결. 재제출은 새 행(덮어쓰기 금지) → 재시도 best-pick 차단.
철회 불가 — 게시 결과는 내릴 수 없고 supersede 행으로만 정정. 손실 표본 은폐 차단.
재현 검증 등재 — 버전핀으로 재실행 재현된 결과만 등재 (self-report 금지, judge=비self).
holdout 문항 비공개 — 본문·정답·문항 id 미노출(집계값만). 채점셋 해자 보호.