K-TaxBench 리더보드

한국 회계·세무 AI 실무 신뢰도 평가 · 읽기전용 v1 · 순위는 비공개 holdout 기준, 공개셋 점수는 별도 표기 (ADR 0009)

모델 랭킹

순위 = holdout 평균(과적합 방지). 공개셋 평균은 별도 컬럼 — 두 값의 격차가 공개셋 과적합 신호. 각 모델은 버전핀으로 동결(append-only).

#모델holdout 평균 (순위)공개셋 평균등급분포 (holdout)
1
claude-opus-4-8
scaffold v1closed_bookrag법령 2026-06-11✓ 재현 검증
92.291.4A:92 B:16 C:3 D:4
2
claude-sonnet-4-6
scaffold v1closed_bookrag법령 2026-06-11✓ 재현 검증
85.387.4A:40 B:11 C:2 D:6
3
claude-haiku-4-5
scaffold v1closed_bookrag법령 2026-06-11✓ 재현 검증
46.354.8A:15 B:13 C:7 D:50

차원별 평균 (holdout)

7차원 루브릭 — 어느 축이 약한지(환각·계산·근거).

모델calculation_or_processclarityconclusion_accuracydeliverable_qualityfact_handlinglegal_basispracticalityrisk_handlingtool_process
claude-opus-4-819.24.920.614.210.621.314.411.816.9
claude-sonnet-4-614.14.719.113.010.122.414.011.811.5
claude-haiku-4-59.34.113.38.67.911.610.87.97.3

분야별 평균 (holdout)

모델accountingbasic_tax_lawcorp_taxincome_taxmixedvat
claude-opus-4-890.197.491.393.493.390.5
claude-sonnet-4-692.675.983.988.886.1
claude-haiku-4-581.032.645.847.023.134.6

대표 오류 사례

공개셋은 문항 id 노출, holdout은 type별 카운트만(문항 비공개 — 해자 보호).

공개셋 (id 표시)

holdout (집계 카운트)

제출·운영 정책 (ADR 0009)