pub fn surface_eq_canonical_lenient(a: &str, b: &str) -> boolExpand description
Canonical + inflectional ending normalization (Sprint 128 P2 + Sprint 134 P3).
surface_eq_canonical + 어미 변환 동치:
- 하았 ↔ 하였 (Sprint 128: KLUE는 “였” 보존, mecab은 “았“으로 분해)
- 하어 ↔ 하여 (Sprint 128: KLUE는 “여” 보존, mecab은 “어“로 분해)
- 하아 ↔ 하여 (Sprint 134: 편하아요 vs 편하어요 — gold도 아 분해 케이스)
- 이습니다 → 입니다 (Sprint 134: mecab의 “이/VCP + 습니다/EF” 분해를 KLUE의 composed “X입니다.“와 일치시킴; 본 normalization에서 가장 많은 흡수 패턴)
Sprint 128: SURFACE_MISMATCH의 22.6% 흡수.
Sprint 134: 추가 ~4-5% 흡수 (이습니다 패턴 ~80 cases + 하아 ~12 cases).