Skip to main content

surface_eq_canonical_lenient

Function surface_eq_canonical_lenient 

Source
pub fn surface_eq_canonical_lenient(a: &str, b: &str) -> bool
Expand description

Canonical + inflectional ending normalization (Sprint 128 P2 + Sprint 134 P3).

surface_eq_canonical + 어미 변환 동치:

  • 하았 ↔ 하였 (Sprint 128: KLUE는 “였” 보존, mecab은 “았“으로 분해)
  • 하어 ↔ 하여 (Sprint 128: KLUE는 “여” 보존, mecab은 “어“로 분해)
  • 하아 ↔ 하여 (Sprint 134: 편하아요 vs 편하어요 — gold도 아 분해 케이스)
  • 이습니다 → 입니다 (Sprint 134: mecab의 “이/VCP + 습니다/EF” 분해를 KLUE의 composed “X입니다.“와 일치시킴; 본 normalization에서 가장 많은 흡수 패턴)

Sprint 128: SURFACE_MISMATCH의 22.6% 흡수. Sprint 134: 추가 ~4-5% 흡수 (이습니다 패턴 ~80 cases + 하아 ~12 cases).