Skip to main content

Module sejong

Module sejong 

Source
Expand description

세종 코퍼스 호환 모듈

mecab-ko-dic 출력을 세종 코퍼스 형식으로 변환합니다.

§배경

mecab-ko-dic과 세종 코퍼스는 토큰화 기준이 다릅니다:

  • mecab-ko-dic: 어미 결합 (갔다/VV+EF)
  • 세종 코퍼스: 어미 분리 (갔/VV 다/EF)

§분析결과 활용

mecab-ko-dic의 12번째 컬럼에는 형태소 분해 정보가 저장되어 있습니다:

  • 형식: stem/POS/*+ending/POS/*
  • 예시: 가깝/VA/*+아/EC/* (가까와 → 가깝 + 아)

이 정보를 활용하면 불규칙 활용도 정확하게 분리할 수 있습니다.

§예제

use mecab_ko_core::sejong::{SejongConverter, SejongToken};
use mecab_ko_core::tokenizer::Tokenizer;

let mut tokenizer = Tokenizer::new().unwrap();
let converter = SejongConverter::new();

let tokens = tokenizer.tokenize("갔다");
let sejong_tokens = converter.convert_tokens(&tokens);

// "갔다/VV+EF" -> ["갔/VV", "다/EF"]

Re-exports§

pub use converter::SejongConverter;
pub use types::DecomposedMorpheme;
pub use types::EndingRule;
pub use types::SejongToken;

Modules§

converter
세종 코퍼스 형식 변환기
types
세종 코퍼스 데이터 타입 정의