Expand description
§Streaming Tokenizer Module
대용량 텍스트 스트리밍 처리를 위한 API
§주요 기능
- 청크 단위 토큰화
- 문장 경계 감지 및 버퍼링
- 메모리 효율적인 대용량 파일 처리
§Example
use mecab_ko_core::streaming::StreamingTokenizer;
use mecab_ko_core::tokenizer::Tokenizer;
let tokenizer = Tokenizer::new().unwrap();
let mut stream = StreamingTokenizer::new(tokenizer);
// 청크 단위로 처리
let text_chunks = vec!["안녕하세요. ", "오늘 날씨가 좋네요."];
for chunk in text_chunks {
let tokens = stream.process_chunk(chunk);
for token in tokens {
println!("{}: {}", token.surface, token.pos);
}
}
// 남은 버퍼 flush
let remaining = stream.flush();Structs§
- Chunked
Token Iterator - 청크별 토큰 이터레이터
- Progress
Streaming Tokenizer - 진행률 추적 스트리밍 토크나이저
- Sentence
Reader - Reads from a
BufReadsource and yields complete sentences one at a time. - Streaming
Progress - 스트리밍 진행 상황
- Streaming
Tokenizer - 스트리밍 토크나이저
- Token
Stream - Iterator 기반 스트리밍 토크나이저
Type Aliases§
- Progress
Callback - 진행률 콜백 타입