Skip to main content

Module streaming

Module streaming 

Source
Expand description

§Streaming Tokenizer Module

대용량 텍스트 스트리밍 처리를 위한 API

§주요 기능

  • 청크 단위 토큰화
  • 문장 경계 감지 및 버퍼링
  • 메모리 효율적인 대용량 파일 처리

§Example

use mecab_ko_core::streaming::StreamingTokenizer;
use mecab_ko_core::tokenizer::Tokenizer;

let tokenizer = Tokenizer::new().unwrap();
let mut stream = StreamingTokenizer::new(tokenizer);

// 청크 단위로 처리
let text_chunks = vec!["안녕하세요. ", "오늘 날씨가 좋네요."];
for chunk in text_chunks {
    let tokens = stream.process_chunk(chunk);
    for token in tokens {
        println!("{}: {}", token.surface, token.pos);
    }
}

// 남은 버퍼 flush
let remaining = stream.flush();

Structs§

ChunkedTokenIterator
청크별 토큰 이터레이터
ProgressStreamingTokenizer
진행률 추적 스트리밍 토크나이저
SentenceReader
Reads from a BufRead source and yields complete sentences one at a time.
StreamingProgress
스트리밍 진행 상황
StreamingTokenizer
스트리밍 토크나이저
TokenStream
Iterator 기반 스트리밍 토크나이저

Type Aliases§

ProgressCallback
진행률 콜백 타입