C++기반 한국어 형태소 분석기 Kiwi입니다. 현재 문학작품이나 신문기사 등의 텍스트에 대해 약 94% 성능을 보이며, 성능은 앞으로 더욱 개선될 예정입니다.
외부 라이브러리 의존 없이 순수 C++로만 작성되어 어떤 환경에서도 사용할 수 있습니다.
사용자가 필요에 따라 사전 내용을 추가할 수 있습니다.
다음의 성능 평가는 konlpy-0.5.1에 포함된 Hannanum, Kkma, Komoran, Okt를 Kiwi와 비교한 것입니다.
평가는 AMD Ryzen 7 3700X @3.6GHz, RAM 32GB, Windows 10(64bit) 환경에서 진행되었습니다.
Loading | 1 | 10 | 100 | 1000 | 10000 | 100000 | |
---|---|---|---|---|---|---|---|
Hannanum | 0.434 | 0.003 | 0.005 | 0.015 | 0.055 | 0.424 | 5.360 |
Kkma | 2.481 | 0.004 | 0.062 | 0.087 | 0.348 | 2.058 | 21.054 |
Komoran | 1.068 | 0.005 | 0.003 | 0.009 | 0.045 | 0.469 | 17.974 |
Okt | 1.787 | 0.005 | 0.023 | 0.040 | 0.094 | 0.376 | 2.527 |
Kiwi | 1.009 | 0.002 | 0.002 | 0.004 | 0.029 | 0.137 | 1.361 |
Kiwi의 로딩 시간 및 처리 속도는 기존의 분석기들과 비교할 때 매우 빠른 편임을 확인할 수 있습니다.
LGPL v3
Kiwi GUI 버전을 배포합니다. 자세한 내용은 http://bab2min.tistory.com/586를 참조하세요.