Chrono-gram

단어는 시간에 따라 의미가 변화합니다. 기존의 단어 임베딩 모형들은 단어의 변화를 포착하는 데에 집중하지 않았기에 언어의 변화를 모델링하는 데에 한계가 있었습니다. Chrono-gram은 시기에 따라 변화하는 단어의 의미를 반영할 수 있는 단어 임베딩 모형을 제공합니다.

Kiwi

외부 라이브러리 없이 C++로만 구현된 오픈 소스 한국어 형태소 분석기입니다. 품사 태그는 세종 말뭉치를 기준으로 합니다. 세종 말뭉치를 기준으로 약 95%의 성능을 보이고 있습니다.

초성체 해석기

Kneser-Ney 언어 모형을 이용한 한글 초성체 해석기입니다. 상황에 따른 다양한 언어 모형을 제공하여 좀 더 적절한 해석을 제안할 수 있게 준비 중입니다.

어듸메

중세 및 근대 한글 자료들을 검색 및 열람할 수 있는 실험용 검색엔진입니다. 자료는 국립국어원의 '역사자료 종합 정비' 결과를 바탕으로 하였습니다. 편리한 입력을 위해 옛한글 입력기도 함께 제공하고 있습니다. 검색 성능 향상 및 연관어 추출을 위한 기술을 준비 중에 있습니다.

언제?

한국어로 된 온라인 상의 자료에서 시간 관련 정보를 검색할 수 있도록 지식 그래프를 구축하는 실험입니다. 아직 성능이 많이 부족하여 데이터 출처 확보 및 트리플 추출 성능 향상이 필요합니다.

tomoto

학습용으로 개발한 오픈 소스 토픽 모델링 툴입니다. C++로 깁스 샘플링을 구현하여 개발되었기에 raw Python 혹은 Java로 개발된 라이브러리보다 빠릅니다. 주요 토픽 모델 8종을 제공하고 있으며, 대부분의 모형은 멀티스레딩이 가능하므로 빠른 연산이 가능합니다. Python3용으로 개발된 API인 tomotopy도 제공하고 있습니다.

살아있는 라틴어 사전

Wiktionary의 데이터를 바탕으로 사전 엔트리를 구성하고 Perseus Project에서 제공받은 코퍼스에 텍스트 마이닝 기술을 적용하여 예문 및 유의어, 연관어를 추출하였습니다. 현재 추가 라틴어 텍스트 확보를 위해 라틴어 고문헌을 OCR중에 있습니다.

SEARCH

MENU NAVIGATION