KorpuSQL는 한국어 코퍼스 분석을 수행하기 위한 확장성 있고 강력한 도구입니다. KorpuSQL은 텍스트나 기타 형태로 작성된 코퍼스 자료를 불러들여와 데이터베이스 시스템에 입력함으로써 코퍼스를 분석하는데에 DBMS의 강력한 성능과 확장성을 제공합니다. KorpuSQL은 다음의 예시를 비롯하여 SQL구문으로 표현할 수 있다면 어떠한 형태의 코퍼스 분석도 수행할 수 있습니다.
- 단어/형태소 통계
- 특정 형태소를 포함하는 단어 통계
- 특정 형태소 주위에 나타나는 형태소 통계
- 특정 단어 주위에 나타나는 단어 통계
- 특정 형태소 주위에 나타나는 단어 통계
- 특정 형태소가 포함된 단어 내의 형태소 통계
- 특정 단어/형태소가 포함된 예문 추출
- 여러 단어/형태소가 포함된 예문 추출
KorpuSQL은 내부적으로 다음 테이블을 가지고 있습니다.
테이블 목록
- sentence: 문장 테이블 (필드: form, doc, sid)
- word: 단어 테이블 (필드: form, doc, sid, wid)
- morpheme: 형태소 테이블 (필드: form, tag, doc, sid, wid, mid)
필드 목록
- form: 문장이나 단어 또는 형태소의 형태
- tag: 형태소의 품사 태그
- doc: 문서이름
- sid: 문장 번호(해당 문서 내에서 몇번째 문장인지)
- wid: 단어 번호(해당 문장 내에서 몇번째 단어인지)
- mid: 형태소 번호(해당 단어 내에서 몇번째 형태소인지)
위의 테이블들과 그 테이블들의 필드를 활용하여 다양한 분석을 시도할 수 있습니다. 이 페이지에서 웹에서 KorpuSQL의 서비스를 직접 이용해보실 수 있습니다. 웹 서비스의 한계상 부하가 많이 걸리는 질의문은 거절당할 수 있다는 점 양해바랍니다. 윈도우용 실행파일은 여기에서 받을수 있습니다.