호주산 검색엔진 Mooter의 일본 서비스를 운영하는 Mooter는 사전이 필요없는 형태소분석엔진 마리모(marimo)를 개발, 기업 대상으로 판매를 시작하였다고 한다.

사용자 삽입 이미지

형태소분석이란 주어진 문장을 문법상 의미가 있는 최소 단위(형태소)을 분리하여 처리, 검색엔진 등 다양한 자연어처리에 필요한 기초 기술이다.

형태소를 해석하려면 미리 품사정보가 담겨있는 수십만 어의 사전이 필요하다. 또한, 신조어, 전문용어는 개별적으로 단어를 등록할 필요가 있다.

현재의 형태소분석기가 안은 문제로 사전 기반의 대응으로는 신조어와 새로운 단어에는 제대로 대응이 안 되고, 구어에 약하다는 점이 지적되고 있는데, 인터넷 상의 텍스트는 단지 검색의 대상이 아니라 지금은 콘텐츠 매칭과 평판분석 등 마케팅 정보로서 의미를 지니고 있으므로 게시판, 블로그, SNS사이트 등에서 쓰이는 구어를 얼마나 정확하게 해석하느냐가 과제이다.

이번에 Mooter에서 개발한 마리모는 “~하고 있다.” 등 문장의 구조를 해석하는 보조동사와 조사 등 약 1,000단어로 구성된 사전만을 구비, 실제 형태소분석에 사용되는 사전(기존 의미의 사전과 다르므로 Mooter에서는 “학습 모델”이라 부름)은 인터넷 상의 텍스트를 수집하여 그곳에서부터 자동생성한다.

마리모는 미리 동사와 형용사의 활용형에 대한 지식을 보유하지 않고 빈도 정보와 위치 정보를 사용한 통합처리만으로, 소리의 관련성으로, 그 단어가 동사일까 형용사일까를 판정한다고 한다.

처리대상이 되는 텍스트의 문장은 1문자당, 2문자당, 3문자당 식으로 10문자 단위가 될 때까지 모든 조합을 해석한다. 한자 부분 이외는 모두 로마자로 변환해서 진행하기 때문에 모음과 자음의 조합으로부터 신조어의 품사를 추정할 수 있다.

아시아 언어에 대해서는 미국 Basis Technology의 형태소분석기 “Rosette”가 구글, 야후, 마이크로소프트의 Live Search에 채용되고 있는데, 마리모는 틈새시장으로서 신조어, 전문용어 등 각각의 유저 수요에 맞춘 문장에 특화된, 자동 튜닝할 수 있는 형태소분석기로 기존 제품의 반액인 1CPU당 100만 엔이라는 저렴한 가격을 무기로 판매에 나설 것이라 한다.

일본 Mooter는 호주의 Mooter와 제휴하는 형식으로 이나무라(稲村)씨가 2005년2월에 일본에 설립한 회사로 호주의 Mooter가 콘텐츠 매치 방면에 주력하게 되면서, 기술로 경쟁하고자 하는 일본 Mooter는 관계를 끊게 되었다.

그 후 검색결과를 장르별로 분류해서 표시하는 클러스터엔진과 휴대전화용 카테고리별 검색엔진의 개발을 진행하면서 본사의 형태소분석기에 불만이 쌓여 2007년 4월에 마리모의 개발을 시작하였다 한다.

일본의 검색시장을 보면 세계 검색 서비스의 전시장을 방불케 하고 있다.

글로벌 검색 서비스인 구글, 야후, MSN은 물론이고, 한국시장에는 들어와 있지 않은 Ask, 중국의 대표 검색 서비스 Baidu, 그리고 호주산 Mooter 등과 함께 일본산 검색 서비스들이 치열하게 경쟁을 벌이고 있다.

올해 연말 일본 검색 시장의 재진출을 노리는 NHN으로서는 경쟁자들의 실력이 갈수록 높아지는 것을 보고 있자면 결코 맘이 편치만은 않으리라 생각된다.

출처
辞書不要の形態素解析エンジン「マリモ」とは
사전이 필요없는 형태소분석기 "마리모"는?
Posted by 오픈검색
,

 
moonstake