[ソフトウェア工学] 形態素解析をご存じか?
6月 21st, 2008 by UmiNana | No Comments | Filed in ソフトウェア工学日本語形態素解析だとchasenなどが有名ですが…。
簡単に言ってしまえば日本語の文章を品詞解析することです。
UIを作る上ではとても重要な技術だったりするわけで。「漢字変換プログラム」や「綴り間違いのチェック」など。または、「Googleなどでよい検索結果を得るために入力した検索語を正確に分析したい」ときなど、いろんなところで応用が利く技術です。
欠点としては、多くのプログラムには膨大な辞書ファイルが必要になるとともに処理コストもかかります。
そのため、現時点での技術ではスタンドアロンでユビキタスに形態素解析するのはかなり困難だったりします。
そこで面白いものが…
アルゴリズムによる日本語形態素解析
http://ciscgi.k.hosei.ac.jp/sasaki/morphalgorithm.jsp
つまり、辞書を使わずアルゴリズムだけで形態素解析をしていこうというモノです。アルゴリズムによるモノならば、すくなくとも膨大な辞書を利用しませんから、チープなマシンでも動く可能性が高いわけです。
ただ、過去、アルゴリズムによる文章解析は存在したわけで、Emmy2、初期の人工無能なんかはこの方法をとってました。
(Emmy2で「ナニガスキ?」、って聞いたときの回答はけっこう有名)
昔、FORTRANで人工無能を作った時があったんですが、品詞は「助詞」と「それ以外」だけでデータベースを作った記憶があります。そのプログラムはその後、N88-BASICに移植して、Big-Model(!)のチャットルームに常駐させたりとかやってました(20年ぐらい前の話かも)。
とりあえず、どれだけ低コストで形態素解析が出来るか、そういう観点からみてとても面白い試みだなぁと。そう思うわけだったりします。
Tags: ソフトウェア工学
