形態素解析サーバ

思いつきついでにもうひとつ。
形態素解析でネックになるのが未知語の処理だけど、いちいち辞書登録してコンパイルして、ってのは結構面倒。なので、みんなでよってたかって登録できる仕組みを作ったら面白そうだ。辞書だけ共有しても面白みがないので、いっそ形態素解析処理をサービスとしてネットワーク経由で提供するのはどうだろう。
現状、全文検索エンジンや無脳エンジン(笑)などで利用するために、各サーバローカルに形態素解析器がインストールされているわけだけど、これは結構無駄なことじゃないかと思うわけです。解析したい文字列をサーバに投げると結果が返ってくるようになったら嬉しい。
更に、「現在の未知語」リストを公表して、有為の若者達がよってたかって品詞とコストを定義できるようにしておけば、そのうち最強の形態素解析器になることが期待できる。うまくいけばGoogleなんかの検索エンジンへサービス提供することでビジネスに・・・これは難しいか。
Chasen2.3.0になってサーバ・クライアントモードを廃止しちゃったけど、結構面白いと思うんだよなあ。
もちろん、実際にやるとなると問題は山積みだけど(上に挙げたキーワード登録みたいになりかねない)、誰かやらないかなあ。あくまで他力本願。