お勉強中 - svnseeds’ ghoti!

Next stepを探るために（笑）色々論文を読んでお勉強中。
森さんの論文が前から気になっていたので、いい機会だから拾い読みしてるんだけど、「形態素bi-gramと品詞bi-gramの重ね合わせによる形態素解析(303[KB], PSファイル)」を読んで、ここで提案されている3つの手法；

各形態素の語彙化
附属語列の登録
マルコフモデルの重ね合わせ

のうち、最初の2つを、はからずも今回実装してしまったことに気付いた（ちなみに、最後の点に関しては、無脳エンジンとしては生成が目的なので必要ない）。
前に1度読んだときは品詞が付与されたコーパスは使わない予定だったのでナナメ読みだったんだけど、どうやらアタマの隅に残っていた模様。
また、これからやりたいことのうち、文法に関するものは、「係り受けを用いた確率的言語モデル(554[KB], PSファイル) 」を文生成に応用すれば出来そうな気がしてきた。このモデルでは、マルコフモデルの弱点である「離れた要素間の関係」を記述するために確率文脈自由文法を使っている。あーどっかで聞いたことあるなあ、これ。また勉強しなきゃ・・・。
更にこのモデルでは、形態素のクラスタリングまで行っている。って、これじゃほとんど僕が漠然と考えていたものそのままだったりして。
問題は、低頻度事象（データスパースネス）問題への対処として挙げられている方法論が、（たぶん）解析の過程でしか有効でなさそう、と言うこと。文の生成には、補間を導入しても対処とならないはず。既に素性がわかっているものを相手にするのが生成過程だからね（つまり、解析がボトムアップに対し、生成はトップダウンとも言える）。むしろ、スパースネス問題に対しては、クラスタリングなどの汎化と、頻度は低いが重要な語（もしくは形態素/文節/whatever）をどう扱うかという問題が大きいんじゃないかと思う。この辺は全然考えがまとまってないので、ちょっと考えよう。