マルコフ連鎖による作文

形態素解析器を使わなくてもかなりいけるのだなあ。Margarine伝言版より。
これは形態素(というよりは、それに似たもの)の連続をマルコフ過程として扱っているわけですね。
で、僕がやりたいのは、更に文節、文、(複数発言者がいれば)ひとりの発言単位、段落、など、扱う範囲を上位に拡張するということ。
また、下位へ拡張して、文字から形態素/語へのaggregationも、マルコフ過程(だけ)で扱えないかとも思う(実は似たようなことは数年前にチャレンジして挫折。d-bigramでsegmentationを行いたかった。d-bigramモデルは厳密にはマルコフ過程ではないかも)。
そうなると、自然言語のすべてのレベルをマルコフ過程として扱えることになるので、モデルとしてとても美しい。何より、各レベルで必要とされる「意味」を上位レベルへ追い出すことで、ややこしい意味論を導入しなくてもよくなるのではないかと思っている。
問題は、各単位のuniquenessが大きいと、マルコフ過程だけでうまく扱えないところなんじゃないかと思う。日本語の文字種は多いし、また上位への拡張をしていくと、やっぱりuniquenessが大きくなる。アルファベットや形態素の種数(どちらも50種前後だろうか)ってのは、マルコフ連鎖で扱うのにちょうど良い数なのかなあ。
ということで、各レベルで要素の数を押さえるべく、何らかの抽象化を行うのが今の課題。最初はヒューリスティックに頼らざるを得ない面があるけど、いずれ統計的に学習できると良いなあ。で、この抽象化の過程でデータがコンパクトになり、且つ記憶の正確性もある程度損なわれ、また忘却が導入されると面白いと思う。
まとまってないなあ。この辺の見通しに関してはまた書こう。
なお、マルコフ過程マルコフ連鎖についてはちょうど今勉強中なので、嘘言ってるかもしれませんのでご注意。