付与データなしの単語分割

ょゎさんのところに反応。
プレーンコーパスからの単語分割って、あんまりやってる人いないんですよねえ。だいたいタグ付きコーパスを前提にしちゃってる(これも素晴らしい形態素解析器が普及したおかげか)。
昔は、ここから、この方修士論文がダウンロードできたんだけど、今はできないみたい。プレーンなコーパスから単語(「有繋文字列」って言葉を使ってますが)の抽出を試みたものです。具体的には、d-bigram(ギャップのあるbigram)の共起情報(Mutual Information)を元にsegmentationしていく、という興味深いものでした。
これに基いて、僕も数年前にプログラム書いて遊んでみたんだけど、数万文字のコーパスを使っても再現率、適合率ともに70%台しか出なかったので断念しますた(ま、対象がChaSenの分割結果なんでこの評価が適切かどうかはかなり疑問ですが。独自の分割法ってちゃんとした評価が難しい。ていうか正式な分割法自体にコンセンサスが無いもんなあ)。
英語になっちゃいますが、関連した論文としてこれとかこれとかこれとか、興味深いです。中国語関連の文献が多いですね(単に英語の論文だからかな)。しかしつくづく英語(とか、separatorがある言語)はいいなあチキショー、と思う今日この頃。
【追記】この方の論文も無茶苦茶面白い。長尾先生マンセー。色んな論文がこうやって読めると良いのになあ。
【更に追記】僕は単語レベルの処理はもう諦めて(ChaSenMeCabに任せて)、更に文節の処理もCaboChaに任せて、文(もしくは発話)単位の処理をやろうとしてます。こんな感じ(psファイル)で出来たら面白いんだけど、やはりここにもタグ付けの壁が・・・。ある程度抽象化できればクラスタリングで処理できるんだけど、生のままで同様の処理を行うのは難しいと思われる。悩ましい。
【更に更に追記】完全に思いつきですが、タグ付きコーパスを利用した品詞付けのアルゴリズムを、文字種(漢字/ひらがな/カタカナ/アルファベット/読点/句点/記号など)をタグとみなした日本語プレーンコーパスに適用すると良い結果が出ないかな。完全にheuristicな処理なんで学問的には意味無いけど、実用上は結構行けるような気がしてきた。品詞の付与は後でクラスタリングで行えそう。これで未知語処理問題ともおさらばか?わはは。こう考えれば、unsupervisedな処理の問題を適切なタグをどう付けるかという問題にすりかえることができそうだ。ていうかそれが問題。