自然言語処理

Double Array Memo

ついでに。現在のChaSenやMeCabはこちらを使っているらしい。最近は勉強する時間が全然ないので、Suffix Arrayとどう違うのかよくわかってません。あ、dartsバージョンあがってますね。しらなんだ。 解説 http://www.links.nectec.or.th/~thep/datrie/ 実装 …

Suffix Array Memo

昔ChaSenで使われてた。そう言えばSufaryのコードを追っかけたことがある。その後パトリシアになったんだっけ・・・。うーん、記憶が曖昧。 解説 http://www.namazu.org/~satoru/unimag/9/ http://member.nifty.ne.jp/DO/suffix_array.htm http://sary.namaz…

人工無脳エンジンGhoti

お、Ghotiがlemoさんのところのマーグ以外の無脳たちに登録されてる。自分で登録するのは気がひけてたんです。ありがとうございます。 僕がruby使ってるのは、単に正規表現で日本語を扱うのが楽だから、だったりします。 それと無脳か無能かですけど、個人的…

人工無脳エンジンGhoti

現実逃避でちょっとだけアップデート。irc用ボットのスクリプトを用意しました。 詳しくはWhat's newの記述をご覧下さいまし。

人工知能あいむず

ロイディのページから辿ってみた。どうやら古き良き推論エンジンのようです。 「今後の企画」として挙がっている推論規則の自動生成は面白いかも。ていうかソース公開きぼんぬ、と言ってみるテスト。

人工無能 ロイディ

興味深い・・・。Maro's...memo?より。

形態素解析サーバ

思いつきついでにもうひとつ。 形態素解析でネックになるのが未知語の処理だけど、いちいち辞書登録してコンパイルして、ってのは結構面倒。なので、みんなでよってたかって登録できる仕組みを作ったら面白そうだ。辞書だけ共有しても面白みがないので、いっ…

はてなダイアリーキーワード

羊堂本舗さんのこれ(世に争いの種は尽きまじ)を読んでの思いつき。 このキーワード群を無脳の辞書に使えないかな。解説文中のキーワードのリンクとか「○○を含むキーワード」のリンクをたどったりすることである程度階層化できそうだし。もしくはこんな感じ…

Towards Answering Opinion Questons

面白そうなのでメモ。後で読んでみよう。ちなみにフルタイトルは Towards Answering Opinion Questons: Separating Facts from Opinions and Identifying the Polarity of Opinion Sentences 長すぎ。 くどうさんのきまぐれ日記から。

人工無脳エンジンGhoti

ここで気付いたバグの修正。一応、連想の実装のつもりなんだけど、よけいとんちんかんになったかも。まいいか無脳だし。わはは。

人工無脳エンジンGhoti

使い方と会話例を追加。 また、実は先日irc参加の実験をしてみたところ、さっくり成功してしまった。引越しの片付けが進んで昔のPCがダンボールの山から発掘されたら、IRC #Margsへ常駐させるようにしよっと。

お勉強中

Next stepを探るために(笑)色々論文を読んでお勉強中。 森さんの論文が前から気になっていたので、いい機会だから拾い読みしてるんだけど、「形態素bi-gramと品詞bi-gramの重ね合わせによる形態素解析(303[KB], PSファイル)」を読んで、ここで提案されてい…

IRC #Margsへ接続してみた

かなり楽しい。やはり次の課題は、Ghotiをここへ参加させることだなあ。

人工無脳エンジンGhoti

キーワードの処理まわりでバグ発見。ていうかバグというよりは実装忘れ。 処理の流れとして、 人間の発言からいくつかキーワードを切り出し その複数のキーワードからランダムに1つ取り出して そのキーワードを元に関連語を選ぶ はずだったんだけど、最後の…

人工無脳エンジンGhoti

ファイル置き場にアップロードしました。rubyとMeCabが必要です。 使い方はょゎさんのsixamoとほぼ同じです(非常に参考にさせていただきました。感謝します)。データ置き場のディレクトリにghoti.datと言うファイルがあると、それを学習ファイルとみなし、…

異本「計算する機械と知性について」

メモ。結城さんのwww.textfile.orgより。新山さんの訳とその原文も。

今後の見通し

目先の課題が済んでないのに今後の話をするのもアレだけど。 いずれ、ここで以前書いたように、文節の連鎖、発話の連鎖をマルコフ過程として扱えれば、と思ってます。 現状の単語(形態素)単位のマルコフ連鎖では、極端な話、開き括弧に対応した閉じ括弧を…

プロトタイプ完成

結局、いろいろ作ってみたあげく、普通にマルコフ連鎖でまずは動くものを作ってみた。 特徴としては、 Rubyで書かれている 形態素解析器にはMeCabを使用 文生成のアルゴリズムはMargarineのものを参考にした(要はtrigram) RDBMSは使わずひたすらハッシュを…

MeCab on Cygwin

MeCabをCygwinで使おうとすると、例によってそのままではコンパイル通らず。./configure --enable-shared=noとしてshared libraryを作らなければ良いんだけど、これだとruby bindingが使えない。 ということで無理やりなんとかしてみた。autoconfとかよくわ…

YamCha/CaboCha/MeCabアップデート

YamCha 0.26、CaboCha 0.41、MeCab 0.76にそれぞれバージョンが上がった模様。 くどうさんの気まぐれ日記より。 【追記】そう言えばChaSenも2.3.1に上がってますね。ipadicも2.6.0になってます。

完全に独学・・・

ょゎさんどうもです。 僕の場合、誰かに習ったというのは全然無くて、社会人になってからの完全な独学です。Googleで手繰って手繰って手繰りまくるだけ。だから理解も中途半端で系統だってないし、そもそも数式なんて全然読めない(だから実装しようと思うと…

Googleの人材募集

新山さんのところでも話題になったことがあったけど、僕も見つけました。Citeseerで遊んでいて見つけたGoogleの人材募集の広告。アタマいいよなあ、Google。 【追記】すいません、リンク間違えてました。ナゾの記述になってしまった。

対話コンテンツ技術専門委員会

メモ。対話のタグ付きコーパスがダウンロードできる。素晴らしい。

付与データなしの単語分割

ょゎさんのところに反応。 プレーンコーパスからの単語分割って、あんまりやってる人いないんですよねえ。だいたいタグ付きコーパスを前提にしちゃってる(これも素晴らしい形態素解析器が普及したおかげか)。 昔は、ここから、この方の修士論文がダウンロ…

帰ってきたマルコフ連鎖による作文

これの続き。 ょゎさんのところに反応して、rubyでの実装を探してみたら2つあった。これとこれ。どっちも僕のよりはるかにrubyらしい。そうかこう書くのか。

係り受け解析結果のツリー表現

今日はこれだけ。これ、ちょっと面白いでしょう。 ここ数日やってたのが、このCaboChaによる係り受け解析の結果をツリー表示するもの。Graphvizのdotというツールを使っています。 このGraphvizの日本語化に手間取ってたんだけど(ああ、また本質と離れたと…

連想としての意味

実装してみたって、すごい!ょゎさんのところより。 僕もこれはいずれ実装してみたいと思ってます。ってその前にプロトタイプでも良いからなんか作らないとなあ。

続・マルコフ連鎖による作文

一昨日のコレの続き。 「プログラミング作法」は出てすぐ読んで忘却の彼方にあったので、引っ張り出してみた。で、Perl版があったので、rubyで書き直してみたのがこれ(ruby使いの方、もっとエレガントに書き直してください)。 #!/usr/bin/ruby # markov.rb…

あなたのロボットに知識を加えるためのチュートリアル

裏・kdooさんのところより。A.L.I.C.E. AI FoundationてとこでGPLで配布しているAlicebotって無脳のチュートリアル(らしい)。 このAlicebot、知識体系をAIMLってタグ言語で記述するもの。まあなんというか、いわゆるエキスパートシステムというかElizaの孫…

マルコフ連鎖による作文

形態素解析器を使わなくてもかなりいけるのだなあ。Margarine伝言版より。 これは形態素(というよりは、それに似たもの)の連続をマルコフ過程として扱っているわけですね。 で、僕がやりたいのは、更に文節、文、(複数発言者がいれば)ひとりの発言単位、…