5月28日

2011/5/28作成

lintさんは調子よく進行中。現時点で70万件ほど処理が終わってる。ということは、あと2日ほどで終了できるかな。

午前中、眠くて寝る。

ウィキペディアのデータって、一般に入手可能なフリーなテキスト群としては最大級なんではなかろうか。量としてはgoogleが持ってるデータとかの方が大きいだろうけど、一般には入手できない。自分でクローラ作って収集してもいいけど、権利関係の問題がある。

その点、ウィキペディアのデータは権利関係がクリアになってるから、どんな利用をしても大丈夫。そういう安心して使えるデータとしては、かなり規模が大きいものの一つだよね。例えば言語学とか社会学の研究データとして使うようなことが行われてもいいんじゃないだろうか。そこまでたいそうな話とまではいかないけど、自分としてはとりあえずMeCabのユーザ辞書を作るというようなことをやってみようかと思う。

そういえば利用自由なテキスト群としては青空文庫があるな。でも、あっちはそれなりの作家が書いたちゃんした文章だから、傾向が違うよね。ということで、ウィキペディアにも利用価値はあると思う。というか、こういうデータっていくらあっても困ることはないはず。

午後、wpjatoolの開発。MeCabでの解析結果とか見てると面白いな。「機動戦士ガンダム」を「機動」「戦士」と分解するまではいいが、「ガン」「ダム」はダメだろ(笑)。辞書に無いから当然だけど。というような辞書を作っていけるといいね。

そのMeCab解析のレポートも出力してみたんだけど、これも巨大で数百MBにも達してる。何気なくダブルクリックしてテキストエディタで開いてみようとしたことが悲劇を招く。ファイルがでかすぎてマシンが固まった。1時間くらい処理が終わるのを待っていたんだけど、最後には勝手にリブートしてしまった。がーん。 lintの処理も当然に途中終了。しくしく。まあ、そんなに極端に時間が掛からないことが分かったんで、やり直せばいいんだけどね。ついでに、少し高速化できるアイデアがあるから、やり直しのいい機会が出来たと思えば、それもそうだし。しかし、それにしてもなぁ。

ということで、lintを修正する。高速化にプラスして更にチェック項目を増やしたり。で、再度実行開始。20時半。

30分経過。。。既に1万件を突破してるんですけど。めちゃめちゃ速くなってるやん。これは、もしかしてやり直して正解?まあ、得てしてそういうものだけど。それにしても。最初からちゃんと速く作るべきということだよな。見切り発車したりせずに。

全記事名をMeCabに掛けるという機能をwpjatoolに追加。で、出来たレポートが450MB、1000万行という超巨大なもの。これ、誰が目を通すんだ?って、私しかいないけど。バイト雇おうかな(←どこにそんなカネがあるねん!)

出来上がったレポートをテキストエディタでいきなり開くという愚行はもう繰り返さない。splitで10万行ごとに100ファイルに分割した。これなら開けるもんねー。でも目を通すの大変だけど。

MeCabのIPA辞書を眺めていて思うんだけど、いわゆる半角文字が全然登録されてない。もしかしてMeCabではご法度なのか?と思って全検索掛けてみたら「Tシャツ」発見!大丈夫みたい。日本語の文章といいつつ、半角の英数字や記号は混じってくるから、その辺も辞書にあると便利だろうね。

検索しているときに「浮津一番f」なる謎の単語を発見。typoだろうなぁと思いつつ、浮津一番でぐぐってみたら、その誤登録の開発者への報告が一番上にやってくる。浮津一番(高知県室戸市の地名らしい)に住んでいる人にとっては酷な話やなぁ。

しかし、2006年に報告されて次のリリースで修正しますと言いつつ、未だに直ってないんですけど。って、こんなところで言ってもしょうがないけど。IPA辞書はgoogle IMEでも利用されているようで、そっちでの誤変換報告にもあがってしまっている模様。

それにしてもMeCabの出力結果を目で見て全部確認していくのはしんどいなぁと思ったら、--unk-featureなるオプションを付ける事で品詞推定を抑制して、指定した品詞(unknownとか)にすることが出来るらしい。おお、素晴らしい。これでチェックが楽になる。

ということでレポートの作り直し。しかし、これでも万全ではないんだよなぁ。未知の単語でも、組み合わせで辞書にマッチする場合があるから(「アンパサンド」が「アン」「パ」「サンド」に分解されてる)。結局、全部目でチェックしなきゃならんことには変わらんわけか。

しまった、lintをかけなおすんだったら、最新のデータに差し替えればよかった。うかつ!

MeCabの出力を見ながらユーザ辞書を作っていく作業に取り掛かるんだけど、凄い手間が掛かる。全然はかどらない。いちいち読み仮名も調べないといけないし。むーん、なんかやり方を考えないといかんなぁ。これでは全部登録が終わるのに、いつになるかわかんないよ。


あおやぎのさいと2.0 新人うぃきめでぃあん日記