5月26日

2011/5/26作成

lintは6時間経過で約4万件。ということは9日間で終了する見込みか。だいぶ現実的になってきたな。

そして、CPUを占有できない原因も分かった。VMware上の仮想マシンだからオーバーヘッドがあってフルスピードが出ないというものだった。考えてみれば当然か。実行開始から6時間経過時点でもCPU消費時間は100分ほど、そしてリブートしてからのuptimeが約2時間。つまり、 FreeBSD上では問題なくフルスピードで動いていたわけだ。

ということは、VMwareをやめてFreeBSDを直接インストールすれば3倍速で3日間で処理が終わるということになる。が、生活マシンだからそれは不便だなぁ。VMwareで少しでも高速化する方法がないかとぐぐってみたら、ドライブ類を全部切断するとかフルスクリーンモードにするとかあった。なるほど。使ってないときは、フルスクリーンにするようにしよう。ああ、Windows上で動けば何の問題もないのに。うらめしや。

更に高速化できないか少し試したけど、あまり効果は出ず。仕方が無い。現状のプログラムで本番実行しよう。ということで15時頃開始。今月中には、、、終わらないだろうなぁ。

重いのはMeCabによる形態素解析だよなぁ。ChaSenより遅いってことはないだろうけれど、より機能の単純なKaKaSiと比べたらどうなんだろうとぐぐっていたら、MeCabの使い方を間違っていることを知った。今やってるみたいに品詞情報も取得するんじゃなくて、単に分かち書きとしてだけ使うことも出来るのね。で、試しに書き換えてみたら3倍速くなった。何事!?なんちゅう速さや。ということで本番実行もやり直し。開始は16時。もしかしたら今月中に終わるかも。

約2時間経過。どこまで進んだかなと思ったら約8000件。あれ?遅くなってるよ。どう考えたって速くなるように変更したと思ったのに。またキャッシュミスとか、そういう関係かなぁ。

幸いに、VMwareをフルスクリーンモードにしていると、CPUをほぼ占有できるようで、CPU消費時間は2時間近くとなっていた。それは一ついい材料なんだけど、さーてねぇ。どうしたものか。

とりあえずコードを元に戻して再度開始してみる。開始時刻は18時半。これで2時間後にどこまで進んでいるかで判断しよう。

考えてみれば、記事の大きさにもばらつきがあるんだから、必ずしも同じ速度で処理が進んでいくわけでもないよな。ということは、比較も同じ条件でしないといかんということだ。これまで、そのときの思いつきというか、生活時間に合わせた条件で比較してたのがよくないのかもしれん。

MeCabのオプションを戻し忘れてたんで、またやり直し。20時開始。んー、でも遅い。昨晩の2時間4万件というのはなんだったんだ。と思って修正履歴を調べてみると、レポートを見やすくするために項目をソートする処理を追加してた。こんなん、無くていい。いや、あった方がいいけど、それで遅くなるんだったら無くていい。ということで、外してまたしても開始。20時半。

2時間経ったけど、やっぱり1万件ほどだなぁ。昨晩の2時間4万件は幻か?どのバージョンで実行したのかわからんようになってしまった。もしかして、何かの機能をオフにしていたものか、見間違いだったんだろうか。うーん、うーん、うーん。

孤立したページとカテゴリの無いページの一覧が更新されたのでメンテ作業。しかし、カテゴリの無いページというのは、大抵は荒らし編集の結果だったりするので編集合戦になっていたりする。そういうのは、巻き込まれてもしんどいので放置。本来なら、荒らしている人の会話ページで対話を試みたりするのがいいんだろうけれど、今の私にはそんな精神的耐性は無いので遠慮しておく。あと改名提案を1件出した。


あおやぎのさいと2.0 新人うぃきめでぃあん日記