5月29日

2011/5/29作成

朝ちょっと遅く起きる。

lintさんは、、、終わってる。そうだろうとは思ったけど。半日かからんかったな。当初の28年というのはなんだったんだ。自分の情けなさに涙が出そう。まあ、終わったからいいんだけど。

ちなみに、出来上がったレポートは1GB、2000万行にも及ぶ超大作。これを元にウィキペディアの修正作業をするのは……もしかしたらライフワークになるかもしれんな。

昨日の反省を込めて、1000行ずつsplitする。出来たファイルは2万。当然だわな。

午後いっぱい使って、lintの出力結果をもとに修正作業を行う。1000行のファイルをだいたい10個ほど処理できた。全部で2000万行だから、フルタイムで作業して1000日掛かるんか。やってられん。

作業していて気がついたけど、重複リンクの検出とか、リンク候補とかは、数が多すぎていちいち見てられない。ということで、レポートからこれらの記述を削除した簡易版レポートを作ってみる。うう、これらの検出処理を高速化するのに時間掛けたのになぁ。まあ、おかげでMeCabとか新しいことを覚えられたんで、いいんだけど。

孤立したページとカテゴリの無いページの一覧が更新されていたので、それぞれ対応作業をする。

エキチカ」と「駅チカ」の統合提案がもうすぐ二週間の期限になるな。反対意見は出そうにないから、忘れずに統合作業をしないと。統合といえば「iPad 2」と「iPad」の統合は反対意見が出てもうすぐ1ヶ月になるので、こっちもタグ剥がしの作業を忘れずにしないと。

lint結果に基づく修正もする。しかし、果てしないな。レポートを削ったけど、それでもこの作業が完了すると思えない。なんか考えないといかんな。さて、どうしよう。


あおやぎのさいと2.0 新人うぃきめでぃあん日記