5月17日

2011/5/17作成

孤立したページの一覧が更新された。1433件。前回より200件以上減ってる。私が作業開始した頃からだと400件以上。これはちょっと誇っていいんじゃないだろうか。

ということで、新たに追加された孤立ページを処理していく。あと、カテゴリのないページの処理も。孤立した記事をチェックしていたときに見つけていた、削除したり統合したりした方がよさそうな記事をそれぞれ依頼にかけていく。

勢いで「井上きみどり」さんの記事を立項。

ウィキペディアのメンテナンス的作業をしていると、プログラムで処理したら楽になるだろうなぁということをいくつも思いつく。しかし、プログラムを組んでウィキペディアのサイトにアクセスすると迷惑だよな。と思って調べたら、ちゃんとそういう用途のためにデータベースダンプのダウンロードが用意されているのね。素晴らしい。

試しにスタブデータのアーカイブをダウンロードしてみたけど、これって1ファイルのXMLなのね。むむ。全データを一度に読み込むとメモリを食うな。やり方を何か考えないと。RDBMSに突っ込んで、SQLで処理するというのがまっとうかなぁ。いくらテキストデータとはいえ、シェルスクリプトでさくっとというわけにはいきそうにないな。ちなみに、スタブだけで600MB、2000万行もあった。ふはー。


あおやぎのさいと2.0 新人うぃきめでぃあん日記