6月2日

2011/6/2作成

昼頃起床。だめだめ。

wpjatool。よく考えると、今はノートと利用者ページを除いたpages-articlesというアーカイブを使っているけど、統計情報を取るにはそれらも含めたpages-meta-currentを使うのが適切ではないのか。一方、lintをかけるにはこれまでどおりpages-articlesがよさそうだよね。ということで使い分けることにしよう。

赤リンクリストを見直してるとiPhoneなんてのもあがってきてるな。そんなページがないわけなーいと思ったら、ウィキペディアの記事ファイル名は先頭が大文字になるというルールがあるんだった。だからファイル名はIPhoneなわけか。それも対処しないといかんな。まだまだやることがいっぱいあるー。

ちょっと昼寝。やっぱり寝不足だったかな。でも、寝て起きてもまだすっきりしない感じなんだが。今日は早めに就寝することにしよう。

ということで、pages-meta-currentをようやくダウンロード。展開してみると、7.6GB、1億行ですか。こりゃまたやりがいのありそうなデータで。

pages-meta-currentに対して集計処理がようやく完了。が、赤リンクは利用者ページが多いな。そうか、利用者ページを作ってない人は赤リンクになってしまうんだ。んー、仕方が無い。利用者ページは特別ケースということではじくことにしよう。

ん?利用者ページの赤リンクは除外処理するんだったら、集計対象のデータにそもそも利用者ページは全く含まれてなくてもいいわけだから、重たいpages-meta-currentではなくてpages-articlesで十分ということかな。んー、でも利用者ページやノートページも含めた全統計というのも意味がありそうだから、このままでいいか。ウィキペディア上の各種統計ページも基本的に全ページを対象にしてるみたいだし。

赤リンクリストは、だいぶバグが取れてきたけど、まだいくつか問題が。リンク先が存在するのに赤リンク扱いになってたり、使用数が明らかにおかしかったり、エスケープされてる文字列を戻してなかったり。完成は遠い。しかし、今日は気力が尽きたので、続きはまた。とりあえず寝よう。


あおやぎのさいと2.0 新人うぃきめでぃあん日記