6月1日

2011/6/1作成

朝一度起きるけど、すぐに寝てしまう。次に起きたのはお昼。だめだめ。

カテゴリの無いページと孤立したページの一覧が更新されたので、その対応作業。それだけだったら大した作業ではないんだけど、スタブだったらつい調べて追記したり、Wikifyしたりとやってたら結構時間が掛かってしまう。

でも、孤立したページは順調に減っていて、1365件になった。私が始めてから500件以上減ったことになるのかぁ。まあ、中には削除されたのとか色々あるんだろうけどね。

駅チカ」と「エキチカ」の統合提案から2週間経ったので、「駅チカ」に統合を実施。報告。そして、「駅チカ (曖昧さ回避)」への改名を提案。

iPad」と「iPad 2」の統合提案。反対意見が出たので、私としては統合見送りのつもりだったんだけど、ガイドラインでは最後の意見が出てから1ヶ月は様子をみるとなっている。

で、あと一週間で1ヶ月になるなぁと思ったら、追加でコメントが付いた。反対票なんで議論の方向は変えないんだけど、これだとまた1ヶ月待たないといけない。その間に更にコメントがついたら更に1ヶ月と、いつまで経っても終了できないことになってしまう。

議論の方向は変わっていないということで、あと一週間で終了とする宣言をしてみた。ガイドラインには沿ってないかもしれないけど、バックボーンにある精神には反してないと思う。

画像とテンプレートの呼び出し数の乖離。更に調べると、また別の呼び出し方もあることが判明。いったいいくつあるんだろう。ヘルプには書いてない、ということは昔に使われた記法なんだろうなぁ。でまあ、使用しているページが残っている限りその機能は消せないと。でも、サイトは一つなんだから、全部書き換えちゃって廃止する事だって出来なくはないと思うんだけど。

更に調べていると、テンプレートの中から画像やテンプレートを呼び出している場合があることを確認。サイト上のリンク元検出ではそれも調べるけど、 wpjatoolではどうしようかなぁ。再帰的にテンプレートを内部で展開しないといけないから、ちょっと処理が面倒。とりあえず後回しにするか。

プログラムをつらつらと眺めていて、変数名を間違えているという大バグに気付いた。あかんやん。そら、数が合わへんって。あと、言語間リンクを考慮してなくて全部赤リンク扱いにしていたのを修正。赤リンクと判断する件数が減るはずだから、これで集計できるようになるかな。

テスト実行待ちの間にウィキペディアをつらつら旅してたら「プロジェクト:ウィキ文法のチェック」なるものを見つけた。というか、前にも見たことがあるんだけど。

ボットで文法チェックを行って、問題のあるページを発見する。つまり、今私がしていることと同じこと。ただ、以前に見たときはページの更新が止まっていたので、このプロジェクトは休止しているんだと思ったんだけど、よくよく見たら新インターフェイスに移行してたのね。見落としてた。

じゃ、私のしていることは完全なる車輪の再発明かというと、そうでもなさそう。確かに文法チェックという点では同じなんだけど、こちらのプロジェクトでは文法ごとに問題ページをまとめているから、このチェックに従うと、同じページを何度も修正することになる可能性がある。それはウィキペディアでは推奨されていない。かといって、一つのページについて全部のチェック項目を調べていくのは、チェック項目が多すぎて現実的ではない。

一方、私の作っているプログラムは、ページごとに文法チェックを掛けていくから、そのページに関する問題点は一箇所にまとまる。だから、それに従って修正作業を行うにしても基本的に1回で済む。

また、このプロジェクトでチェックしてない項目で私のプログラムでチェックしている項目も多数あるので、その点でも有意義だと思う。プロジェクトのプログラムは、あくまでもwiki文法のチェックだから、日本語表記のガイドラインとかまでは対象としてないし、リンク先が曖昧さ回避かリダイレクトかなんてことも調べてないようだし。そういう意味では、私の作っているプログラムはJPOV(日本中心の視点)なんだよなぁ。別に日本人だからいいんだけど。

一方、プロジェクトの方でチェックしている項目で、私のプログラムに取り入れられそうなのもいくつかありそうなので、それはありがたく組み込まさせていただくことにする。

あれ。ウィキペディア日本語版の略称はwpjaだと思ってたけど、どうやらjawpの方が一般的みたいだな。やば。プログラムの名称変えないと。内部で使ってるクラス名も全部変更。公開する前に気付いてよかった。

何度か失敗しながら、ようやくファイルとテンプレートの呼び出し数がそれなりなレポートが得られた。ここまで長かった。上でも書いたようにテンプレート展開して計測しないと本当の値にはならないんだけど、とりあえず注釈つけてそれでお茶を濁そう。他にもまだやりたいことはたくさんあるから、そっちが先。

ファイルとテンプレートが一応けりがついたので、次は赤リンク。とりあえず、赤リンクになっている一覧を出力してみる。結果は約200万件。これくらいならメモリに乗りそうだな。ということで、集計機能をオンにして実行。そして、無事成功。メモリ使用量も500MBくらいまでで止まったし。おおー、これで何も問題なし。素晴らしい。よく頑張った>自分。結局は、赤リンクじゃないものを大量に誤判定してしまっていたから、メモリがあふれてしまったということやね。なるほど。

で、待望の出来上がった赤リンクランキングを見てみたんだけど、利用者ページだらけ。あれ?今のpages-articlesには利用者ページは含まれていないから赤リンクになるのは分かるけど、利用者ページにリンクしているページがそんなに多い?ノートは含まれてないのに?と思ったら削除依頼とかのWikipedia名前空間のページからのリンクらしい。そこでの議論のときに署名すると、大抵は利用者ページへのリンクが付くからね。なるほど。ということは、利用者ページは除外するようにして処理しないといかんな。

ということで利用者ページを除外して再実行。しかし、今度は会話ページとかが出てきた。署名には利用者ページと会話ページへのリンクがセットだからな。まだ除外しなきゃいかんか。あー、あと#を使ったページ内見出しへの直リンクもあがってきてしまってるな。これも除外しないと。もう遅いので、続きは明日にしよう。


あおやぎのさいと2.0 新人うぃきめでぃあん日記