5月31日

2011/5/31作成

朝それなりに早く起きる。さすがに早く寝れば早く起きれるか。でもちょっと眠いな。

あまゆーず」は版指定削除で記事は生き残ったー。やったー。しかし、「赤いサイロ」は削除予告となってしまった。

lintのレポートはファイルサイズが1GB、2000万行、対象記事数70万件。とても一人でこなせる量ではない。とりあえず重要でない警告を外してみたところ、200MB、460万行、(記事数は変わらない)になったけど、やっぱり無理。更に、警告件数が10件以上のものに絞ったら、レポートサイズが8MB、13万行、4500記事まで減った。これくらいならなんとかこなせるかなぁ。それでも相当な期間が掛かりそうだけど。

うお、管理者に二人も立候補者が出てる。確かに、ここんところたて続けに管理者が辞めてたし、それでなくても管理者が少なくて大変という話はあるから、増えるのはいいことだろうなぁ。ただ、立候補者の一人は過去にも2回も立候補して2回とも不信任されているという人なんだけど。さて、どういう結果になることやら。

管理者が足りてないのなら、自分も立候補してみようかという気持ちは少しはないこともないけど、少なくとも今はやる気はないなぁ。管理者というプレッシャーに耐える自信がない。それに、管理者を助けるには、管理者にならなくても、一般のウィキペディアンとして出来ることもたくさんあるんじゃないかと思うし。

午前中、ぐーぐー寝る。よく寝た。

海星とメールでチャット状態。色々意見を貰う。なるほどねぇ。読者視点というのは大切だ。未だにそんなこともわかってない自分というのが情けないけど。

このテキストは、私としては、ウィキペディアンに読んでもらって、にやっとしてもらうことを目的に企画したんだけど、ウィキペディアンじゃない人に編集作業ってどんな感じかを知らせるという役目も果たせるということを気付かせてもらった。なるほど。そっちの方が有意義かもしれんな。そういう方向で加筆を頑張ろう。

午後、wpjatoolの開発。集計機能を作っていく。被リンク数のランキングとかはウィキペディア上にもあるんだけど、今は更新が止まっているから、公開するとそれなりにありがたがってくれる人がいるんじゃないかと想像。

一通り出来たので本番データで走らせてみる。が、なかなか終わらない。つーか、ディスクがりがり言ってるよ。メモリが足りてなくてスワップしてますな。ということでVMwareのメモリを512MBから768MBに増やしてやって再実行。でもやっぱり足りない。うーん、そんなにメモリをふんだんに使うようには組んでないつもりなんだけど。どっかで解放されてないメモリがたまっていってるのかな。

改名提案を出していた「Avalanche Press」という記事について、改名案の「アバランスプレス」は間違ってて、「アヴァランチプレス」か「アバランチプレス」が適切なのではという指摘が。言われてみればその通り。あれ?初稿起稿者のデフォルトソートの記述に沿ったつもりだったけど、見直してみたら、ちゃんと「あはらんちふれす」になってるよ。間違ってるの私だけ!恥ずかしい。だから語学力の無い奴はあかんねん。これから、外国語関係の改名提案はしばらく控えようかな。提案は修正したうえで、審議期間を本日から一週間に延長することにして対応。

wpjatoolでメモリを食う問題。今更ながらメモリ使用量を見積もってみる。現状、記事が150万件あるけど、そのタイトルデータを全てオンメモリで持つようにしている。1件あたり100バイトとして、150MBか。大きいけどスワップするほどではないな。ただ、これを1セットではなく複数セット持っているのが問題だな。うまく統合して持てるように変えれば大丈夫かな。

ということで、少々修正してみたところ、先ほどよりは進むようになったけど、やっぱりメモリを食ってスワップするようになる。うーむ。もしかして、と思って赤リンク(未作成記事へのリンク)の集計を外してみたら、何の問題もなく終了するようになった。topコマンドで確認する限り、メモリ使用量も200MBくらいと、大体見積もりどおりだし。ということは、赤リンクか。

考えてみれば、赤リンクの数は通常の記事数よりもはるかに多いかもしれんわけだな。そりゃメモリ食うか。原因は分かったけど、対処はどうしよう。現状、ハッシュでデータを持っているわけだけど、これを通常配列に変更する?でも、記事名と使用数を保持しないといかんから、やっぱりハッシュが最適だよなぁ。集計を2回に分けて、3パスにするか?それでも処理完了できるか、微妙だけど。

とりあえず赤リンクを外した集計結果を眺めていたんだけど、ファイルとテンプレートの呼び出し回数が実数と乖離が激しい。なんでかなーと調べたら、私の知らない呼び出し方が他にもあった。がーん。ヘルプをよく読まなあきまへんな。ということで修正。

それでも乖離が激しいなぁ。もしかして、と思って試してみたらやっぱり。ウィキペディア上では、ファイル名におけるスペースとアンダーバーは等価なんだ。「あ い」と「あ_い」はどっちからでもアクセスできるようになってる。

一方、私のプログラムでは同一視処理をしていないので別の記事ということになって呼び出し回数にカウントされなくなってしまっている。スペースかアンダーバーのどっちかに統一する処理を入れないといかんというわけだな。

うーん、今日はもう遅いし、明日にしよう。本番データでテストしてるから、処理が終わるまでに時間が掛かってしまって、なかなかテストがはかどらない。


あおやぎのさいと2.0 新人うぃきめでぃあん日記