6月29日

2011/6/29作成

久しぶりにjawptool。何をやっていたか忘れてしまいそうだけど、意外と覚えているものだった。

lint機能はだいたい出来上がったと思っていいかな。試しに出力してみると、レポートは15000行。これくらいなら、修正作業もなんとかなるかな。

あと、lint-titleという機能を追加。記事名のチェック機能。行うのは、曖昧さ回避のカッコの違反と、BMP外文字の使用チェックくらいなんだけど。他に何か出来ることがあるかな。試してみると、BMP外文字の使用は一つもなかった。一つくらいはあるかと思ったのに、意外だな。

BMPというのはWindowsの画像ファイル……ではなくて基本多言語面というもの。UNICODEという文字コードにおける用語というか概念です。UNICODEの話は、深入りするとそれはそれは色々ややこしい話があって、私も全部ちゃんと理解しているわけではないんで、さらっとだけ書いておくと、最初のUNICODEにはBMPしかなかった。BMPでは1文字16bitで、つまり世界中の文字を最大65536文字まで収録出来るという設計だった。これで十分と当時は思われたんだけど(1990年頃の話です)、実際には全然足りねーということで拡張されることになったので、最初に定義されたのを基本多言語面(BMP)、拡張されたものを追加多言語面と呼ぶことになったわけです。

ウィキペディアのシステムであるMediaWikiでは、本文にはUNICODEの全ての文字が使用可能だけど、ファイル名にはBMPの文字しか使用できないという制限がある。だから、BMP外の文字が無いかどうかチェックするのは有効かなと思ったわけ。でも、実際には記事作成時にブラックリストがあって、そこではじかれて作成されないようになっているらしい(詳しくは知らない)。

即時削除の方針のノートで、出典の無い存命人物を全て即時削除しようという提案がされて話し合われている。意見を述べようかとも思うんだけど、それ以前にそもそも対象となる記事数がいくらなのかというのが気になったので、jawptoolに機能を組み込んで調べてみる。

結果、76364件。うわー、もしもこの方針が採択されたら、ウィキペディア日本語版から1割の記事がなくなることになるのか。それは、方針の変更で話し合われる内容というよりも、もっと大規模な討論としなければならないくらい影響範囲が大きすぎないだろうか。

テスト用のデータを5月22日版から6月12日版に変更する。やっぱ新しい方がいいもんね。

そういえば出典のない記事作成時の編集フィルターがあったなぁと思って議論を探し、正規表現をいただく。これで存命人物記事を再検索。

カテゴリなしと孤立ページが更新されたので作業。今回はややこしい案件はなかった。よかよか。

削除依頼をチェックしてて、ややこしい案件をみつけてしまった。「ファイル:The old main building of Meiji University.png」という明治大学の旧記念館の建築模型の写真の削除依頼。依頼理由は著作権侵害のおそれ。言われてみればわからんな。どうなんだろう。一般に建築物の写真は勝手に撮って公開して構わないことになっている。では建築模型の場合はどうか。ぐぐってみたけれど、これが正解というものはみつからなかった。

ただ、建築物の写真が自由なのは、著作権法46条で「屋外に恒常的に設置されているもの」「建築物」が明確に除外されているからというのはわかった。ということは、そこで規定されていない建築模型は写真を自由に使ってはいけないと解釈するのが自然かな。安全に倒して考えるという意味でも、削除が妥当だろうと考えて、そのように投票してみた。さて、結果はどうなるだろう。

何気にデータベースダンプのページを見にいったら、6月28日版が公開されてるよ。がっくし。早速ダウンロードするけど。それにしても、この更新って何とか通知してもらえないものかな。RSSが公開されてるのでもいいんだけど、なさそうだし。残る手立てはアンテナ登録か。ということで、はてなアンテナに登録して、更新通知をメールで受け取るようにする。

jawptoolの各種処理を全部行うバッチ的なスクリプトを書く。新ダンプが来たら、毎回同じ事をやるわけだからね。でもって、バッチを仕込んで寝る。


あおやぎのさいと2.0 新人うぃきめでぃあん日記