7月3日

2011/7/3作成

集計結果が出たので確認。マジックワードについては、うまく抑制できたみたい。よかった。しかし、これで完成とはいかない。まだ変なのが検出されているので、デバッグ出力を仕込んで実行してみる。

で、デバッグ出力の結果を調べてみると、カッコが二つではなく三つの{{{…}}}なんて記法があるのね。どういう意味かわからないけど。これをテンプレート呼び出しと誤認していたので、除外するように修正。あと「Template:Category:日本の都道府県/下位」なんてのがあるんだけど、これがよくわからない。テンプレートなのかカテゴリーなのか。一体どういう機能で、どういう出力になるのか。実際に使用しているところを確認してもよくわからない。機械的にはじいちゃっていいのかなぁ。とりあえずそうするかなぁ。

ということで修正して再集計。なんだけど、なかなか進まない。おっかしーなぁと思ってプロセスの状態をよくみてみたらスワップしてるやん。がーん。そら遅いわ。VMwareのメモリの割当を384MBに減らしたままだったのを忘れてた。ということで、集計を止めてメモリを512MBに増やして再始動。むーん、4時間くらい無駄に過ごしてしまった。

MLにブロック解除願いの投稿があった。ウィキペディア日本語版においては、ブロック解除手続きは当人の会話ページで行うことになっているので、以後の手続きはそちらに移行。ちょっと興味がわいたので、悪趣味と思いつつ会話ページをウォッチしてみる。さて結末はどうなることやら。

ちなみにブロックというのは、アカウント(もしくはIPアドレス)がウィキペディアの編集が出来なくなること。ブロックを設定するのは管理者さん。ブロックの理由はさまざまだけど、一言で言ってしまえば「ウィキペディアにとってよくないことを行う人」がブロックされる。分かりやすい例では荒らしとか。あと、他の編集者との対話を拒否して独断的に編集したりするのもブロック対象になる可能性がある。

ブロックには期限があるものと無期限の二種類ある。期限があるものは、その期限が過ぎると自動的にブロックが解除される。ま、その期間に頭を冷やして、ウィキペディアのガイドラインを熟読して理解しなさいって事ですな。一方無期限というのは基本的に解除されない。昔は追放という制度があったそうだけど、それに近い。要するに更正の可能性ゼロとみなされたということやね。

ブロックを期限付きで設定するか、その期限はどれくらいにするか、無期限にするかは管理者さんが決める。まあ、だいたい初回ブロックとかだと期限付きで、何回もブロックを受けている場合には無期限になったりするみたい。

ブロックされた人はウィキペディアの編集が出来なくなるので大人しくしてないといけないんだけど、悪い人の場合は別アカウントを作ってそっちで編集作業をしようとしたりする。こういう行為をソックパペットというそうなんだけど、ソックパペットとみなされるとこれも大抵はブロックされる。

ソックパペットと判断する理由は編集傾向(どういう分野の記事を編集するか、文章の癖が共通するかなど)からも判断されるけど、なんと言っても決めてはIPアドレス。同一時間帯に同一IPアドレスだったら、そりゃ同一人物だよなって判断される。会社や学校などで、多人数が同一IPアドレスを共有している場合もあるから一概に言えないけど、その辺はIPアドレスの所有者から大抵は判断できる。IPアドレス情報はプライベート情報なので、チェックユーザというごく限られた人にしかチェックは出来ないようになっている。

ところで、このブロックでちょっと驚いたのは、この人についての管理者掲示板などにブロック依頼やブロックに関する議論が一切なく、言ってしまえば管理者の独断でブロックが実施されていること。

方針文書をよく読んでみると、確かに管理者の独断でブロックすることも出来るようなんだけど、原則はブロック依頼→合意形成→ブロック実施ではないんだろうか。ブロックについては、これまであまり見たことがないから、よくわからんなぁ。

ただ、ブロックされた当人にとっては正に青天の霹靂なわけで、とても驚いておられたようだ。そりゃそうだろうなぁ。そして、それは他人事ではないのかもしれない。自分がいつ突然ブロックされるか分からないということでもあるわけだな。別にブロックされるような悪い編集行為をするつもりはなくても、他の人の巻き添え等でブロックされることは有り得ないわけではないわけで。まあ、巻き添えの場合は、今回の場合のようにブロック解除を申し出ればいいんだけど。

jawptoolは今のところperlスクリプトだけで動くように作っている。だから、xmlのパースも毎回やってるので、その分無駄なことをしていると言えばしている。最初に1回だけパースして、次からはパース済みのデータを使うようにすればいいんだけど、それをファイルに保存するとなると、結局xmlではない形式になって、その形式をパースしなければならない。

順当な発想としては、RDBMSにデータを格納してってのがいいんだけど、そうすると実行環境が複雑になる。とりあえず今のところはパースの時間が致命的に遅くて困るというわけでもないし、手軽に処理環境が構築できるということを重視して、現状のままにしておこうと思う。

jawptoolの集計。またスワップ起こしてるよ!512MBでも足りなかったか。仕方がないので768MBに更に増やして再実行。VMwareに割り当てるメモリをあんまり増やすと、Windowsが不安定になるからやりたくないんだよなぁ。メモリの使用量を減らすように考えてみるか。その前に、ちゃんと動くようになるのが先決だけどね。

久しぶりに利用者ページを更新。この間に新規作成した記事名を追加したのと、多重アカウントに関する宣言を追加。これでガイドラインどおりに宣言したと思うんだけど、ほんとに大丈夫かなぁ。旧アカウントのパスワードを思い出せない方がかえって問題は簡単だったんではないかという気もしないでもないけど、思い出してしまったものは仕方あるまい。ということで、自分の出来る限りの事をしよう。そして、出来る限りの事をしたと思うので、これでよしとしよう。それで何か実害をこうむっても、困るのは私なんだから。

カテゴリなしと孤立したページの更新があったので作業。今回も取り立てて複雑な案件はなかった。あると大変なんだけど、ないとそれはそれで寂しいものでもあるんだよなぁ。

建築模型の写真の著作権について、反論のコメントがついた。要約すると「建築物の写真がOKなんだから、その忠実なコピーである建築模型の写真もOK」という主張。うーん、それでいいのかなぁ。プロフィールを見ると、知財関係の法律の専門家の方だそうなので、私のように素人が思いつきで言っているのとはわけが違うようなんだけど、でもそれでも私は納得いかない。

問題を複雑にしているのは、この建物って現存しないんだよね。現存していないということは、コピーではなく単独の模型ということになりはしないだろうか。だとしたらNGだよなぁ。一方、この建物ってかなり古いから、著作権の保護期間が終了しているんじゃないかという気もしてきた。ああ、一体どうするのがいいんだろうか。

あ、更に別の問題がある可能性があるな。この画像は大学の展示室に展示してあるんだけど、その展示室が写真撮影を許可しているかどうかだ。許可していない場合、著作権とは別の問題が発生すると思われる。これについては大学の展示室に問い合わせればわかることだから、明日にでも電話してみるか。

ウィキペディア日本語版では、本文はもちろんUNICODEにある全ての文字が使えるんだけど、記事名についてはJIS X 0208の文字のみを使うというルールになっている。が、実際に自分が記事を作ろうとしたときに、その文字がJIS X 0208に入っているかどうかなんて調べられるものではない。多分、他の人もそうだと思う。ということで、こういうことこそlintの出番だろうということで、記事名lintで文字種のチェックを追加してみようと思う。

で、その下調べとして、perlのEncodeモジュールを使って文字コードを変換してテストしてたんだけど、よくわからん。文字コードって、あんまりちゃんと勉強してないから弱点なんだよなぁ(←ではお前に得意分野があるというのか)。しばらく格闘したけど、眠くなってきたこともあって頭が回らなくなったので、今日は切り上げることにする。

JIS X 0208について少し。JIS X 0208というのは文字コードの一種で、いわゆる「JISコード」のこと。最近ではあまり聞かなくなったけど、1水(JIS第1水準漢字)、2水(JIS第2水準漢字)とか言われてたもの。JISの名前の通り、日本の規格であって、収録されている漢字も日本でよく使われているもの。

一方、ウィキペディア/ウィキメディアは国際的なプロジェクトなので、システム的にUNICODEが採用されている。だから、日本以外の文字も問題なく扱える。それはそれでいいんだけど、一方で古いPC(OSがWin9xとか)だと、UNICODEの文字は表示できなかったりする。だから、せめて記事名だけでもちゃんと見えるように、記事名についてはJIS X 0208の文字だけに制限しようという日本語版でのローカルルールが存在するというわけ。


あおやぎのさいと2.0 新人うぃきめでぃあん日記