3月4日

2012/3/4作成

今日も削除依頼対処。18件処理。ぜいぜい。もうしばらく削除依頼は見たくない?。ウィキペディア中毒という症状があるけど、削除処理で中毒はいやだ?。

井戸端に「Wikipedia:短いページ」について、その有効性の提議があった。MediaWikiの機能として「短いページ」という自動生成されるページがあって内容的にはそれに近いんだけど、データベースダンプを元に手動で一覧が作成されているという点が違う。なんで自動生成されるものがあるのにわざわざ手動で一覧が作成されているのかというと、自動生成されるものには「Wikipedia:曖昧さ回避」などが含まれてしまって、いまいち実用にならないかららしい。曖昧さ回避なんてのは日本語版固有の名称だから、全言語を対象にしたMediaWikiに対応してくれというわけにもいかず(言語別の設定ファイルなどを用いれば不可能ではないだろうけれど)、仕方がないのでそういったものを除いた一覧を作成しようということがあったものと想像される。

なんで「想像される」と書いたかというと、この一覧って2008年を最後にずっと更新されてないの。更新作業をしていた人がウィキメディアを辞めてしまったのか活動が途絶えてしまっていて、跡を継ぐ人もいなかったために更新されず放置されているということになってる。だから、どういう経緯で作られたのかも、作った当人達がいないからよくわからないというわけ。

で、井戸端での話の流れとしては、更新されてないのだったら現状と合ってないわけだし一旦削除してしまってはどうかという風になっている。それ自体には別に異論はないんだけど、更新されてないことだけが理由だったら、更新すれば残しておいてもいいということになるよね。幸い、一覧を作るための手順書がちゃんと残っているので、他の人でも作業を行うことは出来そう。ということで、ちょっと試してみる。

MediaWikiを動作させる環境は作ってあるので、MySQLなどは用意できているし、データベースダンプも手元にはある。MySQLにインポートするにはxml2sqlというツールを使うらしい。ダウンロードしてきてmake && install。で、xml2sqlでデータベースダンプをsqlに変換しようとしてはまる。「unexpected element <redirect>」なんていうメッセージが出て、xml2sqlが止まってしまうのだ。うーん、xml2sqlの最新版は2006年にリリースされた0.5なわけだけど、どうやらその後のMediaWikiのダンプ形式の更新についていってないのかな。とりあえずredirect要素だけを取除くようにフィルタをかまして、なんとかsqlデータを得る。

次にこのsqlデータでMySQLにインポートするんだけど、これが凄い時間が掛かる。しばらく待っていたけど終わりそうにないので、放置して寝る。明日になったら終わっているでしょう。


あおやぎのさいと2.0 新人うぃきめでぃあん日記