新人うぃきめでぃあん日記:2012年3月

2012年3月1日

版指定削除・特定版削除の確認を3件。

出典付け作業。以前、出典の無い記事について出典を探すという手順ではなく、逆転で出典が多数含まれる資料から記事に出典を付けていく方が効率的ではないかと書きました。で、その作業を具体化してみようかと。出典の資料として、まず選んだのはインプレスWatch。2000年以前の記事が残っているので、資料としては価値が高いと思う。本当は書誌資料の方が望ましいんだろうけれど、ウェブの方が出典を探すのも楽だし、読者も出典に当るのが楽というのもあり。理想的にはウェブと書誌の両方の出典が付いていることなのかもしれないね。

ということで作業開始。まずはPC Watchから。なんと1996年から記事があるんだね。すごいなぁ。

で、PC Watchの記事を一つずつ見ていきながら出典を付けられそうなウィキペディアの記事を探していくわけだけど、これがなかなか大変。かつ、興味深くて面白いというのもあったり。すげー懐かしー、というような情報があって読みふけってしまったり。いやいや、そういうことをしている場合ではなくて。あと、意外な記事がウィキペディアになかったりとか。まさか「メガソフト」の記事が無いなんて思わなかったよ。正確には一度立項されているけど宣伝的ということで削除されているんだけど。立項してしまおうかなとかも思ったけど、いやいや待て待て。今は出典付け作業をしているのであって、立項や加筆をするわけではない。して悪いわけではないけれど、そこまでやってたらきりがないので、今は出典付けに集中しよう。

というようなことをしながら出典探しをしていたんだけど、結構労力を使うので一日ではとても終わらない。しばらくこれはかかりそうだなぁ。

2012年3月2日

削除依頼を7件削除対処。版指定削除・特定版削除の確認を3件。

昨日に続き、PC Watchの1990年代の記事から出典探し。探していてて気が付いたんだけど、せっかく出典として使える記事がPC Watch側にあっても、ウィキペディア側には対応する記事や記述が全く無いということが結構多い。ウィキペディアというもの自体が2000年代に登場したものだから、それ以前のことについては記述が少ないということは容易に予想されることで、それを実感したなぁということ。

あと、意外な記事が無いといえばカメラ関係の記事が充実してない。PC Watchにはデジカメ新発売という記事も結構載っているんだけど、これに対応する記事がウィキペディアに存在しないことが多い。というかほとんど無い。まあ、全く無いわけではなくて、「富士フイルムのカメラ製品一覧」のように一覧記事になっていることが多い。

カメラの個別記事を作成することが禁止されているのかと、「プロジェクト:カメラ」とかを覗いてみたけれど、そういうわけでもなさそう。プロジェクトではむしろ個別記事を作成することを推奨しているようにも読めるんだけど。

あ、プロジェクトというのは、この場合ウィキペディア日本語版内部のサブプロジェクトのことで、分野ごとに記事のスタイルなどを話し合ったりするためにあるもの。記事作成の基準を決めたりもする。「プロジェクト:カメラ」はカメラ記事について話し合うものなわけだけど、ノートとか見る限り「プロジェクト:カメラ」はあまり活発に活動しているわけではないみたいだね。なんか、意外だ。

なんで意外と思ったかというと、ウィキペディアン(特に日本人)にはカメラ好きな人が多いんじゃないかと漠然と思っていたから。ウィキペディアはオープンソース方面の文化とウェブ技術であるwikiが組み合わさったものだから、当然ながらコンピュータに関わる人が多くいる。一応、私もそういう人間だし。それはまあ全世界的な傾向だとは思うんだけど、日本語版の特徴として鉄分高い人が多いと思うのね。鉄分高いというのは、要するに鉄道趣味な人ということなんだけど。なんで鉄分高い人がウィキペディアンに多いのかまでは分からないけれど、現実問題として日本語版ウィキペディアの異常なまでの鉄道記事の充実ぶりをみると、それは間違いないことだと思う。

で、私の知る限りだけど鉄分高い人ってカメラ趣味も兼ねている人が結構多いと思うのね。多分、鉄道趣味の中に鉄道写真を撮るという活動が含まれるからだと思うけど。そういう理由で、日本のウィキメディアンにはカメラ趣味の人も多いと想像したのでカメラ関係の記事も充実しているのではないかと予想していたんだけど、意外とそうではないようだというので、ちょっと意表をつかれた感じ。

2012年3月3日

ここんところ削除依頼が積みあがっている。というのを「Wikipedia:管理者伝言板/削除」でも指摘される。うん。そうだね。ごめんなさい。別に私一人の責任でもないんだけど。

ということで、少しでも処理すべく対処を頑張る。とりあず19件対処。うわ、そんなになったか。しかし版指定・特定版削除依頼には全然手をつけてないという。うう。なんでこんなに溜まってしまったんだろう。。。

気を取り直して版指定・特定版削除にも手をつける。2件対処。ぜいぜい。

その後も対処を続けて、結局今日一日で34件対処した。なんだそりゃ。なんなんだ。まだ対処可能な案件はあるけど、流石に疲れたし、こんなに一人で対処するべきでもないと思うので、今日のところはおしまいにする。明日続きをするかもしれんけど。

2012年3月4日

今日も削除依頼対処。18件処理。ぜいぜい。もうしばらく削除依頼は見たくない?。ウィキペディア中毒という症状があるけど、削除処理で中毒はいやだ?。

井戸端に「Wikipedia:短いページ」について、その有効性の提議があった。MediaWikiの機能として「短いページ」という自動生成されるページがあって内容的にはそれに近いんだけど、データベースダンプを元に手動で一覧が作成されているという点が違う。なんで自動生成されるものがあるのにわざわざ手動で一覧が作成されているのかというと、自動生成されるものには「Wikipedia:曖昧さ回避」などが含まれてしまって、いまいち実用にならないかららしい。曖昧さ回避なんてのは日本語版固有の名称だから、全言語を対象にしたMediaWikiに対応してくれというわけにもいかず(言語別の設定ファイルなどを用いれば不可能ではないだろうけれど)、仕方がないのでそういったものを除いた一覧を作成しようということがあったものと想像される。

なんで「想像される」と書いたかというと、この一覧って2008年を最後にずっと更新されてないの。更新作業をしていた人がウィキメディアを辞めてしまったのか活動が途絶えてしまっていて、跡を継ぐ人もいなかったために更新されず放置されているということになってる。だから、どういう経緯で作られたのかも、作った当人達がいないからよくわからないというわけ。

で、井戸端での話の流れとしては、更新されてないのだったら現状と合ってないわけだし一旦削除してしまってはどうかという風になっている。それ自体には別に異論はないんだけど、更新されてないことだけが理由だったら、更新すれば残しておいてもいいということになるよね。幸い、一覧を作るための手順書がちゃんと残っているので、他の人でも作業を行うことは出来そう。ということで、ちょっと試してみる。

MediaWikiを動作させる環境は作ってあるので、MySQLなどは用意できているし、データベースダンプも手元にはある。MySQLにインポートするにはxml2sqlというツールを使うらしい。ダウンロードしてきてmake && install。で、xml2sqlでデータベースダンプをsqlに変換しようとしてはまる。「unexpected element <redirect>」なんていうメッセージが出て、xml2sqlが止まってしまうのだ。うーん、xml2sqlの最新版は2006年にリリースされた0.5なわけだけど、どうやらその後のMediaWikiのダンプ形式の更新についていってないのかな。とりあえずredirect要素だけを取除くようにフィルタをかまして、なんとかsqlデータを得る。

次にこのsqlデータでMySQLにインポートするんだけど、これが凄い時間が掛かる。しばらく待っていたけど終わりそうにないので、放置して寝る。明日になったら終わっているでしょう。

2012年3月5日

昨日仕込んだDBのインポートはまだ終わってなかった。えー、そんなに時間がかかるの?というか、どうもメモリが不足していてスワップしてる模様。これはメモリを増やしてやり直したほうがいいかな。あと、MySQLの設定がデフォルトのままだから多少はチューニングしたほうがいいだろうなぁ。

と思っていたら、ディスクがあふれてしまった。がーん。仮想マシンには20GBを割り当てていたんだけど、jawpのデータをいろいろ扱うには流石に少なすぎたか。これは仮想マシンから作り直さないとだめだな。ということでディスクを100GB割り当てて仮想マシンを作り直し。しかし、インストールも全部やり直しだから面倒だなぁ。あと、この調子だとホストマシンのHDDも不足してくるかもしれないな。なんせいまどき500GBしかないもんだから。CPUのコアも欲しいし、色々考えるとマシン自体の買い替えを検討した方がいいのかな。もう3年使っているPCだから、いろんな意味で性能的に不足してくるところはあるよねぇ。

新しい仮想マシンを作成して、FreeBSDのインストールから始める。メモリは768MB割り当てたぞ。これでどうだ。MySQLとかapacheとかphpとか色々必要なものをインストールして環境構築がだいたい完了。MySQLの設定もデフォルトではまずいだろう。ぐぐってみると、サンプルの設定ファイルが色々用意されているらしい。いかにもメモリを使用しそうなmy-huge.cnfというのを/etc/my.cnfにコピー。

この状態でDBのインポートを始めたんだけど、速くはなったけど、やっぱり遅い。日本語が変やな。まあ、期待したほど速くはなってないということだ。色々調べてみたところ、MySQL5.5からはInnoDBがデフォルトになったらしい。えー、そうなん。MySQLにはDBのタイプとしてInnoDBとMyISAMというのがあるんだけど、InnoDBの方が高機能なんだけど遅い。この際高機能はいらんのでMyISAMを使いたいということで、ぐぐって設定を調べる。/etc/my.cnfに

skip-innodb
default-storage-engine=MyISAM

という2行を追加すればいいらしい。もちろんMySQLは再起動するわけだけど。この状態でインポートをすると、更に速くなっていい感じだったんだけど、途中でmax_binlog_stmt_cache_sizeが足りないとかエラーが出る。なんじゃこのパラメータは。ぐぐってみても、新しく追加されたパラメータなのか、全然情報が無い。適当に設定してみてもうまくいかないので、MyISAMはやめてInnoDBでやり直す。ていうか、MySQLを5.5ではなく古いバージョンにすればうまくいくのかな。

ということでMySQL5.5をアンインストールしてMySQL5.1をインストール。DBタイプはMyISAMにするようにだけ設定変更してインポートしたら、数分で全部インポートできた。あら?なんか拍子抜け。まあ、色々試したお陰でノウハウが少しは出来たので、別に構わないんだけど。

ようやくDBがインポートできたので、短いページの抽出SQLを実行。そうなのよね、やりたいことはただそれだけなのに、準備に凄い手間が掛かってしまった。

しばらくして抽出完了。が、結果がでかい。1万件以上ある。これはおかしい。リダイレクトが混じっているのかと思ったけど、それにしては桁が少ない。抽出された記事を実際に調べてみると、どうやら「#転送」という記法で書かれたリダイレクト記事が含まれているっぽい。つまり、xml2sqlが古くてこういう新しいwiki記法に対応してないということやな。仕方がないのでxml2sqlのソースを少し書き換えて対応させてみる。ということで、またインポートのし直し。はあ。

頑張ってMySQLでやろうと努力しているけど、これってどう考えてもjawptoolに機能を搭載したほうが早いよな。と思って、さくっとプログラムを書いてみたら、さくっと出来上がった。なんか、色々苦労したのがなんだったんだという感じ。というか、ウィキペディアのダンプのような大規模なデータを処理するのって通常はRDBMSを使用するんだけど、今回のようにインポートに手間が非常に掛かるという問題がある。データベースダンプをperlでシンプルにテキスト処理するというjawptoolのコンセプトは意外といい線をついているのかもしれないと、今さらながらに自画自賛してみたり。

2012年3月6日

井戸端の例の議論のところに、「Wikipedia:短いページ」を更新しましたと書いた人が現れた。しまった、先を越されたか。いや、別に先を越されても悪いことは何もないんだけど。でもちょっと悔しい(^^)。まあ、手順書があるわけだから私にしか出来ないことというわけではなく、ある程度こういう方面のスキルのある人なら誰でも出来ることなんだよね。ということで、この件については私としては終了。ただ、jawptoolに機能としては追加してみてよさそうというのが分かったし、あとxml2sqlのredirect要素の対応もやってみても面白いかな。「xml2sql」のノートを見ると、同じ問題で困ったことのある人が他にもいるようだし。

2012年3月7日

xml2sqlをちょこっといじってみる。というか、まずその前段階として最新版のソースをgithubから取得してくる。0.5と比較してみると、結構色々と修正されているね。ただ、残念ながらredirect要素にはまだ対応していなかったけれど。

2012年3月8日

xml2sqlのredirect要素対応の修正。手間が掛かるかなと思ったら、意外とさくっと出来てしまった。多分合っているだろうと思うのでmetaの「Talk:Xml2sql」に投稿。

2012年3月9日

諸般の事情でしばらくウィキブレイク。多分、3月いっぱいは活動できないのではないかと思われる。。。

2012年3月10日

ウィキブレイク。

2012年3月11日

ウィキブレイク。

2012年3月12日

ウィキブレイク。

2012年3月13日

ウィキブレイク。

2012年3月14日

ウィキブレイク。

2012年3月15日

ウィキブレイク。

2012年3月16日

ウィキペディアのデータベースダンプが更新されたのでダウンロード。しかしウィキブレイク中だからレポートの差し替えができないなぁ。

2012年3月17日

ウィキブレイク。

2012年3月18日

ウィキブレイク。

2012年3月19日

ウィキブレイク。

2012年3月20日

ウィキブレイク。

2012年3月21日

ウィキブレイク。

2012年3月22日

ウィキブレイク。

2012年3月23日

ウィキブレイク。

2012年3月24日

ウィキブレイク。

2012年3月25日

ウィキブレイク。

2012年3月26日

ウィキブレイク。

2012年3月27日

ウィキブレイク。

2012年3月28日

ウィキブレイク。

2012年3月29日

ウィキブレイク。

2012年3月30日

ウィキブレイク。

2012年3月31日

ウィキブレイク。