5月19日

2011/5/19作成

写写丸」の削除議論については、本誌に関係なく記事自体で判断すべきというコメントがついてた。やっぱりそうだよねぇ。

統合提案を出していた「エキチカ」「駅チカ」について、どっちに統合すべきか、更に改名すべきかを含むので議論期間を延長することにした。最初からそうすべきだった。

図書館から取り寄せ完了の電話。仕事早いな。せっかくなので、すぐに借りに行く。

絶版バイク図鑑はなかば予想したとおり有名どころのバイクしか載ってない。その時代の全てのバイクを網羅するのは無理か。本のテーマも、絶版バイクを入手して乗ろうってことだしな。しかし、となるとこれくらい有名なバイクなら既にウィキペディアに記事がありそうなので、あまり意味がないかも。まあ、念のために全部調べてみるけど。

日本の名族関東編は、こちらも思ったのとは少し違う。日本の氏族を数多く収録しているのかと思ったら、いくつかの有名な氏族について詳しく物語のように書いているというものだった。ただ、巻末に簡単にだけど細かな氏族に関する記述もあったので、これは役に立つ。

ということで、早速執筆依頼の掛かっている「難波田氏」を立項。しかし、短い文章を著作権違反にならないように書き直すのって結構大変だなぁ。翻訳よりは楽だけど。あと、歴史上の人名って意外とIMEの辞書に入ってないので変換が手間。でも、なんとか立項。スタブだけど。元の文章自体がそれほど量がないんだから仕方あるまい。

あと、この本を眺めていて、自分の母方の氏の出どこが確認できたというのがちょっと面白い。叔父が「うちの先祖は藤原家の出で」とか言ってたのを適当に聞き流してたんだけど、本当だったんだ。ごめんなさい、おじさん。でも、異説もあるようだけどね。

プログラムで問題のあるところを検出しようと、まずアーカイブをダウンロード。過去の履歴は必要ないので、最新版だけの記事だけでいいんで、pages-articles.xml.bz2をダウンロードしたらいいのかな。圧縮して1.3GBもあるよ。ダウンロードだけで一苦労。データ処理も時間かかりそうだなぁ。

ようやくダウンロード完了。bz2で圧縮されてるけど、解凍ツールが無かったので、そのインストールから。まあ、tarball取ってきて、make && make installしただけだけど。

んで解凍だけど、これも当然時間がかかる。出来たファイルは5.3GBもあるよ。うわーーー。ちなみにwcかけてみたら、これまたなかなか返ってこなくて、ようやく結果が出たら89,599,878行とな。これがコンピュータが生成したデータならともかく、XMLタグも含んでるけど基本的に人間が入力したテキストだから凄いよね。

データが手に入ったので、エラー検出を行うプログラムを作成。perlでさくっと、なんだけどperlを書くの久しぶりで随分忘れてて手間取ったり。でも、とりあえずデータを読み込むところまでは出来た。

本来なら、XMLクラスを使ってやるべきなんだけど、なんせデータがでかい。こんなもんを全部オンメモリで処理したら重くって仕方がないと予想。それに、処理すべきデータは汎用なものではなくてウィキペディアが出力するものに固定なんだから、細かいことは抜きにしてもOK。ということで、テキストマッチと正規表現でアバウトにXML解釈。まあ、こんなもんでしょ。

出来上がったんで、試しにフルデータを読ませてみる。と、意外と軽い。おや?何時間も掛かるかなぁと思ったら、10分程度で完了した。マシンの性能のおかげもあるかな。perlのパフォーマンスがいいというのもあるだろうね。

読み込みが出来たら、エラーチェックも仕掛けてみたくなるもの。試しにデフォルトソートが設定されていないものを検出してみたら、山のように出てきた。うわぁ。多分、デフォルトソートが最近に追加された機能で、古くからある記事には使用されてないんだろうなぁ。試しにガイドラインを眺めてみたら「デフォルトソートを追加するだけの編集は謹んで下さい」とちゃんと書いてある。

ちなみに、なんでデフォルトソートを追加するだけの編集が歓迎されないかというと、デフォルトソートは必須項目というわけではないから。カテゴリのソートキーだけど、各カテゴリ呼び出しにちゃんとソートキーが設定されていればデフォルトソートは不要。ソートキーが設定されてなくても記事名でソートされるだけのこと。

何か他の編集をするついでにデフォルトソートを追加するならともかく、デフォルトソートを追加するだけの編集をすると、簡単に編集回数が稼げるうえに、履歴データが重くなってしまうし、履歴の見通しが悪くなるというデメリットがある。だから、推奨されないというわけ。

あと、編集回数が稼げるというのは、編集回数が色々な投票資格に関係してくるから、簡単に稼ぐ行為は推奨されないということ。本来は執筆した回数が多い=積極的に活動しているウィキペディアンという意味なのに、取り立てのアカウントで簡単な編集をしただけで投票資格を得るというのは好ましくないというわけね。まあ、投票資格にはアカウントを取ってからの期間というのもあるけど、これも寝かしアカウントという方法があるから万全ではないし。

いろいろヘルプを見て回っているうちに、曖昧さ回避ページにリンクしている記事一覧なんてのを見つけてしまった。現時点で対象件数5000件。うわー。これはやりがいがある。でも、その編集だけをするのもなんだしなぁ。とりあえずメモっておくことにして、どうするかはまた考えよう。

エラーチェックプログラムで正規表現と改行コードではまる。なんで思い通りにマッチしないんだよぉと、ぐぐってネットをさ迷いながら、なんとか修正。ぜいぜい。そんなことをしてたら、明け方になってしまった。いかんいかん。規則正しい生活をしなければ。


あおやぎのさいと2.0 新人うぃきめでぃあん日記