5月27日

2011/5/27作成

今日でウィキペディアをはじめて1ヶ月。まだ1ヶ月しか経ってないのかと思うし、もう1ヶ月とも思う。編集回数は1000回を越えたけど、ほとんどが索引登録か雑草取りだから、全然威張れないよな。

lintは9時間経過で8万件くらい。やっぱ記事によって速度の違いはかなりありそうだね。これが平均だと6日くらいで終了できるかな。それよりも、現時点でレポートが150MBもあることの方が心配になってきた。このペースだと2GB超のレポートになる?エディタで開けるんかな、そんなん。心配になってきた。

サクラエディタってどれくらい大きなファイルを扱えるんだろうとサイトを見にいったら「内部コードはSJIS」なんて恐ろしい文言が。と思ったら、それは1系の話で、今使っている2系は内部コードがUNICODE化されているらしい。よかった。なんでそんな古い話が載ってるんだと思ったら、1系は普通にサイトがあったけど、2系では更新が楽になるようにwiki化したらしい。わかりにくいよぉ。

ウィキペディアが世界遺産への登録を目指しているということをスラドで知る。あれ?なんでウィキペディア上で話題になってないんだろう。コミュニティサイトでもニュースサイトでもないから、そういう話をする場所があまりないけど、雑談的な場所として井戸端があるんだから、誰かがそこに話を持ってきてもいいような気がするんだが。オンライン嘆願も募集しているそうなんだから、ウィキペディアの公式文書として告知しても構わないように思うんだけどな。

ウィキペディアのダウンロードページを見にいったら新しいダンプが公開されてる!今処理中のは5月7日版。新しい版は5月22日。どうせ時間掛けてチェックするなら、新しいのにすればよかった。と今更後悔。まあ、いいけどね。どうせリアルタイムに同期するのは無理だし、記事はどんどん更新されるから、最新のものというのは無理なことだから。

せっかくウィキペディアのデータを処理するプログラムを作ったので、lintを掛けるだけではなく、統計情報とか色々調べてみると面白いんじゃないかんと思う。ということで、過去のダンプデータもダウンロード。公開されているのは2010年2月26日のまでか。もっと古いのは無いのね。残念。

lintプログラムの修正。というか、今までのは書きなぐりだったんで、ちゃんと書き直し。クラスも使って、それなりにまともに。名前もlint専用ではなくて汎用的なデータ処理ツールということでwpjatoolに変更。あと、テストケースも書かなきゃなぁ、ってテストコードを最後に書いてるようではあかんな。テストラストやん。テストファーストじゃないと。

それにしてもプログラム書くのって楽しいなぁ。こうしてクラス作ってメソッド追加したりしてると、ほんと楽しい。なんでこんなに楽しいんだろうねぇ。

ふと思ったけど、CC-BYって表示義務だよね。コンテンツを使って派生製品を作ったら、派生元の表示が必要。じゃ、その派生製品を使って更に派生製品を作ったら、大元と派生1の両方を表示しなきゃならないの?これを繰り返してたら、BSDライセンスの宣伝条項みたいな問題になりはしないんだろうか。

CC-BYというのは、ウィキペディアが採用しているライセンスの一つであるCC-BY-SAのうちのCC-BYの部分のこと。CCはクリエイティブコモンズのことだからライセンスとしての意味はないとして、BYというのは表示義務のこと。何を表示するかというと、著作権者の表示を行うこと。つまり、ウィキペディアのテキストをコピーして自分の著作ですよと言い張ることは出来ないということですな。SAは継承。改変した作品を配布する場合は同じライセンスで行わなければならないというもの。

せっかく作業日記を書いているのを誰かに読んで欲しくて、Wordで整形して、海星と六波羅にメールで送ってみる。反応はあるだろうか。


あおやぎのさいと2.0 新人うぃきめでぃあん日記