新人うぃきめでぃあん日記:2011年7月

2011年7月1日

「ヴィッテルスバッハ家のカテゴリー」と「CRAZY-ISM クレイジズム」は、どちらも削除された。「ヴィッテルスバッハ家のカテゴリー」については、ちょっと後味悪い気がしないでもない。

jawptoolの開発。ちょこっと修正して、確認のための実行が何時間も掛かる。なんとかならんのか。

statisticはウィキペディアに掲載しても問題ないサイズだけど、lintレポートはちょっとでかくて問題があるような気がする。幸い、lintレポートで使っているwiki記法はそれほど多くないから、htmlへのコンバータも簡単に書ける。ということで、公開する場所を分けるようにしてみようかと思う。んで、report2html.plというコンバータを作る。

終了まで待ってられないので、実行したまま寝る。明日の朝に結果を確認。

2011年7月2日

井戸端で「フハハハハ お前を浪人同様にしてやろうか」というハンドルが不適切かどうかで話題になっている。正直、私も最初に見たときは捨てアカウントかなと思ったくらいなんで、あまりハンドル名として適切ではないだろうという気はするんだけど、ではどこがどう具体的に不適切なんだと問われると、返答に困ってしまうな。

それに、議論での受け答えを読んでいるとちゃんと文章書いているし、そう思ってみるとこのハンドルも一つの個性かなという気にもなってくる。ただ、この人ウィキペディアにかなり詳しいので、全くの初心者とは思えない。多分、既にアカウントを持っている人がわざとこういうハンドルを作って論争を仕掛けているんだろうなぁと想像。その真意というか意図が何かは分からないけれど。

jawptool。昨晩の実行結果を確認すると、赤リンクのレポートがひどくなってる。がーん。どうも修正内容が失敗だったようで。ということで、更に手直し。

テンプレートの呼び出しで、マジックワードを検出してしまっているので、マジックワードを除外するように修正。しかし、マジックワードも、これまたたくさん種類があるので、検出正規表現を作るのも一苦労。ああ、MediaWikiってなんて多機能なの。

マジックワードというのはマクロみたいなもの。例えば、{{CURRENTYEAR}}というマジックワードだとそのページを閲覧した年が表示される。今年なら2011となるけど、来年になればページを編集しなくても自動的に2012に変わる。そういうもの。

ということで、一通り修正が終わったので、また実行を仕込んで寝る。明日こそ、いい結果が出てますように。

2011年7月3日

集計結果が出たので確認。マジックワードについては、うまく抑制できたみたい。よかった。しかし、これで完成とはいかない。まだ変なのが検出されているので、デバッグ出力を仕込んで実行してみる。

で、デバッグ出力の結果を調べてみると、カッコが二つではなく三つの{{{…}}}なんて記法があるのね。どういう意味かわからないけど。これをテンプレート呼び出しと誤認していたので、除外するように修正。あと「Template:Category:日本の都道府県/下位」なんてのがあるんだけど、これがよくわからない。テンプレートなのかカテゴリーなのか。一体どういう機能で、どういう出力になるのか。実際に使用しているところを確認してもよくわからない。機械的にはじいちゃっていいのかなぁ。とりあえずそうするかなぁ。

ということで修正して再集計。なんだけど、なかなか進まない。おっかしーなぁと思ってプロセスの状態をよくみてみたらスワップしてるやん。がーん。そら遅いわ。VMwareのメモリの割当を384MBに減らしたままだったのを忘れてた。ということで、集計を止めてメモリを512MBに増やして再始動。むーん、4時間くらい無駄に過ごしてしまった。

MLにブロック解除願いの投稿があった。ウィキペディア日本語版においては、ブロック解除手続きは当人の会話ページで行うことになっているので、以後の手続きはそちらに移行。ちょっと興味がわいたので、悪趣味と思いつつ会話ページをウォッチしてみる。さて結末はどうなることやら。

ちなみにブロックというのは、アカウント(もしくはIPアドレス)がウィキペディアの編集が出来なくなること。ブロックを設定するのは管理者さん。ブロックの理由はさまざまだけど、一言で言ってしまえば「ウィキペディアにとってよくないことを行う人」がブロックされる。分かりやすい例では荒らしとか。あと、他の編集者との対話を拒否して独断的に編集したりするのもブロック対象になる可能性がある。

ブロックには期限があるものと無期限の二種類ある。期限があるものは、その期限が過ぎると自動的にブロックが解除される。ま、その期間に頭を冷やして、ウィキペディアのガイドラインを熟読して理解しなさいって事ですな。一方無期限というのは基本的に解除されない。昔は追放という制度があったそうだけど、それに近い。要するに更正の可能性ゼロとみなされたということやね。

ブロックを期限付きで設定するか、その期限はどれくらいにするか、無期限にするかは管理者さんが決める。まあ、だいたい初回ブロックとかだと期限付きで、何回もブロックを受けている場合には無期限になったりするみたい。

ブロックされた人はウィキペディアの編集が出来なくなるので大人しくしてないといけないんだけど、悪い人の場合は別アカウントを作ってそっちで編集作業をしようとしたりする。こういう行為をソックパペットというそうなんだけど、ソックパペットとみなされるとこれも大抵はブロックされる。

ソックパペットと判断する理由は編集傾向(どういう分野の記事を編集するか、文章の癖が共通するかなど)からも判断されるけど、なんと言っても決めてはIPアドレス。同一時間帯に同一IPアドレスだったら、そりゃ同一人物だよなって判断される。会社や学校などで、多人数が同一IPアドレスを共有している場合もあるから一概に言えないけど、その辺はIPアドレスの所有者から大抵は判断できる。IPアドレス情報はプライベート情報なので、チェックユーザというごく限られた人にしかチェックは出来ないようになっている。

ところで、このブロックでちょっと驚いたのは、この人についての管理者掲示板などにブロック依頼やブロックに関する議論が一切なく、言ってしまえば管理者の独断でブロックが実施されていること。

方針文書をよく読んでみると、確かに管理者の独断でブロックすることも出来るようなんだけど、原則はブロック依頼→合意形成→ブロック実施ではないんだろうか。ブロックについては、これまであまり見たことがないから、よくわからんなぁ。

ただ、ブロックされた当人にとっては正に青天の霹靂なわけで、とても驚いておられたようだ。そりゃそうだろうなぁ。そして、それは他人事ではないのかもしれない。自分がいつ突然ブロックされるか分からないということでもあるわけだな。別にブロックされるような悪い編集行為をするつもりはなくても、他の人の巻き添え等でブロックされることは有り得ないわけではないわけで。まあ、巻き添えの場合は、今回の場合のようにブロック解除を申し出ればいいんだけど。

jawptoolは今のところperlスクリプトだけで動くように作っている。だから、xmlのパースも毎回やってるので、その分無駄なことをしていると言えばしている。最初に1回だけパースして、次からはパース済みのデータを使うようにすればいいんだけど、それをファイルに保存するとなると、結局xmlではない形式になって、その形式をパースしなければならない。

順当な発想としては、RDBMSにデータを格納してってのがいいんだけど、そうすると実行環境が複雑になる。とりあえず今のところはパースの時間が致命的に遅くて困るというわけでもないし、手軽に処理環境が構築できるということを重視して、現状のままにしておこうと思う。

jawptoolの集計。またスワップ起こしてるよ!512MBでも足りなかったか。仕方がないので768MBに更に増やして再実行。VMwareに割り当てるメモリをあんまり増やすと、Windowsが不安定になるからやりたくないんだよなぁ。メモリの使用量を減らすように考えてみるか。その前に、ちゃんと動くようになるのが先決だけどね。

久しぶりに利用者ページを更新。この間に新規作成した記事名を追加したのと、多重アカウントに関する宣言を追加。これでガイドラインどおりに宣言したと思うんだけど、ほんとに大丈夫かなぁ。旧アカウントのパスワードを思い出せない方がかえって問題は簡単だったんではないかという気もしないでもないけど、思い出してしまったものは仕方あるまい。ということで、自分の出来る限りの事をしよう。そして、出来る限りの事をしたと思うので、これでよしとしよう。それで何か実害をこうむっても、困るのは私なんだから。

カテゴリなしと孤立したページの更新があったので作業。今回も取り立てて複雑な案件はなかった。あると大変なんだけど、ないとそれはそれで寂しいものでもあるんだよなぁ。

建築模型の写真の著作権について、反論のコメントがついた。要約すると「建築物の写真がOKなんだから、その忠実なコピーである建築模型の写真もOK」という主張。うーん、それでいいのかなぁ。プロフィールを見ると、知財関係の法律の専門家の方だそうなので、私のように素人が思いつきで言っているのとはわけが違うようなんだけど、でもそれでも私は納得いかない。

問題を複雑にしているのは、この建物って現存しないんだよね。現存していないということは、コピーではなく単独の模型ということになりはしないだろうか。だとしたらNGだよなぁ。一方、この建物ってかなり古いから、著作権の保護期間が終了しているんじゃないかという気もしてきた。ああ、一体どうするのがいいんだろうか。

あ、更に別の問題がある可能性があるな。この画像は大学の展示室に展示してあるんだけど、その展示室が写真撮影を許可しているかどうかだ。許可していない場合、著作権とは別の問題が発生すると思われる。これについては大学の展示室に問い合わせればわかることだから、明日にでも電話してみるか。

ウィキペディア日本語版では、本文はもちろんUNICODEにある全ての文字が使えるんだけど、記事名についてはJIS X 0208の文字のみを使うというルールになっている。が、実際に自分が記事を作ろうとしたときに、その文字がJIS X 0208に入っているかどうかなんて調べられるものではない。多分、他の人もそうだと思う。ということで、こういうことこそlintの出番だろうということで、記事名lintで文字種のチェックを追加してみようと思う。

で、その下調べとして、perlのEncodeモジュールを使って文字コードを変換してテストしてたんだけど、よくわからん。文字コードって、あんまりちゃんと勉強してないから弱点なんだよなぁ(←ではお前に得意分野があるというのか)。しばらく格闘したけど、眠くなってきたこともあって頭が回らなくなったので、今日は切り上げることにする。

JIS X 0208について少し。JIS X 0208というのは文字コードの一種で、いわゆる「JISコード」のこと。最近ではあまり聞かなくなったけど、1水(JIS第1水準漢字)、2水(JIS第2水準漢字)とか言われてたもの。JISの名前の通り、日本の規格であって、収録されている漢字も日本でよく使われているもの。

一方、ウィキペディア/ウィキメディアは国際的なプロジェクトなので、システム的にUNICODEが採用されている。だから、日本以外の文字も問題なく扱える。それはそれでいいんだけど、一方で古いPC(OSがWin9xとか)だと、UNICODEの文字は表示できなかったりする。だから、せめて記事名だけでもちゃんと見えるように、記事名についてはJIS X 0208の文字だけに制限しようという日本語版でのローカルルールが存在するというわけ。

2011年7月4日

集計結果がだいたい問題ないかなと思えるようになったので、勢いで公開してしまうことにする。どっかで踏ん切りつけないと、いつまでもだらだら続ける事になってしまうし。ということで自分の利用者ページのサブページにアップロード。といってもサブページに上げたのは統計データのみ。あとはサイズが大きいので、個人サイトの方にアップロードすることにする。随分と時間が掛かったけど、なんとか一区切りついてよかった。

明治大学の記念館の建築模型写真について。大学に問い合わせようかと思ったら、ちゃんとウェブ上に利用規定も載ってるよ。凄いよ明治大学。情報公開がしっかりしてる。好感度大幅アップだよ。

で、その利用規定によれば、写真撮影は可能だけど「センター所長の許可を得ること」「出版物等への写真の利用時はセンター所蔵であることを表示すること」「センター所長はその出版物の提供を求めることが出来る」とある。本件の場合、センター所蔵であることは表示されているけど、許可を取ったかどうかは定かではない。また、出版物の提供を求められるとすると、この写真はパブリックドメインではないということになるので、少なくともライセンスの変更は必要になると思われる。ということと、その他の調べたことをまとめてコメントとしてあげておく。さて、どのような反応が返ってくるか。

2011年7月5日

このテキストの修正作業。ブログとしても公開しようかなぁと思い立った。MT形式で書いているのでインポートできるもんだと思ったら、全然出来なくて苦労する。そうか、手書きのなんちゃってMTではだめか。ということで体裁を整える。結構手間。テキストのボリュームがあるからねぇ。インポートできるところまでで、力尽きる。サイトの設定は明日にしよう。

2011年7月6日

ブログの設定作業。なんとか完了して、無事「新人うぃきぺでぃあん日記」公開。よかよか。ただし、リアルタイムでは公開せずに、基本的に1ヶ月遅れで公開することにする。なんでかっていうと、公開の前に見直しをしたいというのと、ウィキペディア上での活動の裏情報みたいになるのは避けたいから。

削除依頼の長期積み残し案件。「3D-Coat」という3Dペイントソフト。この業界から離れて久しいので、全く知らないソフトだけど、一応専門誌サイトでレビューがあったので第三者による言及はあった模様。加えて、調べてみたら英語版とロシア語版の記事があったので、ご当地でも特筆性はあるみたい。ウクライナのソフトなんでウクライナ語版にないのは残念だけど、ウクライナでは国民の大半がロシア語を話せるそうなので、ロシア語版が先に出来ててもおかしくないよね。ということで存続票を投じてみる。

久しぶりにウィキニュースに短信を書く。書いたのは漫画家の和田慎二さん死去の報。短信をせめて1日1本くらいは書きたいなぁと思っているんだけど、なかなか実行に移せないのは、ものぐさな性格によるんだろうねぇ。

jawptool。毎回XMLを全パースするのが問題なんだけど、特に問題なのは記事名一覧を取得するところだよな。ということで、まずは記事名を取得するのにどれだけ時間が掛かっているのか計測してみたところ、約25分となった。結構掛かってるな。一方、記事名一覧をYAMLに出力して、そのYAMLを読み込むのには2分半ほどだった。おお、結構速いな。YAMLデータで45MBもあるんだけどね。ちなみにperlコードにしてperlインタプリタに読み込ませたら30秒ほどだった。これくらいの差ならYAMLでも別に構わないな。

出典の全くない存命人物記事について即時削除を可能とすることについて議論されている。個人的に、削除まではやりすぎだとは思うんだけど、説き伏せることが出来るほどの論拠を持っているわけではない。確かに、正論だからね。

ただ、逆に考えると、出典が一つでもあれば、その記事は存続できるということでもある。ならば、個人的に出典の無い存命人物記事に出典を付けていく作業をしてみよう。ということで、先日作ったリストを基に作業に取り掛かる。

作業内容はいたって単純。その人物名をgoogleニュースで検索して、ヒットして使えそうな記事ならそれを出典として追加するだけ。なんでgoogleニュースかというと、普通にgoogleで検索すると、大抵はウィキペディアの記事がトップに出てくるし、あとは個人ブログとか出典としては使えないものが多くヒットしてしまうから。

しかし、この作業も結構大変だね。だいたい、googleニュースでヒットすることが少ないから、ひたすら検索を繰り返すことになってしまう。これならgoogle APIを使って検索作業を自動化したほうがいいかなと思わなくはないけど、そのためにはアクセス鍵を申請しなきゃいけないし、やりとりはSOAPだから結構面倒だし。ううむ、LWP::UserAgentでお手軽に作ったほうが速いかな。

ということで、googleニュースにリクエストを投げるスクリプトをでっち上げてみたけど、うまく動かんな。どうもキーワードが埋め込んであって、それがないと正常な結果を返さないようになっているっぽい。APIを用意していることだし、そんな単純な仕掛けのスクリプト対策くらいはしているということか。まあ、仕方がないわな。

2011年7月7日

あまゆーずのアルバムが届いたので、しばらく作業中のBGMにすることにする。

井戸端の議論にコメントしようと思って書いてたんだけど、書いているうちに過去の議論が気になっていろいろ調べだしたら、どこまで調べたらいいかわけがわからなくなってしまって、結局コメントするのをやめてしまった。井戸端なんだし、そこまで深く考えずに、もっと気軽に書いてもいいのかなぁ。

出典の無い存命人物記事の即時削除の議論の場に、出典付けましょう大会の提案を書いてみた。やっぱ、一人でやるには無理があるし。

jawptoolのデバッグも地味に継続中。タイトルリストの出力時に¥をエスケープしてなかったというバグがあったので修正。修正自体は単純だけど、この確認にも当然時間が掛かるんで大変。でも、テストデータでOKでも本番データで万一アウトだったらいかんしなぁ。というのはテストケースの作り方がまずいということでもあるんだけど。でも古いタイプのプログラマだから、テストファーストの考え方になかなか慣れないのよねぇ。

ウィキニュースの会話ページにウェルカムメッセージを頂いた。コミュニティに歓迎してもらったようで嬉しい。アドバイスとして、ウィキペディアの利用者ページへのリンクがあるといいということだったので、早速リンクを張る。

ウィキニュースの1日1短信。そう思ってニュースサイトをぐるぐるするんだけど、なかなか適切なニュースが無いなぁ。中国の江沢民氏が死去か?という情報が駆け巡っているけど、どうも確定情報ではなさそうなので記事に出来ない。スペースシャトルが最後のフライトなんだけど、打ち上げは9日だからまだニュースにならないし。結局、入試問題ネット投稿事件の審判があったというニュースをみつけたので、それを投稿。

jawptoolの記事名lintにJIS X 0208外の文字を検出する機能を実装してみる。試しに実行してみると、大量にヒット。なんでかと思ったら、どうやらリダイレクトの記事がヒットしている模様。リダイレクトの場合はJIS X 0208外も許容されているようなので、リダイレクトは除外する。それでだいぶヒットは減ったけど、変なのが混じっているので、チューニングがだいぶ必要になりそう。今日はもう遅いので、続きは明日にしよう。

2011年7月8日

jawptoolの昨日の続き。UNICODEについてもうちょっと真面目に勉強。漢字はBMP(基本多言語面)の中では、CJK統合漢字(U+4E00-U+9FFF)、CJK互換漢字(U+F900?U+FAFF)、CJK統合漢字拡張A集合(U+3400?U+4DB5)があるということなので、とりあえずこの範囲の文字だけをJIS X 0208に変換してみて変換できないものを警告するように修正。

で、実行してみたら、物凄くちゃんとした結果になった。これで完成でいいかも。つか、手抜きではなくて、ちゃんと調べて作れってことですな。当たり前のことですが。

出来上がったレポートは一応ウェブで公開するだけしておいて、とりあえず自分では改名処理はしないことにする。中国の地名とか、その漢字であることが本来なわけだし、改名していいのかどうか自分では判断つかないんだもん。井戸端ででも質問してみるかなぁ。

ウィキニュースの1日1短信。今日はユッケ食中毒事件の運営会社フーズ・フォーラスが解散のニュースを掲載。

日付が変わって、スペースシャトルが無事に打ち上げられたようなので、これも短信に掲載。9日のノルマ達成だ。

2011年7月9日

ウィキニュースで少しは貢献をしようと、査読に挑戦してみる。「天理高校野球部、暴力事件で夏の甲子園奈良大会出場辞退」は、記事が古くなって情報源がいくつかリンク切れ。それにともない、情報源不明の記述が出てきてしまったので、その点を指摘。

もう一つ査読したのは「中央競馬史上初 WIN5で払戻金2億円飛び出す」。こちらは特に問題はなかったけど、まだ不慣れなので査読結果だけノートに書いて、公開はしないでおく。

孤立したページとカテゴリなしページの対応作業。だけど、最近あまり面白い案件にぶち当たらない。それはそれで寂しいもんがあるな。

3D-Coat」は存続に決定した。ということで、早速リファレンスと言語間リンクを貼りにいったら、既に編集済みだった。作業してくださったFloeさん、ありがとう。

2011年7月10日

ウィキニュースの「天理高校野球部、暴力事件で夏の甲子園奈良大会出場辞退」は早速記事が修正されていたので再査読。問題なし。これで公開してもいいんだけど、一応他の人の査読をお願いする。

1日1短信。さて今日は何かニュースがあるかなとニュースサイトに行ってみたところ、女子ワールドカップで日本がドイツを破って準決勝進出というニュースが飛び出してきた。文句無くこれを採用して短信に。

更に「空振りしたバットが捕手の頭直撃、打撲・流血 - 日ハム対横浜戦」、「「電力館」閉鎖 東日本大震災の影響で運営会社も清算」も査読。それぞれ、少しだけ気になった点を指摘。

それにしてもウィキニュースって、なんだか楽しいな。ウィキペディアももちろん楽しいけど、ちょっと違う楽しさがある。出典とか中立性とかはどちらも共通なんだけど、ウィキニュースは特筆性についてはウィキペディアよりはハードルが低い感じがする。私の誤解かもしれないけど。特に短信については、かなり気軽に書けるという点で楽しいなぁ。もっと人が来て盛り上がると面白いと思うんだけど。

あと、短信を書いていると、著作権侵害をしない文章を書くいい練習になる感じがする。練習を積めば、いつか本記事も書けるようになるだろうか。JAWPでも記事を書けるようになるだろうか。

更に短信で、東日本大震災の余震の記事を追加。「未公開株を巡り、初の行政主導での集団提訴」を査読。時間が経ってしまっているので、情報源がリンク切れになってソース不明になってしまっている。これからは出来るだけ迅速に査読して、こういうことがないように協力していけるといいな。

思うんだけど、ウィキニュースって現状ではマイナーだけど、もっと発展していいんじゃないかな。ウィキペディアは百科事典だから、百科事典に載せるほどの大事件でもない限り掲載されない。でも、時事的な情報が蓄積、公開されているのってそれはそれで重要だと思うんだよね。あの事件ってそういえばどうなったんだろう、と思ったときに、さくっと検索してウィキニュースで調べられるというような状態になると便利そうだよね。ということで、ウィキペディアも大事だけど、ウィキニュースも大事ということで、貢献できるように頑張りたいところ。

ニュースのアーカイブについて、新聞社系のニュースサイトはほとんど過去ログを残さないから、データベースとしては使えない。2chのコピペブログとかは残るけど、記事を丸ごと無断転載してるから著作権的にどうよって話がある。となると、フリーな一般ニュースサイトって、実はほとんど無いんじゃないだろうか。私が知らないだけ?そうしたなかでは、ウィキニュースって貴重なサイトではないだろうかと思う次第。

うっかり見落としていたけど、ウィキペディアで新しい管理者への立候補が行われているよ。さっそくウォッチリストに追加。しかし、管理者の立候補ってわかりにくいなぁ。もっと分かりやすいところに表示してあるといいんだけど。

この日記のタイトルを「新人うぃきぺでぃあん日記」としていたんだけど、よく考えると間違っとる。ということで「新人うぃき<del>ぺ</del>めでぃあん日記」に改称。

またしても久しぶりのjawptool。テストを書かなきゃということで、だいぶ書いた。もちろん全部パスするけど。しかしまだテストコードは本体の半分くらいしかないなぁ。本当は本体よりテストコードの方が大きくないといけないそうなんだけど。なかなかそこまでは大変。

2011年7月11日

孤立したページとカテゴリなしページの作業。「追分駅 (静岡県)」は曖昧さ回避なんだけど、既に「追分駅」があって内容が重複するので不要と判断して削除依頼に。

削除依頼の長期積み残し案件。「NHK・TVK横浜市内中継局」、「NHK横浜市内単独中継局」について、過剰な記事として削除依頼が出ているので、同意投票する。

ふと思ったんだけど、ウィキペディアには宣伝目的で特筆性のない企業が自社の記事を作成して削除されるということが繰り返されているんだけど、そういう需要があるんだったら、企業の宣伝専用のWikiを作ったらどうだろう。日本中には何百万もの会社があるそうなので、それを全部収録すれば、サイトのSEO効果もそれなりに出て、企業も宣伝目的が果たせそうだ。うーん、ちょっと考えてみるかな。

ウィキニュースの1日1短信。今日は東京大学大気海洋研究所が採取に成功したニホンウナギの卵の公開のニュース。

ウィキニュースの査読。いっそ現在査読中になっている200件以上を全部を査読してやろうかと野望をいだくけど、情報源がリンク切れのものが多くて、実際には査読できそうにない。

結局、査読できたのは「訃報 児玉清氏 - 「アタック25」の司会で有名な俳優」「訃報 野沢那智氏 - 俳優・声優・演出家、アラン・ドロンの吹き替えなど」の2件のみ。

ところで、査読していて気がついたんだけど、47NEWSって古い記事でも削除せずに保存してるのかな。今までのところ、残ってる率が高かったような気がする。ならば、これからはできるだけ47NEWSを情報源にするのがよさそう。

ウィキニュースの短信。ロシアの沈没船事故はかなり被害が大きくなりそうなので、第一報の無い状態でだけど続報を短信に。こういう、あとから事件の規模が大きくなるようなニュースの扱いってウィキニュースではちょっと難しいな。どうしたらいいんだろう。第一報からがんがん掲載していくというのも手だけど、それだとニュースで溢れてしまうし(現状では杞憂だけど)。理想としては、詳細が分からない第一報は短信でとにかく報じておいて、詳細が分かってきたら本記事で報じるのがいいのかな。

なかなか完成しないjawptool。今日はlint-textの追加を少ししたりとか。しかし、気が乗らないのでドキュメントを書き始めたり。いや、実際そろそろ初版の公開は近そうな感じになってきたので、準備は進めておかないといけないんだけど。

ところで、公開するにあたってライセンスを何にするかが悩ましい。当然オープンソースなライセンスから選択するつもりなんだけど、どれがいいかなぁ。順当なのはGPLかBSDなんだけど。面倒だからzlibとかもありかとも思うけど。

2011年7月12日

以前から、タグ貼り付けの履歴をみるとIPユーザだったりすることが多くて、そういう人がいるのかなぁと単純に思っていたんだけど、あれってもしかしてアカウントを持っているけど、わざとログアウトしてIPでタグ貼り付けを行っているのかな。なんでそうするかというと、アカウントでの編集履歴を残したくないとか、立項者から恨まれたときに追跡されないようにとか。削除依頼もIPユーザでされていることがあるんだけど、これも同様なのかなぁ。なんだか深い世界だなぁ。

1日1短信。なかなかいいニュースがないなぁと探し回る。無いなら、無理して投稿することもないんだけど。しかし、夜になってPCにもNHK受信料を提言というニュースが出てきたので、これを投稿する。これで1日1短信を一週間続けたことになるな。出来れば1ヶ月、3ヶ月、1年と続けていきたいんだけど。それくらいになったら、本記事も書けるといいんだけど。

ウィキニュースの査読。「ソフトバンクモバイルに対し通信妨害、業務委託先の元社員を逮捕」は特に問題なかったけど、念のために公開は控えておく。どれくらい経験を積んだら、公開しても大丈夫なのかなぁ。

jawptool。SourceForge.JPで公開するつもりなんで、プロジェクト作成の申請をした。通ればいいんだけど、って申請が通らない場合ってイタズラとか以外にあるのかな?有用そうなツールでない、なんて理由でリジェクトされたらかなりショック受けそうだ。

2011年7月13日

SourceForge.JPのプロジェクト申請は無事に通った。ああ、よかった。ということで、ぼちぼちと作業を進めていく。SourceForge.JPの環境を設定したり、ドキュメントを整備したりとか。結構めんどくさい。でも、この手の作業は最初にやれば、あとは楽になるはず。と信じてやろう。

1日1短信。なんかニュースないかなぁと探してたら、宮尾すすむさんの訃報が飛び込んできた。亡くなったのは昨日なのね。そんなにお年とは思ってなかったけど、77歳だったのか。意外。

新しいデータベースダンプが公開されたのでダウンロード。7月12日版。そして、jawptoolにかける。全部の処理を実行するバッチファイルを作成してあるから、実行して後は待つだけ。ただ、時間が凄く掛かるんだけどねぇ。高速化も課題だよなぁ。

魁皇が千代の富士の最多勝記録に並んだというニュースがあったので、これも短信に。こうして短信のネタを探していると、時事に強くなっていく感じがするなぁ。

更に、気象庁が「高温注意情報」を初めて発表したニュースも追加。

SourceForge.JPと格闘して、夜になんとかjawptool 0.10をリリースできた。と思う。んだけど、プロジェクトページにはリリースファイルがありませんとなっているんだけど。反映に時間が掛かるんかなぁ。まだまだSourceForge.JPがよくわからん。ともあれ、一つのマイルストーンに達したので、嬉しい。

と思ったら、プロジェクトページに反映された。やっぱり、少しタイムラグがあるみたい。まあ、それは仕方なかろう。別に格段困ることでもないし。

2011年7月14日

SourceForge.JPのページは一晩で300PVくらいいって、ダウンロードも4件あった。新着効果だねぇ。

なでしこジャパンがスウェーデンを破って決勝進出。凄い!ということで、早速短信に。

芥川賞、直木賞の発表があったのでそれも短信に。あと、直木賞受賞者の池井戸潤氏のウィキペディアの記事に、この受賞のニュース記事を出典として追加。

記事名lintで、ややこしい案件を発見してしまった。ていうか、実は以前にも見つけていたんだけど、ややこしそうだったんで逃げてた。でも「逃げちゃダメだ逃げちゃダメだ逃げちゃダメだ」と自分を奮い立たせて、なんとか提案処理をこなす。

どういう案件かというと「釈迦堂(魚津市)」というもの。記事名の規則違反なんで即時改名可能なんだけど、改名先である「釈迦堂 (魚津市)」も存在したりする。こういう場合、大抵はどちらか一方がオリジナルでもう一方はコピペだったりするんで、そうならば即時削除可能なんだけど、これはなぜかコピペではない。となると移動依頼ということになるんだけど、そのためには改名の合意を得なければならないので、改名提案を行う。

ということで、なんとか提案完了。ぜいぜい。

カテゴリなしと孤立したページ作業。こっちは順調というか、作業対象になるページがほとんど無い。楽だなぁ。

自分が改名提案を出したついでに、改名提案の長期残留案件を眺めていて「Wikipedia:削除依頼/インセプション」なるものを発見。削除意見がついてるんだけど、依頼提出から3ヶ月近く放置されている。どうも削除依頼が提出されていなかったっぽいので、管理者伝言板と長期積み残し案件一覧に記載してみた。これで対処されるんじゃないだろうか。

2011年7月15日

昨日対処した削除依頼は、本日付け案件というように処理された。うん、考えてみればそれが真っ当だね。私が間違ってました。ごめんなさい。

1日1短信。光市母子殺人事件で橋下氏が弁護団に懲戒請求した事件で、最高裁の判決があって、橋下氏勝訴のニュース。

これって、さらっとした記事だけど、実は重大な問題をはらんでるんだよね。ってのは当時も当然に言われていたことなんだけど。弁護士は、特に刑事事件の弁護士は、被告の利益を最大化するように努めなければならない。そのためには合法的なあらゆる手段をとって構わない。これが原則だったんだけど、この事件(あえて事件と言おう)以降、有名事件の弁護士は世間に迎合しなければならなくなった。極論すれば、世論が裁判の結果を決めてしまう私刑社会ということになる。これって、裁判制度自体を揺るがす大事件なんだけど、当の橋下氏にその意識はあるんだろうか。なんだかなぁ、というのが私の感想なんだけど。

2011年7月17日

昨日はウィキブレイク。正確には1泊2日で出かけていたので2日のウィキブレイクでもよかったんだけど、帰宅してこうしてPCに向かってる。正直、旅行の疲れで早く寝たいと思っているのに、なにやってんだか。

ウィキペディアでは、更に新しく一人管理者に立候補されている。6月に一度立候補して自分から取り下げた人。こうして何度もチャレンジするということは、バイタリティがあるというか、それだけ熱意があるんだろうね。それは凄いことだと思う。

孤立したページとカテゴリなしページが更新されたので作業。でも、難しい案件はなかったし、追加された件数自体も少ないから、あっというまに終わってしまう。何か、他にもルーチンワークを作った方がいいのかな。

1日1短信は……今日はお休み。いいネタがないのと、さすがにしんどいのと。ということで、お休みなさい。

2011年7月18日

ウィキブレイク。

2011年7月19日

管理者投票のコメントで知ったんだけど、ウィキペディアのアンチテーゼサイトって結構たくさんあるんだね。アンサイクロペディアくらいは知ってたけど、他にも色々あるとは知らなかった。でも、どのサイトも人が集まってこないか、荒らしに荒らされて機能してないかどっちかに陥っているとか。ということは、ウィキペディアはなんだかんだ言われているけど、うまくいっている方なんだろうねぇ。

jawptoolをぼちぼち。しかし、修正は少しなのに確認に時間が掛かる。これはテストコードがきちんとしていればそれで大丈夫ということで、いちいち本番データでテストするのはやめてもいいのかなぁ。

twitterにフォローリクエストがきている。誰かと思ったらJAWPの偉い人のKs aka 98さんではないか。しかも、ツイートの履歴をみると、jawptoolの紹介をしてくださっているし。ありがたいけど恐縮だなぁ。うわわ。

で、リクエストだけど、申し訳ないがお断りとさせていただくことに。というのは、私はtwitterはリアル知人のみのフォロー限定にしているから。Ks aka 98さんは、お名前は拝見しているが、JAWPで会話をしたこともないし、もちろんお会いしたこともないわけなので。

カテゴリなしと孤立したページが更新されたので作業。テンプレートを編集するものがいくつかあったので、ちょっと大変だったけど、まあなんとか完了。

jawptoolの開発。テストはあとでまとめてするということで、修正をがんがん掛けて、がんがんコミットしていく。だいぶ作業がはかどったかな。しかし、高速化したつもりが計測してみると遅くなってしまったりと、謎な状態に。うーん、おかしいなぁ。絶対速くなるとおもったんだが。

2011年7月20日

jawptoolの開発。テストをちまちまと作りこんでいく。

記事名一覧の取得に時間が掛かるのはXMLパースが遅いのかと予想してたけど、計測してみるとハッシュに登録するのが重いみたいだな。なんとか、これをうまく高速化できないものかなぁ。

と思ったら、その推測も外れてた。なんと、曖昧さ回避判別の正規表現が重かった。iオプションを付けていたのを、付けなくていいようなパターンに変えたら、それだけで何倍も速くなったよ。こんなところにボトルネックがあったとは。うかつ。

2011年7月21日

jawptoolの開発。細々とした調整とかチューニングとかデバッグとか。だいぶ修正が積みあがってきたし、一旦リリース出してもいいかなぁ。

2011年7月22日

ずっとほったらかしにしていた法政大学の建築模型写真の件。ようやく電話して問い合わせ。してみたところ、やはり写真撮影には許可が必要ということだった。画像には許可を取ったことが明記されていないので、著作性は問わず「Wikipedia:画像利用の方針#他人の施設内で撮影された写真」を理由として削除票はそのまま。明治大学の画像の方も、同様の理由で意見を変更しておく。

釈迦堂(魚津市)」の改名提案について反対意見がなかったので合意形成とみなす。そのまま移動依頼を掛けてもいいんだけど、移動先の「釈迦堂 (魚津市)」には全然告知してないことになるので、念のために「釈迦堂 (魚津市)」を移動の妨げを理由として削除依頼を出す。

2011年7月23日

カテゴリなしと孤立したページが更新されたので作業。

jawptool。LintTextのテストを作っていく。と、結構バグが出てくるな。バグ出しするためにテストしているとはいえ、これだけ出てくると、ちょっと凹む。

2011年7月24日

引き続きjawptool。だいぶ作りこめてきたので、テストスクリプトだけではなく、本番データでもテストしてみる。と、当然だけど、いくつもバグが出てくるので修正。そしてテストケースにも組み込んでいく。これで同じ修正は二度としなくて済むはず。ということだよね。

久々の短信。最近jawptoolばっかりいじっててサボってたからなぁ。今日は中国版新幹線の脱線転落事故。大変な事故だよなぁ。あと、ノルウェーのテロのニュースも記載。あと査読も1件。しかし、査読は疲れる。文章を細かく読み比べないといけないからなぁ。

もうそろそろいいかなということで、jawptoolをリリース。バージョン0.11。ダウンロードはhttps://github.com/saoyagi2/jawptoolから。

リリースと言っても、今回のリリースは機能的にはほとんどなくて、バグ修正とパフォーマンスチューニング中心だからなぁ。使う人にとっては目新しいことがなくてあまり嬉しくないかも。あ、でも本当に使う人にとっては(つまり私)、パフォーマンスチューニングは結構嬉しい。データ処理が速くなるから。その分デバッグも楽だし。

で、それにあわせたわけではないだろうけれど、データベースダンプも更新されていたので、ダウンロードして定型処理を実施。ページも更新。

即時削除に出していた案件が、削除されずにタグを除去されてしまった。あれ?

落ち着いて経緯を確認しよう。まずきっかけは「アウディ e-tron」という記事を見つけたこと。これは記事名が「Wikipedia:記事名の付け方#自動車・乗用車関連」に反する。こういう場合は改名提案は必要なくて、即時改名して構わない。ということで「アウディ・e-tron」に改名した。

改名すると、元の「アウディ e-tron」は新しい記事へのリダイレクトになる。以前、似たような処理をしたときにリダイレクトを放置してたら、管理者さんに即時削除してもらったことがある。6月30日の「善徳寺 (半田市)」の件だね。

ということで、今回はちゃんと即時削除のタグを貼ったんだけど……あれ?

改めてガイドラインを読み返してみる。即時削除だから「Wikipedia:即時削除の方針#リダイレクト」の「リダイレクト2-2:作品名の表記についての慣例に反する」かなと思って貼り付けたんだけど、これではダメらしい。記事名の付け方には反するけど、即時削除には当たらないと判断されたということでいいのかな。

でまあ、結論としては管理者さんは通常のリダイレクトの削除依頼に出しなさいと仰っているので、その通りに出す。最初からそうしてればよかったけど、判断が微妙な気がしないでもないよなぁ。迷ったら、安全側に倒して(今回なら即時削除ではなく削除依頼)考えたらいいのかもしれないけど。

2011年7月25日

昨日リリースしたばっかりだというのに、jawptoolの開発。主にコードの整理とテストの追加。やることなんて、いくらでもあるんだよなぁ。

ウィキニュースの1日1短信。今日は阪急電車が節電編成での運行を開始したニュース。

削除依頼で「Wikipedia:削除依頼/東京ドーム (単位)」というのが出ていて、「東京ドーム」への統合として存続の意見が出ていたんだけど、記事を読んでみると他の建物の例も記載されているので、「慣用単位」などに改名してはどうかとコメントしてみる。

たまには、たまっているリダイレクトの削除依頼のお手伝いと思い、「ザ☆ドラえもんズ おかしなお菓子なオカシナナ?」の関連のリダイレクトについて、末尾を誤った「!?」から正しい「?」に改名した残骸ということなので、amazonで実際のタイトルが「?」なのを確認して全削除票。

Wikipedia:削除依頼/東京ドーム (単位)」では、私の提案に依頼者が同意してくれて取り下げ終了となった。こういう風に、ポジティブなやり取りが出来ると、気持ちがいいねぇ。

引き続きjawptoolの開発。更にテストコードを追加。lint-titleでJIS X 0208外の文字をチェックしているんだけど、今までは「?(はしごたか)」だけの簡易チェックだった。これではいかんだろうということで、UNICODE BMPにある全ての漢字についてテストするようにしたら、テストケースが5万件も増えてしまった。まあ当然か。それでも、全部パスするってのは、当たり前だけど嬉しいねぇ。これくらいテストコードを書いて、ようやくテスト自動化をしているという気分になってきた。

2011年7月26日

孤立したページとカテゴリなしのページが更新されたので作業。

カテゴリなしページで、久しぶりに統合案件に当たる。「トライシクル」というフィリピンの三輪タクシーの記事なんだけど、それほど大きくない。それに、三輪タクシーと言えばタイのトゥクトゥクが有名だと思うんだけど、それも「三輪タクシー」の中で説明されている。ならば「トライシクル」だけを別記事にしておく必要性は薄いだろうということで、統合提案。

引き続きjawptoolの開発。というかテストの充実。予定していたテストはだいたい書けたので、ここらで一旦リリースしようかな。念のために、本番データにも掛けてみて、そっちで不具合が出てないかも確認する。

1日1短信。今日は二つ。一つは個室ビデオ放火事件の2審裁判で死刑判決。もう一つは、御堂筋の彫刻に赤い服が着せられたという脇ニュース。

2011年7月27日

jawptoolの実行は問題なく終了していた。そして出力を比較しても問題なかったので、0.12をリリース。

ウィキニュースの1日1短信。今日は投資家のジョージ・ソロス氏が事実上の引退というニュースを取り上げる。40年以上に渡って年率20%を越える成績を上げ続けたって、凄いよなぁ。私のお小遣いも運用して増やして欲しい。

2011年7月28日

1日1短信。今日は、三洋電機の白物家電子会社が中国のハイアールに売却されるというニュース。我が家にも三洋電機の家電はあるし、少しだけど仕事もしたことがあるので、一抹の寂しさはあるな。あと、1件査読。

と思ったら、小松左京氏が亡くなったというビッグニュースが飛び込んできたので、これも短信に追加。

それ以外はjawptoolをいじっていた日。そろそろ新機能を色々と追加していきたいところなんだけど、ソースがだいぶごちゃごちゃしてきたので、その整理もしなきゃいけないなぁとかで大変。行き当たりばったりで作ってるから、こうなるんだけど。

2011年7月29日

釈迦堂 (魚津市)」が削除されたので、「釈迦堂(魚津市)」を移動。が、記事は移動できたんだけど、ノートの移動に失敗した。なんでかと思ったら、移動先に削除記録のノートが残っていたため。なるほどなぁ。自分ではどうしようもないので、移動依頼を出す。

削除依頼が取り下げられて改名提案がされている「東京ドーム (単位)」について、「慣用単位という単語は独自研究で、言葉の定義を作り出そうとしている」という理由で反対票が付く。うむむ。独自研究をするつもりも、言葉の定義を作り出そうとするつもりもなかったので、その点は私の不明をお詫びするコメントをする。しかし、そうなるとどうしたらいいんだろうねぇ。

とコメントしているうちに、移動依頼がさくっと対処された。ありがとう管理者さん。そして「釈迦堂(魚津市)」に即時削除タグを貼り付けるけど、理由でちょっと悩む。この間失敗したしな。この場合は、曖昧さ回避のカッコの付け方違反でいいよな。ということでタグ貼り付け。

リダイレクトの削除依頼の長期積み残し案件。「大型対潜艦」から「対潜艦」へのリダイレクトなんだけど、提案者によると両者は全く別の艦種なのだとか。ならば、リダイレクトは不適切だし、現状の「対潜艦」で大型対潜艦に関する記述があるのも不適切だと思う。ということで、分割してはどうかとコメントする。

jawptoolの開発。そろそろ新機能の実装に移行したいんだけど、その前にやってしまいたいことがどんどん思いついてしまって、作業がはかどっているんだかなんなんだか。一応、進行しているとは思うんだけど。だいぶ修正が積み重なってきたし、0.20をリリースする前に0.13をリリースしてしまおうか。

ウィキニュースの1日1短信は、新潟・福島の記録的豪雨について。友人の実家が新潟なんだけど、結構大変な事になっているらしくて心配。

孤立したページとカテゴリ無しのページが更新されたので作業。今回は特に手間の掛かる記事はなかったな。

2011年7月30日

昨日作業したカテゴリ無しのページだけど、1日経って考えてみると大きな問題のあるのがあった。なんで昨日は気がつかなかったんだろう。就寝前だったし、頭が回ってなかったのかな。

どういう記事かというと、人名のリダイレクト。芸能人などで本名を公開してない人はたくさん居るけど、それを探し出してきて記事に書き込むということはウィキペディアでは時々ある。それは、プライバシー問題として削除対象になるんだけど、今回の件はそれをリダイレクトで行ったという巧妙なもの。つまり、本名(かどうか怪しいんだけど)の記事から、とある有名人の記事へのリダイレクトになっているというもの。本名で検索すれば有名人に行き当たってしまうし、有名人の記事でもリンク元を表示すれば本名記事が分かってしまう。これもプライバシー問題であろうということで、リダイレクトの削除依頼ではなく、念のために通常の削除依頼に提出する。

夜、管理者に立候補する。実は以前から今日立候補しようと考えていたんですよね。なんで今日かっていうと、一つは7月26日で私が編集開始してから3ヶ月という区切りを迎えていること。もう一つは、先に立候補されていたOhgiさんの投票が今日終わること。自意識過剰かもしれないけど、私の立候補でOhgiさんへの投票に影響を与えてはまずいかなと思って。

立候補すること自体は前から決めていたので、それについては迷いはなかったんだけど、迷ったのは立候補のコメント。なんて書こうか。いや、どういう考えで立候補するかは当然決めてたんだけど、それを実際に文章にするとなると、なかなかに悩む。結局、次のような文章にした。

管理者の数が少ない、もしくは一部の管理者に負担が掛かっているという話を聞きますので、少しでも助けになれればと思い、管理者に立候補いたします。私はこれまで管理的な編集としては、削除依頼を主に手がけてきました。ですので、もしも管理者に信任いただきました場合には、削除依頼、即時削除、リダイレクトの削除依頼、移動依頼といったところからお手伝いしていこうと考えております。

さて、これから二週間。どんなドラマがあって、どんな結末が待っているのか。ともかく、私に出来ることは前半の一週間に質問に答えることだけ。そこを頑張ろう。

と思ったら、早速質問が来た。「出典の無い記事が多いことについてどう思うか」「Saoyagi2の立項した記事には出典が無いものが多いがどう思うか」というもの。それぞれ回答を考えるんだけど、これって思った以上に大変だな。普段の議論でも文章を書くのは大変だけど、それ以上に慎重に気を遣って書かなきゃいけないというか。いや、普段の議論でも慎重に書かなきゃいけないのは一緒なんだけど。

結局明け方くらいになってようやく書きあがって回答。前者については大きな問題と考えているが、10年の歴史の積み重ねをいきなりご破算にしてゼロからスタートというのは性急だと思う。出典が無い記事は削除して構わないんだけど、加筆しても構わないという方針もある。だから10年で誤っていたのなら、これからの10年で修正していけばいいのではないかというのが今の私の考えかな。ただし、存命人物記事については特別な方針が定められているから、緊急な対応が求められると思う。

もう一つは、初期の方針への理解が曖昧だった頃の立項なんで、今では間違っていたと思うと回答。

2011年7月31日

寝て起きて昼。寝たのが遅かったからな。さて次の質問が来ているかなぁと思ったら、来てなかった。ちょっと肩透かしを喰らった感じ。もっとビシバシ質問が来るのかと思ったんだけど。まあ、ビシバシ来ても困るんだけど。

昨日提出したプライバシー案件は即時削除された。よかったよかった。

ウィキニュースでたて続けに記事が査読中になったので4件査読する。結構しんどいので、今日の短信はパス。

夜になって質問がお二方から合計5つやってきた。ということで回答。いちいちここで書いていると大変なので、「Wikipedia:管理者への立候補/Saoyagi2/20110730(http://ja.wikipedia.org/wiki/Wikipedia:管理者への立候補/Saoyagi2/20110730)」を参照下さい。