11月29日

2011/11/29作成

削除処理。即時削除を4件、通常の削除依頼を6件だけど、「Wikipedia:削除依頼/NHKニュース 20111121」が大変。一つの依頼で15の記事が対象になっているので、全部削除してノートにテンプレ貼るのが一大作業。なんとか全部やったけど、作業ミスとかないよなぁ。多分大丈夫だと思うけど。

jawptoolのバッチは、やっぱりいくつか問題はあった。ということでデバッグ。最後の儀式として、8個の仮想環境でテストを実行。perl5.8系でテストスクリプトの書式が対応してないという問題があったので、そこを修正してようやく0.22をリリース。はー、ここまで長かったぁ。しかし、これでやっと一息つける。

今回リリースした0.22は、バージョン番号的には大したことないし、リリースノートも貧弱な内容だけど、中身は結構充実していると思う。というか、品質がかなり上がったと思ってる。なんせ、0.21から100件以上コミットしたからね。全履歴の半分くらいが、今回のリリースに詰まってる。だから、このバージョンは広く使ってもらって問題ないと思うし、出来れば多くの人に使ってもらいたい。まあ、そんなに需要のあるツールではないから、広く使ってもらうというのは難しいかもしれないけれど。

ということで、宣伝を兼ねて改めてjawptoolの機能をここで紹介してみる。なんだかんだ言って、いろんな機能があるんですよ。

「lint-title」記事名のチェックを行う機能です。具体的には、記事名に使用してはいけない文字を使用しているものなどをチェックしてレポートを出力します。ただし、レポートの冒頭でも書いている通り、ここでチェックされたからといって必ずしも間違った記事名というわけではありません。実際には個々に判断する必要があり、このレポートはそうした作業を行う助けをするものです。

「lint-text」記事本文のチェックを行う機能です。「プロジェクト:ウィキ文法のチェック」(現行はCheck Wikipedia)に類似していますが、ウィキペディア日本語版特有のチェックも積極的に行う点が違います。「lint-title」と同様に、チェックされているからといって必ずしも間違っているわけではありませんので、修正編集を行うかどうかは個々に判断する必要があります。また、明らかに誤っていて修正編集が必要な場合でも「Wikipedia:同じ記事への連続投稿を減らす」というガイドラインがありますので、編集を控えるという判断が必要な場合もあり得ます。

「lint-redirect」リダイレクト記事のチェックを行う機能です。「lint-title」「lint-text」「lint-index」の各機能は記事ごとにチェック結果をレポートしますが、この機能についてはチェック項目が少ないため、チェック項目ごとにレポートを出力します。チェック項目は「曖昧さ回避のカッコの付いたリダイレクト」「ノートのリダイレクト」「リンク先が存在しないリダイレクト」の三つです。「曖昧さ回避のカッコの付いたリダイレクト」と「ノートのリダイレクト」は、改名提案を経た移動の残骸であれば即時削除が可能です。そうでない場合はもちろん即時削除できません。個々に判断して、不要であれば「Wikipedia:リダイレクトの削除依頼」への提出を検討してもいいかもしれません。「リンク先が存在しないリダイレクト」は、適切なリンク先が存在すれば編集対応しても構わないでしょう。リンク先が存在しなければ、これも「Wikipedia:リダイレクトの削除依頼」へ提出してもいいかもしれません。なお、jawptoolでは最新の版のみを対象にチェックしていますので、過去の履歴でリダイレクト以外の版があったかどうかは調べていません。過去の履歴にリダイレクト以外の版がある場合は、「Wikipedia:リダイレクトの削除依頼」ではなく「Wikipedia:削除依頼」に提出しなければなりません。

「lint-index」「Wikipedia:索引」記事のチェックを行う機能です。これも他のチェックレポートと同様ですが、チェック結果がすなわち編集対応が必要とは限りません。個々に判断してください。

「statistic」統計処理を行う機能です。新しいデータベースダンプが公開されたら、「利用者:Saoyagi2/statistic」で公開するようにしています。

「titlelist」記事名の一覧をperlのデータ形式で出力する機能です。jawp-lint.cgiなどで使用します。

「living-noref」出典に関する節が存在しない存命人物記事の一覧を出力する機能です。ウィキペディアの全ての記事において出典が求められるのですが、特に存命人物の記事に関しては影響の大きさから、出典が強く求められます。現状、かなりたくさんあります。

「passed-sakujo」削除依頼タグが貼られてから3ヶ月以上経過した記事の一覧です。削除議論が長期化している可能性もありますが、依頼提出漏れなどの手続きの不備の可能性もありえます。いずれにしろ、削除依頼中のタグが長期間貼られたままというのは望ましいことではありませんので、なんらかの対応が求められると言えます。

「person」人物一覧記事の加筆候補を出力する機能です。今のところ「年記事(生年/没年)」「月日記事(生誕月日/死去月日)」「生没同日」「県別出身者一覧」が対象です。人物記事に付与されたテンプレートやカテゴリから情報を読み取っているため、カテゴリやテンプレートのパラメータが誤っていると誤検出します。本文の記述と整合が取れているかは個別に判断するようにしてください。また、人物一覧記事に掲載してよいかも一概に言えません。人物記事は数が多いですので、全て掲載すると一覧記事が膨大なものになってしまいます。数が少ないものに関しては加筆しても問題ないと思いますが、数が多いものについては加筆するかどうかは事前にノートで提議してからの方がよいでしょう。

「noindex」「Wikipedia:索引」に掲載されていない記事の一覧を出力します。これはただちに索引記事に加筆しても問題ないと思いますが、なんせ膨大ですので(現時点で20万記事以上)作業者の心が折れないように注意が必要です。

「index-list」「Wikipedia:索引」の各記事の大きさを大きいものから順に並べた一覧を出力します。索引記事はウィキペディア日本語版に記事が増えるにつれてどんどん大きくなっていきますので、ある程度大きくなったら分割することが推奨されます。その分割を行う目安として活用することを想定しています。ただ、大きいものから順に分割していけばいいというような単純なものではないので、具体的にどの索引記事をどのように分割するかは個別に検討と合意が必要です。

「aimai」「曖昧さ回避」記事の加筆候補を出力する機能です。これもですが、レポートに出力されているからといって機械的に加筆するべきではありません。既に曖昧さ回避記事に掲載されている記事へのリダイレクトなども検出してしまっていますので、そうした場合には加筆するべきではないでしょう。個々に判断して編集を行ってください。

「jawp-lint.cgi」jawptoolはCUI(コマンドラインユーザインターフェイス)ですが、lint-textについてのみウェブインターフェイス版を作成しております。それがこのCGIです。jawptoolのlint-text機能はデータベースダンプを処理して全ての記事について本文チェックを行いますが、jawp-lint.cgiでは単一の記事について本文チェックを行います。この機能については、ウィキペディア日本語版文法チェックCGIにて、すぐに使用できるように公開しています。

jawptoolがようやく一区切りついたので、次に積みあがっているToDoとして「私の履歴書」の入力作業に取り掛かる。コピーは随分前に国会図書館で取ってきたんだけど、なかなか取り掛かれなかったんだよね。

目論見としては、スキャナで取り込んでOCRに掛けて、誤字だけを修正すれば楽々と思ったんだけど、なんとOCRが無茶苦茶なテキストを出力する。どうやらコピーのサイズが小さくて文字が潰れてしまって判別つかなくなっているみたい。人間の目ではなんとか読めるんだけど、機械にはまだ無理だったか。新聞紙面をB4サイズに縮小するというのは小さすぎたみたいだね。うーん、これは困ったな。全部テキストを手で入力するとなると結構大変だぞ。


あおやぎのさいと2.0 新人うぃきめでぃあん日記