新人うぃきめでぃあん日記:2011年11月

2011年11月1日

ウィキブレイク。

2011年11月2日

ウィキブレイク。

2011年11月3日

注文していたメモリが到着したので、PCに装着。ちなみに買ったのは2GBを2本。価格は3667円。安くなったもんだなぁ。

装着したメモリは問題なく認識される。まあ当然だけど。でも念のためにmemtest86を一晩実行することにする。

memtest86というのは、その名の通りメモリのテストプログラム。いろんなパターンでメモリの読み書きをテストして、メモリチップにエラーが無いか調べてくれるというもの。大抵は問題ないんだけど、当然不良品が混じっている可能性もあるわけで。不良品だったら交換すればいいんだけど、不良発生が普段の作業中だったらフリーズとかになるので怖いよね。なので、事前にテストして発見できるものなら発見しておこうというわけで実行してます。memtest86でテストして大丈夫だったからって、絶対にエラーが出ないわけでもないんだけどね。

2011年11月4日

昨晩実行したmemtest86は、エラーは検出されなかった。よかったよかった。

今日は久しぶりに時間が取れたので学校の写真撮影。いや、他にもやることは色々あるんだけど、これもとっととかたをつけてしまいたいなぁと思いつつ。先はまだまだ長いけど。

あちこち回って9校撮影。これで撮影済みは36校ということになるかな。撮影予定の1/3くらいに到達したかな。ほんと先は長いわ。

撮影した写真をコモンズにアップロード。今回はカテゴリを付けるのも忘れずに。そして、ウィキペディアに記事があるものについては反映。

ああ、それにしても忙しい。色々やりたいことや、やらなきゃいけないことが溜まっているんだけどなぁ。ただ、今の忙しさもようやく終わりが見えてきたかな。多分来週一杯でかたがつくと思うので、再来週からはウィキメディアンに復帰できるんじゃないかと思う。予定はあくまでも予定であって、未定だけど。

2011年11月5日

ウィキブレイク。

2011年11月6日

なんとなく思い立って、国会図書館の登録利用者の申請をしてみることにした。そんなに頻繁に行くわけではないから当日登録で十分なんだけど、なんとなく自己満足的に登録してみたいなと思ったので。で、この申請書って関西館に送るのね。手続きはそちらで一括して行っているということなのか。

2011年11月7日

この日記の9月分をようやく公開。校正していると、文章に気になるところって無限に出てくるなぁ。それだけ私の文章が下手ってことなんだけれど。しかし、いつまでやってもきりが無いということで、ここらで諦めて公開することにした。

2011年11月8日

ウィキブレイク。

2011年11月9日

学校撮影の旅。今日は6校。しかし、夕方の遅い時間になってしまったため、最後の1校は光量が十分でなくて画質が悪くなってしまったので没。また撮りに行かなければ。

それ以外の学校の分はアップロード出来るんだけど、いつも苦労するのがファイル名。もちろん学校の名称でファイル名を付けるんだけど、コモンズは公用語が英語だからファイル名もASCIIのみになる。となると校名のローマ字表記になるんだけど、読み方が分からなかったりするんだなこれが。各学校のウェブサイトをチェックしても読み方なんて、わざわざ書いてなくてわからない。ウィキペディアに記事があるものについては、定義文に読み仮名があるのでそれを参考にするんだけど、無いものについては苦労する。読み方なんて、その学校の当事者にとっては当たり前すぎてわざわざ書いたりしないんだろうなぁ。書いておいて欲しいんだけど。この問題については、一度役所に行ってまとめて聞いておいたほうがいいかもしれない。ああ、またToDoが(笑)。

2011年11月10日

国会図書館の利用者カードが届いた。ひゃっほーーい!

2011年11月11日

うぃきぶれいく(たまにはひらがなにしてみました)。

2011年11月12日

データベースダンプが更新されたのでダウンロードして定例バッチを実行。JSTでは12日だけど、UTCだと11日だから11年11月11日の1並びのダンプ。この日を狙ってダンプしたのかな?

ようやく時間が取れるようになってきたので、ウィキメディアンに徐々に復帰。と言っても、これだけ長い間離れていると浦島状態なので、まずは井戸端や削除依頼の議論を眺めてみて少しでもギャップを埋めるところから始めてみることに。ゆっくり、焦らずいきましょう。

2011年11月13日

昨晩仕込んだバッチが無事に終了したので、公開レポートを更新。改めて宣伝ですが、ウィキペディア日本語版解析ツール(jawptool)別館(現在は公開していません)にてレポートを公開しております。

2011年11月14日

うぃっきぶれいっく♪(ちょっと楽しそうにしてみた)

2011年11月15日

今頃になってだけど、「Wikipedia:リダイレクトの削除依頼/2011年10月」の残件にまとめて投票。月に1回のことだけど、まとめて投票するのは結構大変。

2011年11月16日

超久しぶりにjawptoolの開発を少し。開発といっても、予定していた主要な機能の実装は大体終わっているので、あとはテストの強化とデバッグというブラッシュアップ作業なんだけどね。

今日やったのは、正規表現で\dとすると全角数字までマッチしてしまう問題の対処。正規表現というのは文字列の検索や置換で使えるマクロみたいなもの。って、いまどきはマクロという表現もあまりしないな……なんて言うのがいいんだろう。まあいいか。その正規表現では数字にマッチする\dという表記が使えるんだけど、これがutf8環境では半角数字だけではなくて全角数字にもマッチしてくれる。親切な気もするけど、余計なお世話という気もする。試してないけど、日本語環境だけそうなっているわけではないだろうから、各言語の数字表現にも全部マッチするんだろうなぁ。

で、今回の場合は全角数字にマッチしてもらうと困るので、\dとしているところを半角数字だけにマッチするように[0-9]と書き換える作業をしたというわけ。当然、それに対応するテストも書くので、たったこれだけの修正でも結構手間が掛かる。ということで今日はこれだけでおしまい。

2011年11月17日

昨日に続いてjawptoolの開発。細々とした修正のほかに、機能強化も少し。

強化の一つは「?(U+FF5E)」という記号を記事名に使用した時のチェック。「?(U+FF5E)」は環境によって文字化けを起こすので使用することが推奨されていないのでチェックするようにしてみた。

もう一つは、記事名における平仮名と片仮名の混在のチェック。検出したいのは「へ(平仮名)」と「ヘ(片仮名)」の書き間違いなんだけど、平仮名と片仮名を混在させることもそれほどないだろうと思って、とりあえず簡単に実装してみた。実際にはそういう記事も複数存在するだろうけれど、LintTitle機能は誤検出もわりと仕方がないというスタンスで実装しているので、とりあえずはこれでいいかなと。って、他のLint機能も誤検出はたくさんあり得るんだけど。

機能強化のほかにテストコードの整備も少し。今までテストで使用するテンポラリファイルはファイル名を決め打ちしてたんだけど、これだと現代的ではないということでmkstemp()を使用するように変更。mkstemp()というのは、存在しないことが保証されたファイル名を返してくれる。これによって、万一にも既存のファイルに対して上書きしてしまうという事故を防ぐことが出来る。まあ、実際にはそんなことが起こる可能性はほとんどないんだけど。

2011年11月18日

今日も今日とてjawptool。しばらくまとまって時間が取れそうなので、集中的に取り組みたいと思っている。その割りにはかどってないけど。

テストの強化としてLintIndex(索引記事のチェック機能)のテストコードを書く。実はこの機能についてはテストコードが今まで全く無かったという。テストファーストが身についてませんなぁ。

昨日追加した記事名における平仮名片仮名混在のチェック機能。単なる混在チェックだとたくさん誤検出されるので、紛らわしい「へ/べ/ぺ」が隣接する場合のみにチェックするように修正。追加して片仮名と「力/工/口/二(漢字)」が隣接する場合も検出するようにしてみた。試しにダンプデータに掛けてみると「?工学」とか「?力学」とかがたくさんヒットしたけど、これはヒットして当然なので問題なし。

リファクタリングもちょこっとする。リファクタリングとは、まあ簡単に言えばソースコードの整理整頓。ただ、単純に整理整頓するとその修正でバグが入り込んでしまうこともあるわけだけど、そこでテストコードが重要になってくる。修正しても、テストをパスするようだったら、その修正は問題ないということになる。理想的には、つまりテストが完璧に書けていればだけど。不十分なテストでも、テストが無いよりはよっぽどいいんだけどね。

ということで、ソースコードの整理整頓をしていくんだけど、結構大変。コードの量も増えてきたしね。あと、整理整頓するとコードの量がどんどん減っていくのが、なんか寂しい気もする。整理しているわけだから、減っていくのはむしろ望ましいことなんだけど。

ということで、少しはソースも整理されました。まだまだ完璧には程遠いけど。

あと、今日でjawptoolのバージョン管理のリビジョンが200を超えた。おおー、いつの間にかそんなに修正してたんか。理想的には、もっとガンガン修正してコミットするべきなんだろうけれどねぇ。まあ個人プロジェクトなんで、のんびりいきましょうか。

2011年11月19日

今日もjawptoolの開発。

集計結果のソート用の関数があるんだけど、今まで数値でソートする関数と文字列で比較する関数の二つを作っていた。これは醜いということで、一つに統合しようと思ったんだけど、結構手間取ってしまった。

最初はエレガントに比較関数を引数で渡せるようにしようかと思ったんだけど、データ構造が対応できるようになってないというのに気が付いたので方針変更。結局、比較の方法を引数のフラグで指定するという無難な方法に逃げる。

コードを修正するならテストも修正なんだけど、ぐぐっていると配列の比較用にis_deeply()なんて関数があるのね。これまでは配列の要素を個々に比較していたんだけど、is_deeply()を使えばいっぺんに出来るんだ。そうなんかー。ということでテストコードを書き換え。どんどんテストコードが短くなっていくので、それはそれでちょっと寂しいものもある。

2011年11月20日

jawptoolをちょこっと。昨日のテストコードをis_deeply()に書き換える作業とか、ソースコードの整理とか。まだまだやりたいと思っていることがたくさん残っているんだけど、いつになったら終われるんだろう。とっとと終わらせて、管理者作業とか編集作業に復帰したいんだけどなぁ。

2011年11月21日

ものすごく久しぶりに管理者業務。久しぶりなんでリハビリということで簡単な案件から。即時削除に「単純な書き誤りの移動の残骸」が出ていたので、それぞれリンク元と履歴を確認して削除。

2011年11月22日

今日もちょこっと即時削除。昨日と同じように単純な書き誤りを削除。あと改名合意に基づく移動のノートの残骸が出てたんだけど、改名議論が去年のこと。こういう場合、改名合意があったことはノートで確認できるけど「Wikipedia:改名提案」に提出されたかどうかはすぐには分からない。仕方が無いので、提案者の投稿履歴から改名提案への提出を探し出して、ちゃんと提出されていることを確認して即時削除。要約欄に改名提案の提出された版への固定リンクを貼っておく。これで問題ないだろう。

ちょっと気分が乗ってきたので、通常の削除依頼も何件かこなす。いずれも著作権侵害案件。削除の合意があるものについて削除した。だいぶ仕事をした気分。あんまり調子に乗って、へまをやらかしてもいかんので、今日はこれくらいにしておこう。

jawptoolの開発もする。主にやったのはコードの整理だけど。だいぶ完成度が上がってきたかなぁ。

2011年11月23日

今日もちょこっと削除処理。即時削除を3件、通常の削除依頼を5件こなす。

jawptoolもちょこっと。コードを整理したりテストを追加したり。

2011年11月24日

ここ数日だけど、朝目が覚めるのが早い。4時頃に起きてる。まるでじじいの生活(笑)。じじいはともかく、これだけ朝早いとまだ誰も削除依頼に対処してないから一杯作業が出来る。今日はなんと8件も対処した。私が作業することによって、他の管理者さんの負担が少しでも減らせれば本望だなぁ。

即時削除案件。リンク元が修正されてなかったので編集対処してから削除。

jawptool。言語間リンクを誤検出する場合がまだある。言語コードは頑張って一覧を作ったつもりなのに、まだ漏れがあるんだなぁ。これはもう実際の記事にどういうコードが使われているか一覧にして調べてみるしかないなということで、簡単なスクリプトを書いて言語間リンクっぽいものを全部抜き出してみた。でもって、ウィキペディアのプレビュー機能を使って言語間リンクとして機能するものを抜き出して検出パターンに追加。これでもう大丈夫かな。しかし、このやり方だとデータベースダンプが更新されるたびに一覧を抽出してチェックしないといけないことになるな。またこれで定例ワークが増えてしまった。

今、jawptoolの開発はVMware上のFreeBSD(i386)で行っている。perlのバージョンは5.10.1。この環境でしかテストしてないから、もしかしたら他の環境ではうまく動作しないかもしれない。ということで、テスト環境をもう少し増やしてみた。具体的には、FreeBSD(i386)とFreeBSD(AMD64)に対して、perl5.8、perl5.10、perl5.12、perl5.14のそれぞれを組み合わせたもので、合計8個。インストールだけで大変だ。perlはportsからインストールしているんだけど、perl5.14はまだportsになってないので、ftp.perl.orgからtarballを直接取ってきてインストール。まあ、portsからでなくても、今時は問題なく動くんだけどね。

portsというのは、FreeBSDのアプリケーション管理の仕組みのこと。portsを使えば、アプリケーションを簡単にインストールしたり出来る。ただ、世の中の全てのアプリケーションがportsになっているわけではないから、そういう場合は今回のperl5.14のように直接インストールしなくちゃいけない。

それにしてもすごいなぁと思うのは、今時のPCの性能。インストール作業ということで、同時に仮想マシンを4つくらい立ち上げて作業してたんだけど、特に問題なく動いてしまうのね。デスクの上にちょこんと乗っている、5万円くらいで買ってきたPCだけど、ものすごい性能だよね、これって。コンピュータの性能の進化というのは、改めて考えると凄いなぁ。

2011年11月25日

管理者作業。即時削除を8件、削除依頼を4件対処。

管理者作業と言いつつ削除しかしてないけど、もちろん管理者作業には他にもいろんな業務がある。でも、当面は私は削除関連だけにしておこうかなと思う。もちろん他の業務も出来るといいのはそうだし、もしも管理者が一人しかいないんだったらそうならざるを得ない。しかし、幸いにもウィキペディア日本語版には60人を超える管理者が居る。これだけ居れば、作業の分業も可能だろうと思う。そもそも私が管理者に立候補したのは、他の管理者の方々の負担を少しでも減らすため。自分が万能の管理者を目指してというわけではない。だから、私が削除処理をある程度片付ければ、その分だけ他の管理者さんの負担を減らすことが出来るのではないかと思う。

超久しぶりに小学校の曖昧さ回避記事を立項。しかし、1個立項しただけで果てる。まだまだ立項するデータは残っているんだけどなぁ。これはいつになったら完了できるんだろう。

jawptool開発もする。細かな修正が主だけど、大きな変更点はテストスクリプトを分割したこと。これまで「test.pl」という単一のテストファイルで全テストを行っていたんだけど、これだとプログラムを修正するたびに全テストを行わなければならない。現状で全テストを実施するのに約1分掛かっているから、これは思考の流れを中断できるレベルの長さ。修正したところだけをテストを実行できるように、テストファイルをクラスごとに分割したというわけ。まあ、これもとっととやっておくべきことだったんだけどね。

だいぶ開発も進んだというか、やろうと思っていたことは大体出来たので、ここらで一度定例バッチを流してみることにする。ということで、バッチを仕込んで就寝。

2011年11月26日

削除処理。今日は少なめで、即時削除を2件、通常の削除依頼を4件処理。

昨晩仕込んだjawptoolの定例バッチ。レポートを眺めてみると、結構バグがあるな。かなり潰したつもりなのに。ということでデバッグを少々。

2011年11月27日

削除処理。即時削除を5件、通常の削除依頼を3件。しかし、こうして削除依頼の処理ばっかりやっていると、自分の編集履歴がそればっかりになってしまうな。やっぱりウィキペディアは百科事典を作るプロジェクトなんだから、記事を書くというのが本分なわけで、できればそういう編集ももっと出来るといいなぁとは思うんだけど。先は長い。

削除依頼について1件だけ、ちょっと気になったので「Wikipedia:削除依頼/レツ」についてコメントをしてみた。ジャンプで連載を始めたばっかりの漫画家さんで、「プロジェクト:漫画家#特筆性」をクリアしていないというのが依頼理由。

プロジェクト:漫画家#特筆性」には「商業出版社から自分名義での単行本が1冊以上刊行されている(自費出版は不可)。」とあってそれはクリアしてないんだけど、もう一つの条項「商業誌で連載経験がある。」はクリアしているんじゃないだろうか。だからと言って存続意見でもないので、コメントとしてそう書いてみた。

jawptoolの開発もするんだけど、今日はあんまりはかどらなかった。まあそんな日もあるわな。

2011年11月28日

削除処理。即時削除を4件、通常の削除依頼を1件処理。

Wikipedia:削除依頼/レツ」について、「プロジェクト:漫画家#特筆性はあくまでも目安である」というコメントが付き、他の管理者の方の判断で削除となった。まあ、そう決まったならそれでいいか。私だって別に存続にこだわっているわけではないし。

jawptoolもやっている。あと少しで終わりが見えてきたということもあり、今日はjawptoolの開発を頑張った。主にデバッグ、コードの整理だけど16回もコミットした。付属のwiki2htmlというツールも機能を強化して、添付しているREADME.txtに書かれている記法くらいは変換できるようにした。もうそろそろリリースしてもいいかな。ということで、例によって定例バッチを仕込んで就寝。

2011年11月29日

削除処理。即時削除を4件、通常の削除依頼を6件だけど、「Wikipedia:削除依頼/NHKニュース 20111121」が大変。一つの依頼で15の記事が対象になっているので、全部削除してノートにテンプレ貼るのが一大作業。なんとか全部やったけど、作業ミスとかないよなぁ。多分大丈夫だと思うけど。

jawptoolのバッチは、やっぱりいくつか問題はあった。ということでデバッグ。最後の儀式として、8個の仮想環境でテストを実行。perl5.8系でテストスクリプトの書式が対応してないという問題があったので、そこを修正してようやく0.22をリリース。はー、ここまで長かったぁ。しかし、これでやっと一息つける。

今回リリースした0.22は、バージョン番号的には大したことないし、リリースノートも貧弱な内容だけど、中身は結構充実していると思う。というか、品質がかなり上がったと思ってる。なんせ、0.21から100件以上コミットしたからね。全履歴の半分くらいが、今回のリリースに詰まってる。だから、このバージョンは広く使ってもらって問題ないと思うし、出来れば多くの人に使ってもらいたい。まあ、そんなに需要のあるツールではないから、広く使ってもらうというのは難しいかもしれないけれど。

ということで、宣伝を兼ねて改めてjawptoolの機能をここで紹介してみる。なんだかんだ言って、いろんな機能があるんですよ。

「lint-title」記事名のチェックを行う機能です。具体的には、記事名に使用してはいけない文字を使用しているものなどをチェックしてレポートを出力します。ただし、レポートの冒頭でも書いている通り、ここでチェックされたからといって必ずしも間違った記事名というわけではありません。実際には個々に判断する必要があり、このレポートはそうした作業を行う助けをするものです。

「lint-text」記事本文のチェックを行う機能です。「プロジェクト:ウィキ文法のチェック」(現行はCheck Wikipedia)に類似していますが、ウィキペディア日本語版特有のチェックも積極的に行う点が違います。「lint-title」と同様に、チェックされているからといって必ずしも間違っているわけではありませんので、修正編集を行うかどうかは個々に判断する必要があります。また、明らかに誤っていて修正編集が必要な場合でも「Wikipedia:同じ記事への連続投稿を減らす」というガイドラインがありますので、編集を控えるという判断が必要な場合もあり得ます。

「lint-redirect」リダイレクト記事のチェックを行う機能です。「lint-title」「lint-text」「lint-index」の各機能は記事ごとにチェック結果をレポートしますが、この機能についてはチェック項目が少ないため、チェック項目ごとにレポートを出力します。チェック項目は「曖昧さ回避のカッコの付いたリダイレクト」「ノートのリダイレクト」「リンク先が存在しないリダイレクト」の三つです。「曖昧さ回避のカッコの付いたリダイレクト」と「ノートのリダイレクト」は、改名提案を経た移動の残骸であれば即時削除が可能です。そうでない場合はもちろん即時削除できません。個々に判断して、不要であれば「Wikipedia:リダイレクトの削除依頼」への提出を検討してもいいかもしれません。「リンク先が存在しないリダイレクト」は、適切なリンク先が存在すれば編集対応しても構わないでしょう。リンク先が存在しなければ、これも「Wikipedia:リダイレクトの削除依頼」へ提出してもいいかもしれません。なお、jawptoolでは最新の版のみを対象にチェックしていますので、過去の履歴でリダイレクト以外の版があったかどうかは調べていません。過去の履歴にリダイレクト以外の版がある場合は、「Wikipedia:リダイレクトの削除依頼」ではなく「Wikipedia:削除依頼」に提出しなければなりません。

「lint-index」「Wikipedia:索引」記事のチェックを行う機能です。これも他のチェックレポートと同様ですが、チェック結果がすなわち編集対応が必要とは限りません。個々に判断してください。

「statistic」統計処理を行う機能です。新しいデータベースダンプが公開されたら、「利用者:Saoyagi2/statistic」で公開するようにしています。

「titlelist」記事名の一覧をperlのデータ形式で出力する機能です。jawp-lint.cgiなどで使用します。

「living-noref」出典に関する節が存在しない存命人物記事の一覧を出力する機能です。ウィキペディアの全ての記事において出典が求められるのですが、特に存命人物の記事に関しては影響の大きさから、出典が強く求められます。現状、かなりたくさんあります。

「passed-sakujo」削除依頼タグが貼られてから3ヶ月以上経過した記事の一覧です。削除議論が長期化している可能性もありますが、依頼提出漏れなどの手続きの不備の可能性もありえます。いずれにしろ、削除依頼中のタグが長期間貼られたままというのは望ましいことではありませんので、なんらかの対応が求められると言えます。

「person」人物一覧記事の加筆候補を出力する機能です。今のところ「年記事(生年/没年)」「月日記事(生誕月日/死去月日)」「生没同日」「県別出身者一覧」が対象です。人物記事に付与されたテンプレートやカテゴリから情報を読み取っているため、カテゴリやテンプレートのパラメータが誤っていると誤検出します。本文の記述と整合が取れているかは個別に判断するようにしてください。また、人物一覧記事に掲載してよいかも一概に言えません。人物記事は数が多いですので、全て掲載すると一覧記事が膨大なものになってしまいます。数が少ないものに関しては加筆しても問題ないと思いますが、数が多いものについては加筆するかどうかは事前にノートで提議してからの方がよいでしょう。

「noindex」「Wikipedia:索引」に掲載されていない記事の一覧を出力します。これはただちに索引記事に加筆しても問題ないと思いますが、なんせ膨大ですので(現時点で20万記事以上)作業者の心が折れないように注意が必要です。

「index-list」「Wikipedia:索引」の各記事の大きさを大きいものから順に並べた一覧を出力します。索引記事はウィキペディア日本語版に記事が増えるにつれてどんどん大きくなっていきますので、ある程度大きくなったら分割することが推奨されます。その分割を行う目安として活用することを想定しています。ただ、大きいものから順に分割していけばいいというような単純なものではないので、具体的にどの索引記事をどのように分割するかは個別に検討と合意が必要です。

「aimai」「曖昧さ回避」記事の加筆候補を出力する機能です。これもですが、レポートに出力されているからといって機械的に加筆するべきではありません。既に曖昧さ回避記事に掲載されている記事へのリダイレクトなども検出してしまっていますので、そうした場合には加筆するべきではないでしょう。個々に判断して編集を行ってください。

「jawp-lint.cgi」jawptoolはCUI(コマンドラインユーザインターフェイス)ですが、lint-textについてのみウェブインターフェイス版を作成しております。それがこのCGIです。jawptoolのlint-text機能はデータベースダンプを処理して全ての記事について本文チェックを行いますが、jawp-lint.cgiでは単一の記事について本文チェックを行います。この機能については、ウィキペディア日本語版文法チェックCGI(現在は公開していません)にて、すぐに使用できるように公開しています。

jawptoolがようやく一区切りついたので、次に積みあがっているToDoとして「私の履歴書」の入力作業に取り掛かる。コピーは随分前に国会図書館で取ってきたんだけど、なかなか取り掛かれなかったんだよね。

目論見としては、スキャナで取り込んでOCRに掛けて、誤字だけを修正すれば楽々と思ったんだけど、なんとOCRが無茶苦茶なテキストを出力する。どうやらコピーのサイズが小さくて文字が潰れてしまって判別つかなくなっているみたい。人間の目ではなんとか読めるんだけど、機械にはまだ無理だったか。新聞紙面をB4サイズに縮小するというのは小さすぎたみたいだね。うーん、これは困ったな。全部テキストを手で入力するとなると結構大変だぞ。

2011年11月30日

削除処理。しかし今日は即時削除案件が無かった。まあそういう日もあるね。通常の削除依頼は6件対処。

家人が携帯電話を買い換えました。で、その端末の記事を見てみると写真が載ってなかったので、撮影してコモンズにアップロード。記事に反映。これでよしと思ったら、家人から「机の上で撮ったのは見苦しい」とクレームが(笑)。まあ、確かになぁ。この手の小物をいくつも撮影するなら、安い撮影ボックスを買ってもいいかもしれない。そして、これまでアップした携帯電話の写真は全部撮りなおすかなぁ。

私の履歴書」の入力作業。マイクロフィルムからコピーをとったものはB4ではなくA3なので、これならOCRできるかもしれないと思って試しにスキャンしてみたところ、これもダメ。うわーん。これは困ったな。手入力するしかないのか。そうか。そうなのか。

ということで、諦めて手入力することにする。スキャンしたPDFを拡大表示して、それを見ながらテキストエディタでひたすらタイピング。これだと資料を見るのに顔を動かす必要が無いから、まだ楽だね。OCR出来ないとしても、スキャンはしたほうがよさそう。

ちなみに、今日入力したのは「五島慶太」。別に五島慶太に思い入れも何も無いんだけど、ただ単にコピーを取ってきた3人分の記事の中で、たまたま最初に手に取ったというだけのこと。「私の履歴書」は1回分の掲載文がそれほど多くないので、入力は比較的順調に進む。それでも計10回の連載だから、トータルでは結構なボリュームなんだけど。

入力していて困ったのは、一部に読み取れない文字があったりする。スキャン時に荒れてしまったものはコピーを見直すことでなんとか補完できるんだけど、コピーでも読み取れないものが数箇所残ってしまった。これは国会図書館にもう一度行って原本で確認するしかないなぁ。

読み取れないところが何ヶ所か残ってしまったけど、そこはwikiなんであとから修正してもいいかということで、ウィキソースにアップする。「私の履歴書/五島慶太」がそれです。私のウィキソースのデビュー作ですな。

「私の履歴書」で著作権の切れた記事はまだいくつかあるんだけど、さすがにこの入力作業はちょっと疲れるので、続けてやるのは無理。少しずつ進めていこう。