だいぶ間が空いてしまいましたが、自炊シリーズ(イントロ編・裁断編・スキャン編・スキャン続編)、今回はOCR編を。
本や資料をスキャンしてPDF化したら、次は当然OCRによって文字認識したいですね。なぜなら、気になる部分をハイライトしたり、テキストを検索したり、統計データなどをコピー&ペーストしたりできるから。それに、OCRによってPDFのファイルサイズをかなり小さくすることができる。OCRのメリットは大きい!
・・・そんなふうに思っていた時期もありました。
いろいろやってみて、現時点で私が出した結論。それは、「OCRはやらない」です。
その最大の理由は、OCRを行ったPDFが、iPad上で使いものにならないから。PDFを読むのにGood Readerを使っていますが、ファイル読み込みが遅すぎる。ファイルサイズが大きいから、というわけでもなく、数ページ、1MBほどのファイルでも、2分以上読み込み中のモザイク画面を見る羽目になったことも。で、ページをめくるとまたモザイクが延々と・・・。
一方、OCRを行っていない、画像として保存した100MB近くもあるようなPDFが、さくっと読み込み、ページもぱらぱらっとめくれてしまうんですね。
つまり、ファイルサイズは読み込みのスムーズさにはあまり関係がなく、OCR実施の有無が問題の原因のようです。OCRを行ったPDFを開くときのGood Readerの挙動に注目すると、画面の右上で「a」のマークがかたちを変えながらチカチカしています。どうやら、テキストを認識(読み込み?)しようとがんばっているようです。読み込みの遅さは、どうもこのへんに起因してそうです。
じゃあ、Wordファイルなどから作成したPDFだと読み込みやページめくりがスムーズで、テキストのコピペもほぼ完全にできるのはどうして?と問われると、困ってしまいますが・・・。
ちなみに、OCRは、Adobe Acrobat 9 Proの機能を使って行っています。ネットを見て回ると、OCRを行う際のPDFの出力形式を<検索可能な画像>(デフォルト)か<ClearScan>にするか、が重要なポイントのようで、私も両者を比較したりもしました。が、上記のように、私の場合どうもそれ以前の問題だなあ、と。私と同じようなことで困っている人もいて、その人は「解像度を落とせば良い」と書いていましたが、図表の視認性を考えると、それもちょっと・・・。
また、AcrobatのOCR機能もたいしたことないなあ、というのが率直な感想。OCRが終わったファイルのテキストを選択してみると、文字認識できている部分が飛び飛びだったり、コピペした結果をみると、日本語でお願いします、というものだったり。きっと、OCRの良好な結果を得るためには、もっとスキャンの質を上げないといけないんでしょうね。
あと、統計表のOCRについては、読んde!!ココも試してみました。行政資料にありがちな複雑な表もセル単位で認識してくれて、すごいな、と思う部分もあるけれど、認識ミスもちょいちょい目につき、信頼して使えるレベルではないなという感じです。統計データは、何よりも正確さが重要ですからね。OCRで得られた結果をちまちまと修正するよりも、Excelに手入力したほうが早いし、(自分の作業を信用すれば)安心度も高いんじゃないかと・・・。
ファイルサイズが大きくても困らない。今のところ、統計データは手入力で事足りている。テキストのハイライト表示はできないけれど、しおりや吹き出し型の注釈をつけておけば、Good ReaderやAdobe Readerで参照できる(また、Good Readerでつけた注釈はEvernoteに送ることもできる)。一方、これまで以上にスキャンの質を高めるのは手間がかかりすぎて無理。このように考えると、OCRに対し抱いていた熱い気持ち(何じゃそりゃ)も冷めてきた、そんな夏の終わりです。