2011/02/11

e.Typist v.13


ドキュメントスキャナーを買ったので、OCRソフトも買いました。
 始めはソフトバンクが出している、「やさしくPDF OCR v.2.0」を買いましたがだめでした。もろに安物買いの銭時間失いでしたね。せっかくなのでまずこちらから。
 OCRソフトは大昔に買ったe.typistを使ってきました。ver.6でした。このときにもう文字認識の精度は十分に高く、ソフトウェアとして実用性は十分でした。しかしこのVer.はPDFに対応していないためまた必要になったのです。認識自体はあれから数年たっていたので、どのソフトも実用レベルはあるだろう、またこの「やさしくPDF」のエンジンはeTpistを用いているとのことでしたので、あまり心配していませんでした。
 しかし、認識率は悪くなかったのですが、それを運用する周辺ソフトが余りにひどく、手抜きでして、結局使い物になりませんでした。100ページまでしか読めないので、書籍をPDFにするときかならず二度手間になりました。またアプリケーション自体が安定せず、すぐ強制終了でまったく作業が進まないこともあり、、、その他いろいろありましたが、とにかくひどかった笑

 そんなわけで今度はちょっとまともなものを。今度はまじめに調べました。今度のものは500ページまで処理できますから快適です。動作も安定しています。おおむね満足しております。

 実際に塚ッ見ないとわからない点としましては、まずPDFを文字認識することについてですが、これはPDFを一度画像ファイルとして出力してから認識、その画像ファイルの束からまたPDFを作るという手順で行われます。よって出来上がったPDFは透明文字が挿入され検索可能になりますが、画質自体はちょっとだけ劣化してしまう、ような気がするのです。
 それにPDFファイルの容量自体があきらかに挿入されたであろうテキスト分以上に大きくなってしまうことも。たとえば、40MBのPDFが60MBになるなど。これは一例で別に1.5倍になるということではありませんが、明らかにテキストファイル分の容量増加では無いでしょう。やはり一度画像ファイルを通していることが原因かと思われます。
 出力やPDF化時に詳細な画質設定ができないため余計もどかしく。これはちょっと悲しいですね。認識のときはともかく、文字の埋め込みはもとのPDFに対して行うとかは、技術的には難しいのでしょうか。
 本当はもこれまで作ってきたPDFファイルをマウントして、できれば複数のPDFファイルを、朝までに文字だけ埋め込んでいくような連続処理ができればいいのですが、そういうことは不可能なようです。

 次に、読み取った画像ファイルを認識する際ですが、アプリに画像をマウントすると、画像を次々読み込んでいきます。この際に画像一枚ごとにアプリがアクティブになって他のアプリを触れません。裏で勝手に読み込んでくれればいいのですが、一枚ずつおよそ一秒ごとにアクティブになり、とてもネットサーフィンすら無理です。ですので、200ページほど読み込ませますと、数分はパソコンの前で体操することになります。これも改善できそうなものですが。
 レイアウトの認識と文字認識とPDF出力(保存)は裏でやってくれます。

 以上気になる点をぐだくだと愚痴ってしまいましたが、前述の通りおおむね使用感には満足しております。

  PDF→(認識)→PDFには不満ですが、
  画像ファイル→(認識)→PDFでは良いと思います。

 PDF化したものはパソコンやkindle3で楽しんでいます。



追記1
例えば、10マイの画像を読み込み内一枚が白紙の場合、文字認識をしなかったとしましょう。ここでPDF保存すると、PDFには9枚しか出力されない模様。とても不満です。本の中には節々に白紙ページてありますから。白紙の中に適当に認識レイアウトをいれて、文字認識、そのご認識されたでたらめなテキストを削除すればいいのですが、どうもうまくありません。

追記2
設定の中に、取り込む画像ファイルをフルカラーか256色かという選択項目があります。フルカラーにしていると、画像ファイルがグレースケールでもフルカラーとして認識されます。これで出力されるPDFファイルのサイズが何杯にも増えている気がします。いや、原因は別にあるのかも知れないけど、実際にPDFの容量は五倍くらいになる。

追記3 2011/7
OCRを行う元の画像A3サイズを超える場合は、その超える範囲について勝手にトリミングされる。
こんな具合。
編集時はこう表示されていたものが、、、
保存するとこう出力される。

これは気をつけておかないと危ない。
以前、すべてのページがこうなってしまったファイルが有って落胆した。その時はてっきり自分でトリミングを失敗したのを流れ作業で保存してしまったのかと思っていたが、このソフトが原因だったのだろう。
もしそうなら、スキャナする前の原本はもうないし、取り返しの付かないことだ。以前は全ペーシがトリミングされていたので自分のミスだと思っていました。

 これを回避する方法は、縦横ピクセルとdpiを調節することです。
例えば縦5000pixの画像で96dpiなら上端か下端がカットされるはずです。これをdpiを200とか400に設定しなおすと、トリミングはおこらない。スキャナで読み込むときはdpiは常に意識にありますが、そうでないjpgなどは注意が必要です。フリーソフトで一括調整できるものもありますので、それでいじりましょう。
カットするなら一言エラー表示でお断りくらい入れて欲しいものです。



0 件のコメント:

コメントを投稿