ScanSnapのOCR機能をためす

4月13日のエントリで、evernoteのPDFファイルOCR機能がいまいちってことを書きました。画像ならOKなんですけどね。そこでスキャナの読み取りソフトのOCRを使ってみることにしました。

つかったスキャナは富士通ScanSnap S300。読み込んだのはUNIXマガジン2005年1月号*1。ふるいなぁ。B5サイズで約200ページです。読み込むのに15分ほど、OCR終了まで20分くらい。

失敗しているケース


ちゃんとした活字なんだけどだめか。


バックグラウンドに色がついているとNGなのかなと思うと、そうでもない。


これが無理なのはしょうがないか。


単語のあいだに空白があるとNGみたい。

成功しているケース



デザインされた文字でも活字ならOKなこともあるみたい。


うーん、どいつもこいつも(笑)。それなりに使えるけれども、全面的に信用はできないってところでしょうか。

*1:ちなみにUNIXマガジンは創刊号から季刊になったところまで全部もっています。今回のこの実験でこの月の号はバラバラになって再生紙行きとなりました。残念。