4月13日のエントリで、evernoteのPDFファイルOCR機能がいまいちってことを書きました。画像ならOKなんですけどね。そこでスキャナの読み取りソフトのOCRを使ってみることにしました。
つかったスキャナは富士通のScanSnap S300。読み込んだのはUNIXマガジン2005年1月号*1。ふるいなぁ。B5サイズで約200ページです。読み込むのに15分ほど、OCR終了まで20分くらい。
失敗しているケース
ちゃんとした活字なんだけどだめか。
バックグラウンドに色がついているとNGなのかなと思うと、そうでもない。
これが無理なのはしょうがないか。
単語のあいだに空白があるとNGみたい。
成功しているケース
デザインされた文字でも活字ならOKなこともあるみたい。
うーん、どいつもこいつも(笑)。それなりに使えるけれども、全面的に信用はできないってところでしょうか。