認識に大きな影響を及ぼすのは原稿を読み取るときの解像度と濃度である。まず解像度であるが、通常は300 dpi、小さい文字であれば400 dpiに設定する。大小の判断が難しければ400
dpiに設定しておけばよいだろう。ただ300 dpiと400 dpiで認識率にどの程度の差があるかは、まだ確認していない。解像度が高ければ認識率も高くなるのではと思い600
dpiで試してみたが、『読取革命』の性能上の問題なのか、未認識の箇所が出てくるようなので、お勧めできない。メモリ容量の問題なのかとも思うが、1GBを搭載しているのでその可能性は低い。
濃度の選択は解像度ほど簡単ではない。濃くすれば文字がつぶれるし、薄くすればかすれてしまう。最適の濃度をどのようにして見つければよいのか、常に悩む点である。印刷の状態にもよるので、なんとも言えないのであるが、「y」の下が欠け「v」と認識しないような濃度設定がよいといまは考えている。日本語で言えば、漢数字の「一」を「--」と誤認識しないような濃度である。この場合、画数の多い複雑な文字では隙間がつぶれて誤認識する可能性が高くなるが、この種の文字はもともと誤認識する確率が高いのだとあきらめることにしている。
原稿の読み取りにあたって他に注意する点があるとすれば、原稿のスキュー(傾き)であろう。OCRソフトには傾きを補正する機能が備わっているが、最初から正しく読み取っておくに越したことはない。『読取革命』のことかどうかは不明だが、傾きを補正すると画像が粗くなり、認識に影響を与えるとの意見をネット上で見かけたことがある。
『読取革命』はカラーOCRと銘打っているので、原稿をカラー書類として読み取ったほうがよいのではと考えても仕方がないが、原稿内に色つきの文字がなければ白黒書類として読み取るほうがスキャニングの速度は速い。ただモノクロの2値画像がよいのか、グレースケールがよいのかは、判断に迷うところである。
後日に『航空自衛隊用語集』の和英編をスキャニングした結果では、画像の読み取りは、グレイスケール画像(白黒書類)よりも、モノクロ画像(線画/文字)で行った方が効率がよいことがわかった。
モノクロ画像とグレイスケール画像とでは、誤認識するパターンは異なってくるが、誤認識率にさほどの違いはないようだ。画像読み取りの速度が速くなる分だけ効率がよくなる。画像を連続して読み取っておき、あとで一括して認識させれば、なお作業効率はよくなる。
この場合、TIFF形式で画像を保存しておくとOCRソフトのノイズ除去機能が使える。理由は不明であるがJPG形式では使えない。ある面では気休めの機能にしか感じられなくもないが、認識率の向上が期待できるのであれば、ノイズの除去はやっておくに越したことはない。ただノイズの除去では「大・中・小」を選択するようになっているが、どれが適切かはまだつかめていない。「気休め」として、いまは「小」を選択している。
ヒント:ノイズは、やはり徹底して除去しておいたほうがよいことがわかってきた。「小」で、ざっとノイズを除去しておき、あとは「消しゴム」で徹底して、ゴミを消去する。かなりの手間になるが、読み取り結果の品質を考えたら、そうすべきである。最初から正しい仕事をするという、品質管理の基本をここでも教えられた。
|