軍事用語のサイト

サイトマップへのリンク
軍事用語サイトのトップページへ戻る 自己紹介へのリンク サービス内容へのリンク お問い合せへのリンク

OCR関係

スキャンサービス
スキャン手順の詳細
スキャン手順の検証
OCRスキャニング手順の検証 | スキャニング、読取革命、テキスト化

OCRスキャニング手順の検証

OCRスキャニング手順の検証 | スキャニング、読取革命、テキスト化

現在、スキャニング・サービスは行っていません。

読取革命バージョン8の頃に作成しているため、内容はかなり古くなっています。OCRを活用したい方には参考になる内容があるかも知れません。そのまま掲載を続けています。


辞書のスキャニング・サービスを開始するにあたり、一種のシミュレーションとして『航空・空港用語集』(日刊工業新聞社)の英和編(約125ページ)をスキャニングしてみた。いままでにも相当数の辞書・用語集をテキスト化してきたのだが、改めて作業手順を検証することはなかったので、この機会におさらいしてみることにした。

  • OCRソフトについて
  • スキャナーについて
  • スキャニング手順について
  • 工数について

OCRソフトについて

OCRソフトには『読取革命バージョン8』を使用した。このソフトに出会ったのは昨年のことであるが、使ってみて辞書の電子化について一挙に展望が開ける感じがした。いろいろなソフトを試してきたが、辞書・用語集の場合、英語と日本語が混在し、日本語はそこそこ認識したとしても英語に難があったり、またその逆であったりして、どうしても不満が残ってしまっていた。『読取革命』では、バランスよく両方を認識してくれるので、あとの校正作業が格段にやりやすくなった。

だが、日本語だけ、あるいは英語だけの文章をスキャニングするのであれば、別の選択肢があるかもしれない。たとえば、かなり以前のことだが、英文の認識にはOmniPage Proを使用していた。確か当時hバージョン6であったが、それでもほぼ完璧に認識していた。現在ではさらに性能が向上しているはずなので、英文を大量にテキスト化するのであれば、このソフトがおすすめかもしれない。


スキャナーについて

スキャナーはエプソンのGT-9300UFを使っている。特に理由はなく、この程度の性能があれば、あれこれの用途に使えるのではないかと考えて購入しただけである。スキャニングに限って言えば、300 dpiから400 dpiの解像度があれば十分なので、低価格機でも問題はないと思う。現状では600 dpiで読み取って認識させることはまずないので、スキャニング専用ということになれば旧い機種でもよいようだ。

冊子の場合は、のどの部分が黒くなってしまう。

ただスキャナーのセンサーの方式にはCCD方式とCIS方式があり、CISの場合は原稿が原稿代に密着していないと、その部分を黒く認識してしまう。冊子の場合は、のどの部分が黒くなってしまう。CCD方式であれば、焦点が深いため、そういったことはない。分厚い本をスキャニングする予定があれば、CCD方式を選択しておいたほうがよい。方式の違いの見分け方であるが、CCDのほうがCISよりも筐体が4倍ほど厚いので外観ですぐにわかる。


スキャニング手順について

下記手順にてスキャニングを行った。

  1. 原稿の読み取り
  2. OCRソフトによる文字認識
  3. 『漢字チェッカ』によるチェック (残念ながらリンク切れ)
  4. 認識結果のラフチェック
  5. テキストの整形
  6. ワープロソフトによるチェック
  7. 机上校正

原稿の読み取り

認識に大きな影響を及ぼすのは原稿を読み取るときの解像度と濃度である。まず解像度であるが、通常は300 dpi、小さい文字であれば400 dpiに設定する。大小の判断が難しければ400 dpiに設定しておけばよいだろう。ただ300 dpiと400 dpiで認識率にどの程度の差があるかは、まだ確認していない。解像度が高ければ認識率も高くなるのではと思い600 dpiで試してみたが、『読取革命』の性能上の問題なのか、未認識の箇所が出てくるようなので、お勧めできない。メモリ容量の問題なのかとも思うが、1GBを搭載しているのでその可能性は低い。

濃度の選択は解像度ほど簡単ではない。濃くすれば文字がつぶれるし、薄くすればかすれてしまう。最適の濃度をどのようにして見つければよいのか、常に悩む点である。印刷の状態にもよるので、なんとも言えないのであるが、「y」の下が欠け「v」と認識しないような濃度設定がよいといまは考えている。日本語で言えば、漢数字の「一」を「--」と誤認識しないような濃度である。この場合、画数の多い複雑な文字では隙間がつぶれて誤認識する可能性が高くなるが、この種の文字はもともと誤認識する確率が高いのだとあきらめることにしている。

原稿の読み取りにあたって他に注意する点があるとすれば、原稿のスキュー(傾き)であろう。OCRソフトには傾きを補正する機能が備わっているが、最初から正しく読み取っておくに越したことはない。『読取革命』のことかどうかは不明だが、傾きを補正すると画像が粗くなり、認識に影響を与えるとの意見をネット上で見かけたことがある。

『読取革命』はカラーOCRと銘打っているので、原稿をカラー書類として読み取ったほうがよいのではと考えても仕方がないが、原稿内に色つきの文字がなければ白黒書類として読み取るほうがスキャニングの速度は速い。ただモノクロの2値画像がよいのか、グレースケールがよいのかは、判断に迷うところである。

後日に『航空自衛隊用語集』の和英編をスキャニングした結果では、画像の読み取りは、グレイスケール画像(白黒書類)よりも、モノクロ画像(線画/文字)で行った方が効率がよいことがわかった。

モノクロ画像とグレイスケール画像とでは、誤認識するパターンは異なってくるが、誤認識率にさほどの違いはないようだ。画像読み取りの速度が速くなる分だけ効率がよくなる。画像を連続して読み取っておき、あとで一括して認識させれば、なお作業効率はよくなる。

この場合、TIFF形式で画像を保存しておくとOCRソフトのノイズ除去機能が使える。理由は不明であるがJPG形式では使えない。ある面では気休めの機能にしか感じられなくもないが、認識率の向上が期待できるのであれば、ノイズの除去はやっておくに越したことはない。ただノイズの除去では「大・中・小」を選択するようになっているが、どれが適切かはまだつかめていない。「気休め」として、いまは「小」を選択している。

ヒント:ノイズは、やはり徹底して除去しておいたほうがよいことがわかってきた。「小」で、ざっとノイズを除去しておき、あとは「消しゴム」で徹底して、ゴミを消去する。かなりの手間になるが、読み取り結果の品質を考えたら、そうすべきである。最初から正しい仕事をするという、品質管理の基本をここでも教えられた。

OCRソフトによる文字認識

原稿を読み取った後は、いよいよOCRソフトに文字認識をさせるわけだが、このステップで工夫することは限られている。誤認識した文字を見つけ、ソフトをチューニングすることも考えられるが、辞書・用語集では複数の書体を使用していることが多く、あちらを立てればこちらが立たずといった状態になる可能性がある。いずれにしても、いまはデフォルト状態のまま、あとはソフトの性能にまかせている。

原稿の画像が傾いていれば補正しておくことは言うまでもない。また画像のエッジを強調させる機能もあり、これを使えば認識率が向上するとマニュアルでは述べているが、まだ検証してはいない。

『漢字チェッカ』によるチェック

このツールは、テキスト内の使用漢字を常用漢字のみに限定したいときや、漢字の含有率などを調べたいときなどに使用するツールである。非常用漢字をチェックしてくれるツールがないか探していたときにネットで見つけた。

辞書・用語集では、一般的に常用漢字の範囲内での記述を目指している。従って、非常用漢字の出現は誤認識の文字である可能性が高いと言える。このツールでは、非常用漢字のまえに■を付けて出力してくれるので、あとのチェックがやりやすい。ワープロソフトにも同様のチェック機能はあるが、下線等で示すだけなので見落としてしまうことがある。

実際に試してみたが、使い勝手もよく、誤認識文字の検出にも効果的であることがわかった。またユーザーが使用を制限したい文字も指定できるので、「ラフチェック」を一部代替させることができる。

(残念ながらリンク切れになっている。)

認識結果のラフチェック

(適切な言葉が見つからず「ラフチェック」としている。)

OCRソフトは、ある一定のパターンで文字を誤認識する傾向がある。誤認識しやすい文字についてはリストにして蓄積しているので、それをもとに画面上でチェックする。チェックはエディターの検索機能を使って行う。例えば:

  • 漢数字の「一」と長音「ー」
  • 漢字の「工」または「口」とカタカナの「エ」または「ロ」
  • アラビア数字の「1」または「0」と英文字の「I」または「O」 など

また通常ではあり得ない文字種や出現パターンについても、このステップでチェックする。これもエディターの検索機能を使うが、検索文字列は正規表現で表記する。例えば:

  • 半角のカタカナ
  • 英字の前後が漢字(例:漢a漢) など

テキストの整形

当然の事ながら、OCRソフトでは原稿をそのまま認識しているので、泣き別れなどを修正し、書式を整える必要がある。例えば:

  • 改行記号の削除(泣き別れの箇所)
  • ハイフネーション用ハイフンの削除
  • 英数字の全角 → 半角への変換
  • 英単語内の全角スペース → 半角スペースへの変換 など

ワープロソフトによるチェック

ここではワープロソフトの校正機能を使って誤認識した文字を検出する。ワープロソフトによってチェックの内容に若干の差があったり、得手不得手の分野があったりし、一方のチェックをすり抜けていることもある。したがって、Wordと一太郎でダブルチェックを行っている。完全を目指すには、もうひとつ別のワープロソフトを加えたいのだが、適当なソフトはまだ見つかっていない。

「表記のゆれ」をチェックすることによって、案外に誤認識した文字を見つけることができる。この機能はWordと一太郎の両方にあるが、とくに一太郎のほうで見つかることが多い。

いままでの経験で言えるのであるが、バージョンがアップしても、その校正機能が誤認識文字の検出に有効に働くとは限らない。「賢くなる」ことによって、逆に見逃してしまうこともあるので、旧バージョンとの併用も考えてはみたい。

机上校正

ワープロソフトによるチェックまでで、あらかたの誤認識は検出しているものと見ている。仮に誤認識した文字が残っていたとしても、個人レベルでの使用であれば、問題のないレベルに達していると考えられる。机上での校正を通じ、さらに高品質になることが期待できる。読み上げソフトを使用することで校正作業が効率化できるとの話もあるので、いずれは試してみたい。


工数について

工数は、原稿の読み取り作業に1日、整形作業に1.5日、チェックに1.5日、合計で3日掛かった。検証しながらの作業であったため、多少のもたつきはあるが、100ページの原稿であれば、急げば3日程度でテキスト化できそうである。

単価はどうだろうか。テキスト化した文字数は、約23万(スペースを含めず)なので、1文字あたりの単価は0.2円になる。

125ページ×400円/23万字≒0.2円/字

この結果を見ると、OCRソフトの認識率が向上したこと、またワープロソフトの校正機能がインテリジェント化したことにより、低価格でのスキャニング・サービスの提供がようやく可能になったきたと言えるのではなかろうか。

検証に使った『航空・空港用語集』は1999年の発行であり、すでにスペルチェック等は行われているものと思っていたが、スペルミス等が80箇所ほど見つかった。せっかくのことなので早速出版社に連絡したが、思わぬ副産物であった。参考までに以下にリストで示す。

検出したスペルミス

アルマイト alumete → alumite
ンドシア警報装置 → ウインドシア警報装置
ーター・セパレータ → ウォーター・セパレータ
延長駆動軸 extention drive shaft → extension drive shaft
オットーサイクル otto cycle → Otto cycle
華氏 fahrenheit → Fahrenheit
滑走路末端識別灯 REIL (Runway End Identificaiton Lights) →  (Runway End Identification Lights)
カテゴリー?T精度進入 category I precison approach → category I precision approach
カテゴリー?T cat I デジョン・ハイト → デシジョン・ハイト
カテゴリー?U cat II デジョン・ハイト → デシジョン・ハイト
カルマン渦列 karman vortex sheet → Karman vortex sheet
気象状態 IMC (Instrument Meteorlogical Condition) VMC (Visual Meteorological Condition) → VMC (Visual Meteorological Condition)
機内用幼児ゆりかご baby bassnet → baby bassinet
キャニュラー燃焼室 canular combustion chamer → canular combustion chamber
キャブオーケー CAVOK (ceiling and visivility OK) → (ceiling and visibility OK)
キャプテン・レポート 提出する義務付けられている → 提出することが義務付けられている
救難調整本部(RCC) rescue cordination center → rescue coordination center
協定世界時 英国のリニッジ天文台 → 英国のグリニッジ天文台
クリエーティブ・フェア 線などに合わせて設定する → 路線などに合わせて設定する
グリニッジ標準時 GMT (greenwich mean time) → (Greenwich mean time)
迎撃戦闘機 intercepter fighter → interceptor fighter
軽航空機 空中に浮する飛行船 → 空中に浮揚する飛行船
航空医学 avation medicine → aviation medicine
航空身体検査証明 miedical assessments → medical assessments
国際標準時 GMT (greenwich mean time) → (Greenwich mean time)
サード・パーティ・ロジスティック 3PL (third parly logistics) → (third party logistics)
再循環扇 recyclation fan → recirculation fan
最大巡航定格 巡航のため認めれた → 巡航のため認められた
サプライチェーン・マネージメント SCM (Supply chain manegement) → (supply chain management)
シーソー・ローター seasaw rotor → seesaw rotor
実用飛行経路 た場合の上昇勾配(Gross Graddient)から → た場合の上昇勾配(Gross Gradient)から
自動識別装置 automatic indentification equipment → automatic identification equipment
終極荷重倍数 ulltimate load factor → ultimate load factor
上級座席変更 上級クラスへ等級変更のこと → 上級クラスへの等級変更のこと
助言経路 ADR (adivisory route) → (advisory route)
先進複合材料 そして耐性等に → そして耐蝕性等に
前輪式着陸装置 norsewheel type landing gear → nosewheel type landing gear
層雲 ST (stratous) → (stratus)
ターニング・パッ → ターニング・パッド
タービュランス turbulance → turbulence
多重星型エンジン mult-row radial engine → multi-row radial engine
単板式ディスク型ブレーキ このデーキィスクに → このディスクに
段ボール corrugated fibreboard → corrugated fiberboard
長距離巡行方式 を遂減少させながら → を逐次減少させながら
通常操作 normal opperation → normal operation
デジタル飛行データ記憶装置 DFDR (Digtal Flight Data Recorder) → (Digital Flight Data Recorder)
ベル(A) → デシベル(A)
テフロン teflon → Teflon
点火栓 ignitor plug → igniter plug
点火装置 ignitor → igniter
転換式航空機 conbertiplane → convertiplane
電離層波 から伝播す電波 → から伝播する電波
通し羽根回転翼 seasaw rotor → seesaw rotor
排他的経済水域 exclutive economic zone → exclusive economic zone
ハイドロマティック・プロペラ hydromatic porpeller → hydromatic propeller
パッセンジャーエンタテインメントシステム・ビデオ ビオプレイヤー → ビデオプレイヤー
羽根厚 → 羽根厚比
飛行機曲技 acrobatic caterory airplane → acrobatic category airplane
飛行情報サービス EFAS (eri-route flight advisory service) → (en-route flight advisory service)
飛行場名標識 aerodrome idenfication sign → aerodrome identification sign
ビジネス・クラス bussiness class → business class
ピッチ・トリム・コンペンセーター PTC (Pitch Trim Compensater) → (Pitch Trim Compensator)
引張強さ tensile strengh → tensile strength
非定例整備 non-rouine maintenance → non-routine maintenance
ィクター航空路 → ヴィクター航空路
プラグ ignitor plug → igniter plug
フラッター 破壊に至こともある → 破壊に至ることもある
フリーズ型補助翼 freese aileron → freeze aileron
フリーズ・エルロン freese aileron → freeze aileron
プルーブ・アンド・ドローグ方式 prove and drouge method → prove and drogue method
ベビーバシネット baby bassinat → baby bassinet
ヘリ空母 helicoper-carrier → helicopter-carrier
マイレージ・システム milage system → mileage system
誘導路 T/W (taxiway) タクシング(taxing)いう → タクシング(taxing)という
翼平面形 planform, wing planform → planeform, wing planeform
リフトオフ速度(浮揚速度) V LOF (lift-of speed) → (lift-off speed)
旅行者(一般) traveller → traveler
旅行者小切手 traveller's check → traveler's check
ライトニング・ホール lightenning hole → lightening hole


プライバシーポリシー

Copyright(C) 2002-2019 TermWorks All Rights Reserved.