軍事用語のサイト

サイトマップへのリンク
軍事用語サイトのトップページへ戻る 自己紹介へのリンク サービス内容へのリンク お問い合せへのリンク

音声認識関係

実用レベルのViaVoice

AmiVoiceで口述筆記

音声認識ソフトとICレコーダーで口述筆記

音声認識ソフト(AmiVoice)とICレコーダーで口述筆記

口述録音のイメージ(AmiVoice SP、VoiceTrek VN-8100PCとは無関係です。)

「ドラゴンスピーチ11J」が2012年10月19日に発売されていました。「ドラゴンスピーチ2005」以来、実に7年ぶりの改訂です。

ドラゴンスピーチの改訂はもうないものと考え、選択肢から外していましたが、これで音声認識ソフトの状況が変わってきました。

AmiVoiceも、新バージョン「AmiVoice SP2」が2012年11月30日に発売されるとのことなので、ここに記述されている内容については古くなってくると思います。

ドラゴンスピーチ11J 優待版」を発注したところですので、別ページを作成するなどして、お伝えしたいと思います。(2012年11月20日追記)


音声認識ソフト(AmiVoice SP)とICレコーダー(VoiceTrek VN-8100PC)を使って口述筆記に挑戦しています。

正確には、ICレコーダーで口述録音し、その音声ファイルを認識させて文字起こしすると表現したほうがよいかも知れません。

今までにも、IBM ViaVoiceやドラゴンスピーチで何度もトライしてきましたが、そこそこの成果はあったものの、使い勝手としては、もうひとつという感じでした。

まだ使い始めたばかりですが、どうもこの組み合わせが決定打のように思います。タイピン型マイクも試しています。

試行中なので内容としては不十分ですが、参考になるかと思い、ご紹介します。内容は随時に変更しますが、この点はご了解ください。

  • 音声認識ソフトとICレコーダーの選択理由
  • 音声認識率を高めるための工夫
  • ICレコーダーを使用するメリット
  • 役に立つと思われるサイトなど
  • 雑記的な事項
  • 音声認識の実際の結果

金森国臣(2011年12月3日)

改訂:「音声認識に適した音声ファイル形式」項目の削除および「ICレコーダー側の設定」項目の変更(2011年12月9日)

改訂:「雑記的な事項」の追加(2011年12月28日)


音声認識ソフトとICレコーダーの選択理由

  • 音声認識ソフトにAmiVoice SPを選択した理由
  • ICレコーダーにVoiceTrek VN-8100PCを選択した理由
  • タイピン型マイクを購入した理由

音声認識ソフトにAmiVoice SPを選択した理由

市販の音声認識ソフトとしては、他にViaVoiceとドラゴンスピーチがある。私も実際に使用していた。

しかし、これらのソフトは、すでにバージョンアップが中止されている。そのため今後の発展を考えると、選択肢はAmiVoice SPに限られると判断した。

MP3形式の音声ファイルを読み込んで認識してくれることも決め手となった。

音声認識機能は、Windows7やXP Office2003にも搭載されている。とりあえず音声認識に挑戦したい場合は、先ずこれらで試してみることをお奨めする。

音声認識ソフト AmiVoice SP2 USBマイク付
音声認識ソフト AmiVoice SP2 USBマイク付 アカデミック版

ICレコーダーにVoiceTrek VN-8100PCを選択した理由

口述録音が目的なので、特に他の機能を必要とせず、本当に基本的な機能があればよかったので、この機種にした。

ただし、音声認識ソフト(AmiVoice SP)で処理可能な音声ファイル形式とICレコーダー(VoiceTrek VN-8100PC)で生成可能な音声ファイル形式の相性を考えず、勢いで購入してしまったため、本当に推奨してもよい機種であるかどうかは判らない。

  • 安価である。(約5,000円)
  • USB端子が付いている。(音声ファイルをパソコンに取り込む必要があるため。)
  • MP3形式でも録音してくれる。
  • 単四電池(2本)で動作する。(できれば単三の方がよかったのだが、これは致し方ない。)
  • オリンパス製なので、機能的には大丈夫だろうと考えた。

操作が簡単であるとの評価が多かったことも選択の理由になった。

スライド・スイッチで電源を入れ、録音ボタンを押すだけでよいので、操作に迷うことはなく即座に録音を開始することができる。また録音中に録音ボタンを押すことで録音を一時停止し、再び押すと再開する。

これの上位機種を選択してもよかったが、操作がややこしいとの評価が若干みられたので、選択肢からは外した。

OLYMPUS ICレコーダー VoiceTrek VN-8100PC
OLYMPUS ICレコーダー VoiceTrek VN-8100PC

タイピン型マイクを購入した理由

ICレコーダーに内蔵されているマイクは無指向性なので、別に手に持って録音しなくてもよいのだが、なんとなくそうしてしまい、ハンズフリーにするにはタイピン型マイクを付ければよいのではないかと思った。

また周囲の雑音を拾わず、それによって認識率も上がるのではないかと考えた。しかし「単一指向性のモノラルマイクロホンセットME52W」を購入する予定が、何故だか「無指向性のモノラルタイピンマイクME15」を購入してしまった(号泣)。

様子を見て買い替えようと思っているが、タイピン型マイクによって認識率が向上したような感じはいまのところない。

ただし、モノラルマイクロホンを使ってステレオ録音(例:MP3 192Kbps)した場合、左チャンネルのみに録音され、右チャンネルは無音になる。AmiVoice SPで認識してくれたので、問題がないと言えばそうなるが、ベストな使い方であるかどうかは判らない。


音声認識率を高めるための工夫

  • AmiVoice SP側の設定
  • ICレコーダー側の設定
AmiVoice SP側の設定

上記の動画にヒントになることがあるので、まずこれを参照してください。

基本的な注意事項としては:

  • 認識効率を精度優先に設定する。([設定画面を開く]→[オプション・認識効率]→[精度優先]→[OK])
  • 入力する内容に合ったマスター辞書を選択する。([設定画面を開く]→[学習・マスター辞書]→[OK])
  • 単語を登録する。([単語登録])

さらに詳しい内容については「音声認識ソフト AmiVoice SP -FAQ-」を参照してください。

なお基本的なこととして、マンションなどに居住されていて、電源コンセントにアース端子が用意されているのであれば、パソコンにアース接続することをお奨めします。これによってパソコンの電源ノイズが少なくなります。

ICレコーダー側の設定

AmiVoice SPのサポート担当に問い合わせたところ、以下の回答を得た。

  • Q:WMAとMP3で推奨するビットレート、周波数をご教示ください。
  • A:こちらについては、WMAもMP3ファイル同様で、196 kbpsを推奨、周波数は16KHz以上を推奨しております。
  • Q:左チャンネルのみ(1チャンネル(モノラル))での録音でも性能上はかまわないのか、この点も教えてください。
  • A:問題ありません。

となると、VoiceTrek VN-8100PCでは、MP3モード(192 kbps)の音声ファイル形式が最適の選択肢になる。

設定としては:

  • 音声ファイル形式:MP3モード/192kbps
  • マイク感度:低
  • ローカットフィルタ:ON

この設定状態で、録音環境に合わせて内蔵マイクを使うか、タイピン型マイクを使うことになる。モノラルマイクロホンを使ってステレオ録音(例:MP3 192Kbps)した場合、左チャンネルのみに録音され、右チャンネルは無音になるが、回答によると問題はないことになる。

録音時間の目安は、MP3モード/192kbpsで約22時間30分であり、これについては問題ないと言える。

VoiceTrekのマニュアルでは、口述録音の場合、「録音シーン」を「メモ」に設定することを推奨しているが、音質が落ちるので、音声認識を前提とすると、この設定は勧められない。

また、左チャンネルのみに録音された音声は非常に聞きづらいので、音声ファイルを後々再利用する予定があれば、ステレオマイクロホンを使うのがベストである。が、何と4,000円もするので、そうであれば本体に投資したほうがよいのかも知れない。ただ映像の専門家に言わせると、それが素人考えで、音質にはマイクロホンのほうが重要らしいから悩ましい。


ICレコーダーを使用するメリット

まだ十分に使いこなしていないので、参考になる経験は少ないが、いくつか気づいた点がある。

  • パソコンの前に座っていなくてもよい。
  • パソコンとマイクの相性を気にしなくてもよい。
  • パソコンの性能に(あまり)左右されない。

パソコンに付属のマイクでも口述録音は可能であるが、この場合はパソコンの前に座っていなければならず、縛りつけられている不便がある。

アイデアは散歩中などに浮かんでくることが往々にしてあり、ICレコーダーがあれば、どこでも録音できるので、ちょっと思いついたことでも逃さず即座に記録することができる。

どのような仕事であれ、フィールド調査のようなものが必要であると思うが、例えば、店頭に展示されている商品などの情報を記録するには最適の手段のような気がする。

撮影したり、ノートにメモしたりする事が憚られる状況でも、抵抗感なく記録できる。

実際に音声ファイルを認識させて気付いたことだが、ICレコーダーを使用すれば、パソコンとマイクの相性を気にしなくてよい点もメリットと言える。

意外に思われるかも知れないが、使用するマイクによっては、うまく録音してくれないことがあり、確かに私もそうした経験がある。パソコンの電源ノイズの影響も受けない。

そしてこれが一番のメリットだと思うのだが、音声ファイルを入力源として音声認識処理を行えば、パソコンの性能にあまり依存せず処理し続けることができる。

リアルタイムで認識させるわけではないので、仮に録音時間が1分の音声ファイルを5分かかって処理しても構わないわけで、そういった点では古い機種でも口述筆記に活用できるのではないかと思う。(もちろん、あまりにも古い機種であれば性能面で問題が生じるとは思う。)

AmiVoice SPでは認識精度を設定できるのだが、いままではリアルタイムでの処理を考え、中程度に設定していた。音声ファイルを認識させる場合、「精度優先」に設定している。確かに処理に時間はかかるようになるが認識率は向上する。


役に立つと思われるサイトなど


雑記的な事項

音声認識関係について思いついたこと、気づいた点を列挙しています。上記の項目と重複している場合もあります。また、実際に試していない場合もあります。その点はご了承ください。

  • 音声認識ソフトを選択するときは、一般的な音声ファイル形式であるMP3形式とWMA形式に対応していることを確認すること。
  • 音声認識ソフトが推奨するビットレートと周波数を確認しておくこと。AmiVoice SPの場合は、196bpsで16KHz以上。
  • ICレコーダーは、音声認識ソフトが対応している音声ファイル形式を出力できること。
  • モバイルで機動的に音声ファイルを処理する機会が多い場合は、USB端子を内蔵しているICレコーダーが望ましい。いちいちUSBケーブルを持ち運ぶのは面倒であるし、紛失する恐れがある。
  • 業務などで間違いなく録音したい場合は、ICレコーダーを2台用意する。電池は新品のものに入れ替えておく。
  • 多人数が出席する会議の録音にはステレオ録音が適している。ステレオで録音すると位置関係がわかるので、発言者が誰であるかを特定しやすい。 (もちろん会議の文字起こしを音声認識ソフトで行うのは無理です。)
  • サウンドカードの挿入位置を変えるとノイズが減ることがあるらしい。
  • 講演の録音を後で他の目的に活用することが考えられる場合は、高音質のステレオで録音する。低音質の場合、語尾が聞き取れなかったりして、文字起こしでは往生することがあるらしい。
  • 録音しているからと安心せず、メモはとる。固有名詞は意外に分かりづらかったりする。
  • 許可を得て、差し支えのない範囲でプレゼンのスライドを撮影しておくこと。
  • 内蔵マイクよりも外部マイクのほうが性能がよい。業務で使用する場合は、ステレオの外部マイクを使用する。石川知裕議員による隠し録音は、高性能の外部マイクを用いたことが成功に繋がったとのこと。
  • 公共の場所で静かに録音できるところはないかと探しているが、案外にない。使えるかなと思ったところでも反響音が大きすぎて具合が悪い場合が多い。まさか図書室で録音するわけにもいかないし。

音声認識の実際の結果

私は滑舌が極端に悪いので、参考にはならないかも知れませんが、原文と認識結果を示します。

  • 読み上げ速度は1分40秒
  • 政治経済辞書を使用、学習レベルは約70
  • ステレオMP3ファイル(MP3モード/192kbps)
  • 他の設定は上述のとおり

原文と認識結果

原文   認識結果

政府税制調査会(首相の諮問機関)は、消費増税と社会保障の一体改革にあわせ、収入や資産の多い人を対象に、所得税や相続税を増税する検討に入った。2013年度以降の実施をめざす。消費増税は所得の低い人ほど負担感が重くなるため、高所得者の課税を強化。低所得者には現金を給付する仕組みも入れ、不公平感をなくす。

所得・相続増税は、年末にまとめる「社会保障と税の一体改革」の大綱に明記する方針。ただ、所得税は東日本大震災の復興財源として、13年1月から臨時増税が始まる。高所得者とはいえ、同じ時期に別の所得増税が課せられれば、重税感が強まりすぎるとの反発も予想される。

所得税は、所得が増えるのに応じて税率が段階的に上がる。1970年代には19段階あり、最高税率は75%だったが、その後、景気対策などで税率を下げ、いまは6段階、最高税率は40%。最高税率は収入から控除を引いた課税所得が1800万円超の人を対象としており、たとえば、1億円以上の人も同じ税率だ。富裕層が優遇され、所得の高い人から低い人にお金を回す「再分配機能」が低下しているとの批判がある。

 政府税制調査会首相の諮問機関は消費増税と社会保障の一体改革に関する9による資産の多い人を対象に所得税や相続税を増税する検討に入った。2013年度以降の実施を目指す消費増税の所得の低い一言単価が重くなるため、高所得者の課税を強化で所得者には現金を給付する仕組みも入れる不公平感をなくす

奥相続増税は年末にまとめる社会保障と税の一体改革大綱に明記する方針は所得税は東日本大震災の復興財源として13日月から臨時増税が始まる高所得者とはいえの時期に別の所得増税が科せられれば10で感が強まりすぎるとの反発も予想される。

所得税は所得が増えるのに応じて税率が段階的に上がる。1970年代には19段階あり最高税率は75%だったが、その後景気対策等で税率を下げ、今は6段階最高税率は40%最高税率は収入から工場ヒーター課税所得が1800万人超の人を対象としており、例えば1億円以上の人も同じ率だ。富裕層を優遇され、所得の高い人から低い人にお金を回す再分配機能が低下しているとの批判がある。

吟味

はたと思ったのは、音声認識ソフトを「吟味する」といっても、音声には客観的指標になるものがない。機械翻訳であればテキストがあり、文字認識であれば画像がある。

アナウンサーが話している文章をひとつの基準にし、これが百パーセント正確に認識されていたとしても、実際には自分自身の滑舌の悪さがあるわけで、実用には直結するとは限らない。

AmiVoice SPの場合は、自動的に「学習」してくれることになっていて、これが特長でもあるのだが、しかし、何を学習しているのか、こちらには解らず、賢くなっているのか、馬鹿になっているのか、判断する手段がない。

そう考えると、最終的には感覚的な判断しかなく、吟味は無理であるような気がしてきた。

そうこうしているうちに、ドラゴンスピーチ11が発売され、AmiVoice SPもバージョンアップされることになった。

とりあえずドラゴンスピーチを購入したので、まずこちらのほうを試してみて、不十分であれば、バージョンアップ版のAmiVoice SP2を使ってみようかと思う。

自分でも情けないのだが、最初にViaVoice、次にAmiVoice SPとずっと実用化のレベルに達したと言い続けているわけで、オオカミ少年状態になってしまっている。

音声を認識し、テキストに変換してくれる機能に対し驚きを感じているためにそうなるのだが、このあたりのことについてはご寛恕願いたいと思う。(2012年11月23日追記)


プライバシーポリシー

Copyright(C) 2002-2019 TermWorks All Rights Reserved.