軍事用語のサイト

サイトマップへのリンク
軍事用語サイトのトップページへ戻る 自己紹介へのリンク サービス内容へのリンク お問い合せへのリンク

音声認識関係

実用レベルのViaVoice

AmiVoiceで口述筆記

音声認識ソフトが実用レベルになっている(ViaVoice)

音声認識ソフトが実用レベルになっている(ViaVoice)

音声認識ソフトが実用レベルになっている(ViaVoice)

この資料は2008年12月に作成しています。そのため、内容はかなり古くなっています。現在、私はAmiVoice SPを使って口述筆記に挑戦しています。これについては「音声認識ソフトとICレコーダーで口述筆記」にまとめています(左サイドバーにリンク)。

ただ、参考になる部分もあると思いますので、以下にそのまま掲載しておくことにします。(2011年12月 金森国臣)

今後、改訂の予定はありません。現在、私はドラゴンスピーチ11を使っています。(2013年7月)


かなり以前から音声による入力にトライしてきました。

しかし、ソフトウェアのレベルが低かったり、ハードウェアのパワーが足りなかったりで、実用にはいまひとつの状態でした。

今回、久しぶりに気を取り直してまたトライして見ました。結果としては、音声認識は使えるレベルになっているようです。

私は滑舌がよくありません。したがって、滑舌がよい人であれば、もっと認識率はよくなるのではないと思います。

やっと、ここまでたどり着いたか という感じです。

  • 音声認識の結果
  • 使用しているソフトウェアとハードウェア
  • ソフトウェアとハードウェアについての補足説明
  • 認識率を向上させるためのヒント
  • ViaVoiceとドラゴンスピーチのどちらがよいのか

(2008年12月 金森国臣)


音声認識の結果

 原文  認識の結果

高いキーボードは何が違う?

キーボードの値段はピンからキリまで。では、高いキーボードは何が違うのか。例えば、東プレの「Realforce」。タッチの軽さと滑らかな打鍵感で、一度使ったら手放せなくなると評判の高級キーボードだ。

Realforceのストロークは4mmと深い。だが、「静電容量無接点方式」という機構を採用することで、キーを底まで押し込まなくても文字を入力できる

高いキーボードは何が違う

キーボードの値段はピンからキリまででは高いキーボードを何が違うのかたとえは統計のリアルホースタッチの軽さと滑らかな大転換で一都使ったら手放せなくなると評判のの高級キーボートだ

リアル放出のストロークは4ミリと深いだが静電容量も接点が方式という機構採用することで企業そこまで押し込まなくても文字も入力できる


使用しているソフトウェアとハードウェア

●ソフトウェア

  • OS:Windows XP Home Edition
  • 音声認識ソフト:ViaVoice for Windows Pro V10.5 日本語版
●ハードウェア
  • CPU:Intel Core2 Duo
  • RAM:2 GB
  • HDD:WD3200AAKS (320G SATA300 7200)
  • ヘッドセット:Plantronics DSP-500

ソフトウェアについての補足説明

(1)OS

Windows XPを使っているのですが、Vistaでの動作を保証していない音声認識ソフトもあるようです。購入にあたっては、このあたりの確認が必要です。

(2)音声認識ソフト

ViaVoice(ビアボイス)を使っている理由は、実験的意味合いで、たまたま使ったというだけで、深い理由はありません。

ハードウェアについての補足説明

(1)CPU

Intel Core2 Duoですが、このレベルの性能であれば認識速度に問題はなく、パワーとしては十分だと思います。前のパソコンで使用した感じでは、もう少し性能の劣るCPUでも大丈夫だと思います。

(2)メモリ

2 GBは最低限必要だと思います。1 GBのときはソフトが入り切らなく、スワップしまくって実用に差し支えました。もちろん多ければ多いほどよいはずです。

(3)ハードディスク

できるだけ回転数が高速のものをおすすめします。いま使っているのは7200 rpmですが、前のパソコンはたしか4200 rpmであったため、認識速度も含めて、実用に差し支えました。

(4)マイク

ヘッドセットはマイクの指向性がよいので、できればヘッドセットをおすすめします。またインタフェースがUSBであればノイズが少ないはずなので、認識率の向上に寄与します。

事務所のように、周囲の音が入る環境ではヘッドセットにすべきです。

ノートパソコンにマイクが内蔵されている場合、そのマイクに最適化されています。まず内蔵マイクで試してみて、それでうまく認識できるのであれば、そのまま使います。


認識率を向上させるためのヒント

  • マイクロフォンレベルの調整
  • バックグランド・ノイズ(内部ノイズ)を低減する
  • エンロールを行う
  • マイクの位置に注意する

マイクロフォンレベルの調整

ViaVoiceのオーディオセットアップウィザードに「マイクロフォンレベルの調整」という項目があります。ここでマイクロフォンの音質をテストします。([ViaVoiceのメニュー]→[オーディオのセットアップ])

マイクロフォン関係の設定を変更したときは、マイクロフォンの音質をここで確認しておきます。

いちばん上のレベルは「大変良い」です。私は「良い」が一番だとしばらく勘違いしていました。

バックグランド・ノイズ(内部ノイズ)を低減する

インタフェースがUSBのヘッドセットであればノイズを気にする必要はありませんが、通常のマイクであれば以下の対策をとります。

  • パソコンのアースをちゃんととる
  • ノートパソコンであればバッテリー駆動に切り替える
  • サウンドカードを使用している場合はドライバを最新のものにする
  • ノイズがあるかどうかを確認するには、サウンドレコーダーを使って音声を録音し、再生します(何もしゃべらないこと)。
[プログラム]→[アクセサリ]→[エンターテイメント]→[プログラム]→[サウンドレコーダー] [●]ボタンをクリックすると録音を開始する。「サーッ」という音が入っていれば、それがノイズです。

もし雑音が入っているようであれば、アース端子の付いたタップを使ったりして、アースをとってみてください。マンションなどのコンセントには、だいたいアース端子が付いているはずです。

電気関係に詳しくなければ、家電量販店に行って聞けば、すぐ解決するはずです。私は古い一軒家に住んでいるので、電気屋さんにアース棒を作ってもらい、それを使っています。

多少の雑音があったとしても、マイクロフォンの音質が「大変良い」であれば問題はありません。

エンロールを行う

話者の音声の特徴を学習することをエンロールというらしいのですが、面倒でも最初に全部やっておくことをおすすめします。([ViaVoiceのメニュー]→[ツール]→[エンロール])

マイクの位置に注意する

ヘッドセットの場合、マイクの指向性がよいので、マイクと口の位置が少しでもずれていると認識精度に影響します。マイクと口の位置関係が少し違うだけで、音声入力の精度が異なる場合があります。

ヘッドセットの場合、マイクの位置が調整できるようになっているものもあります。ときどき、なかに引っ込んでいる場合があるので、そのときは引っ張り出すようにします。


ViaVoiceとドラゴンスピーチのどちらがよいのか

ViaVoiceとドラゴンスピーチが双璧と言われているわけですが、どちらにしたらよいかは、両方を使った経験がないので、実際のところはなんとも言えません。

音声認識エンジンに技術的な優劣の差はあまりないようなので、あとは使い勝手とかによって決まるのかと思います。

レコーダーに録音して、それを自動的にテキストに起こしたい場合は、WAVEファイルが入力できるかどうかとか、その用途に対応したソフトを選ぶ必要があります。

議事録などのテープ起こしに使うのであれば、テープ起こしに使っている人の意見を参考にすると、どのソフトがよいか見えてくると思います。

音声認識ソフトを導入することで仕事が効率化され、十分にペイするのであれば、両方を購入して試し、使わない方をオークションに出品するという手もあります。

私の場合、仕事に本格的に使いたいと思っているわけではなく、ちょっとメモ程度のことができれば十分なので、切実感のないコメントになってしまっているかと思います。


プライバシーポリシー

Copyright(C) 2002-2019 TermWorks All Rights Reserved.