音声入力ソフト

このページは工事中です。情報が古くなっている部分もあるので、今後修正していきます。

ドラゴンスピーチ音声入力ガイド

 他のページに書いたとおり、RSIのせいでキーボード入力をしばらく続けると腕が痛くなってくるので、私は代りに音声入力ソフトを使って仕事しています。

 日本では音声入力ソフトというと、IBMのViaVoiceがいちばん売れているようですが、英語の音声入力ソフトでは、Dragon NaturallySpeakingの方が動作が重たくなく認識率、機能性でも優れているということで、永らくカテゴリートップの座を占めてきました。
 そこで、英語と日本語で違うメーカーのソフトを使うのも混乱しそうということで、英語は「Dragon NaturallySpeaking Preferred Version」、日本語は同ソフトの日本語版である「ドラゴンスピーチ・セレクト版」を選んで使っています。使い始めたのは日本語版が先で、当時はversion 3.45、現在はversion 6を使っています。英語版は去年買ったversion 5を引き続き使っています。

 英語圏では昔から、文章を自分でタイプする代わりに、テープに口述を録音して秘書に渡しタイプしてもらうという仕事のスタイルが定着しているせいか、日本よりもずっと音声入力ソフトの普及が早いようです。
 そのため、音声入力ソフトに関する情報は、英語ならインターネット上にたくさん載っているためソフトを試す前にいろいろ研究できるのですが、日本語の情報は、メーカーや販売会社のもの以外はごく限られているようなので、私が参考にした英語情報の内容や私自身の体験をまとめたのが、この「ドラゴンスピーチ音声入力ガイド」です。音声入力を試したい、という方の参考になればと思います。

音声入力の認識率向上のためのステップ

 このガイドは、音声入力ソフトユーザーが書いた英語のガイド「Key Steps to High Speech Recognition Accuracy」の内容を私なりにまとめたものです。完全な邦訳ではありません。

参考文献:

Key Steps to High Speech Recognition Accuracy

(http://www.emicrophones.com/docDetails.asp?DocumentID=38)
by Douglas Durham, with help from Martin Markoe and Susan Fulton

 上にあげた参考文献では、「音声入力を使いこなすための7つのステップ」として以下の7点を挙げています。

7つのステップ

  1. 適切なハードウェアをそろえる
  2. マイクを正しい位置に
  3. トレーニングはしっかりと
  4. マイクとハードウェアをテストしてみる
  5. ボキャブラリーをカスタマイズ
  6. さらにトレーニング
  7. ユーザーグループで情報収集

 この7つのステップの内容を、私のコメント入りで以下にまとめました。
 また、上記の7つのステップ以外の使用上のヒントやFAQ(よくある質問)を最後にリストアップしました。


1.適切なハードウェアをそろえる

 まずなんといってもこれが大切です。音声入力ソフトの動作はハードの性能に依存する部分が非常に大きいため、使い勝手がハードによって大きく左右されます。

 音声入力ソフトを使うためのハードウェア購入のキーポイントは、

の3点です。

 まずCPUとRAM
 ソフトの箱やマニュアルには動作環境条件として「CPUはPentium U 400MHz以上、RAMは128MB以上」などと書いてありますが、この数字は必要最低限の数字で、これだけあれば起動した途端にクラッシュといった事態は起きないという程度の数字だと思った方がいいです。実際にはこれよりもかなり上を行かないと、快適な音声入力は望めません。

 では実際にはどのぐらい必要か?
 まずCPUについては、マニュアルの動作環境条件に書いてあるCPU速度の2倍くらいを目安にするといいと言われています。もちろんそれより速ければ速いに越したことはありませんが、最近のPCならこの条件は簡単にクリアできると思います。
 問題になるのがRAM。音声入力をいちばん使いたいのはMicrosoft Wordなどのワープロソフトだと思うのですが、音声入力ソフトとWordを同時に動作させるためには、最低でも384MBのRAMが必要です。
 OSがWindows XPの場合は、OS自体がかなりメモリを食うため、快適に使うためには最低でも512MBくらいはあった方がいいでしょう。したがって、たいていのPCの場合はRAMの拡張が必要になります。
 RAMがもっと少ない場合は、音声入力ソフト付属のテキストエディタなど、軽いアプリを使って動作させるようにしないと、口述(ディクテーション)した文章がスクリーンに現れるまでにすごく時間がかかってイライラします。

▲戻る

 つぎにサウンドカード
 私が入っている英語のユーザーグループでは、10人中9人(20人中19人ぐらいかも)が、「Creative社のSoundBlaster Live!か、その後継モデルであるSoundBlaster Audigyにしなさい!」と言います。違うカードを使っている人もいますが、断然少数派。
 高級なものである必要はなく、SoundBlaster Live!のいちばん安いやつで十分です。
 マザーボードにサウンドチップが載っているというタイプのPCの場合も、別にサウンドカードを買ってインストールし、そちらをデフォルト設定にして使った方がいいと思います。SoundBlasterのチップが載っているという場合もあるそうですが、SoundBlasterカードとは性能に大きな差があるようです。

 ひとつ注意したいのはノートPCを使っていてサウンドカード(チップ)を入れ替えることができない場合。
 ノートPCでは狭いスペースにパーツをぎゅうぎゅうに詰め込んであるため、サウンドチップが周囲のファンの音や電磁波などのノイズを拾ってしまいやすいのが悩みです。
 そこで、ノートPCユーザーは、代わりにUSBマイクを使うことをおすすめします。
 USBマイクの場合はオーディオ入力を処理する回路がマイクについていて、PC内蔵のサウンドカードやチップを通しません。
 USBマイクはこの回路がマイクのコードに一体化されているものと、USBポッドといって、そのオーディオ回路の部分にUSBプラグがついただけのものに、手持ちのマイクを差し込めるようになっているものとがありますが、一体化タイプだとマイクの選択肢が限られてしまうので、入手可能ならUSBポッドの方がいいでしょう。

▲戻る

 最後にマイク
 音声入力ソフトを買うと、専用のマイクが同梱されていますが、このマイクの性能にかなり差があるようです。アメリカで売っているViaVoiceにくっついてくるマイクはかなりいいマイクだという話も聞きますが、音声入力のヘビーユーザーは結局同梱のマイクではなく別にマイクを買う羽目になるのが普通みたいです。 英語ユーザーグループでのおすすめはAndrea ANC-600/700シリーズとVXI TalkProシリーズとのことですが、イギリスでは、付け心地の快適さではピカ一のEmkay 3345もよく使われているようです。私はTalkProを使っていますが、日本で入手可能なのかどうかは不明。ViaVoiceメーリングリストで提供していただいた情報によると、Andrea ANC-600は、約1万円と高価ながら日本でも販売しているそうです。

▲戻る | △目次へ


2.マイクを正しい位置に

 ハードをしっかり揃えたら、ソフトをインストールして早速使い始めましょう。

 まずはマイクをセットします。
 普通音声入力に使うのは片耳だけ覆うヘッドフォンみたいなものから細いアームが伸びていて、その先にマイクがついているというタイプ。ソフトに同梱されているのも標準版はこの形です。
 マイクの装着の仕方はマニュアルにも説明されているので参考してください。
 ポイントは、マイクをあまり口に近づけすぎないこと。特に口の真正面に持ってくると呼吸の音が入ってしまうので、口のわきにマイクがくるように装着します。顔とマイクの2センチぐらいあくようにするといいようです。
 また、マイクをよく見ると集音面に印がついているので、その印がついた面が口の方を向くようにします。集音面が口と反対側を向いていると、周囲の雑音ばかり拾ってしまいます。

 マイクの位置が決まったら、鏡などでチェックしてその位置を覚え、毎回同じ位置にマイクがくるように確認します。マイクの位置が違うと声の入り方が変わってしまい、認識率が落ちることがあります。
 マイクの位置が正しいかどうか自信がないという場合は、オーディオセットアップチェック機能を使って、スコア(オーディオ入力対ノイズ比)を確認します。私の場合スコアが20〜23くらいに収まればとりあえず大丈夫という目安にしています。
 人によっては30くらいのスコアが出ることもあるようですが、私は見たことありません。

▲戻る | △目次へ


3.トレーニングはしっかりと

 音声入力ソフトが出て間もないころは、最初に行う基本トレーニングにものすごく時間がかかるというのが不評だったため、最近のバージョンでは最初のトレーニングが5分〜10分くらいで完了するというのが売りになっているようですが、これがじつは落とし穴。この短いトレーニングだけでは快適な音声入力は望めないのです。
 必ず追加トレーニングを行いましょう。
 読み上げるテキストのオプションが4つくらい出てきますが、そのうちのひとつを最初から最後まで読み上げるくらいはした方がいいです。
 読んでいる途中でトレーニングが終了したというダイアログがでてきますが、ここで終了してしまわずトレーニングを続けます。短いトレーニングをちょこちょこするよりも、一気にたくさん読んだ方が効果があるんだそうです。
 また、ハードウェアを交換した場合などにもトレーニングをやり直します。

 トレーニングの時にはなるべく普通の話し方で文章を読みます。このときにあまり不自然にきちんとした発音をしてしまうと、あとでディクテーションをするときに同じようにきちんと話さないと正確に認識してくれなくなってしまうので、気をつけましょう。
ViaVoiceメーリングリストのメンバーから、「原稿を書く時に音声入力を使っているが、文を考えてしゃべる時はぼそぼそとした話し方になるので、わざとぼそぼそした読み方でトレーニングの読みあげをやったら高認識率が得られた」というアドバイスをいただきました。

▲戻る | △目次へ


4.マイクとハードウェアをテストしてみる

(工事中)

▲戻る | △目次へ


5.ボキャブラリーをカスタマイズ

 実はこれが音声入力成功の大きなカギです。

 文書から単語を一括追加するためのウィザード機能があるので、これを使って今までに書いた文書を読み込ませます。
 WordファイルやHTMLファイルも読めますが、解析にめちゃくちゃ時間がかかるので、できればあらかじめテキストファイルに変換しておくと効率的です。メールなんかもテキストファイルにして読ませるといいでしょう。
 とにかくこれから音声入力を使って書こうと思うようなタイプの文書をなるべくたくさん集めて読み込ませます。
 これも、少しだけの文書をちょこちょこ読み込ませるよりも、なるべく数を集めて一気にやったほうが分析が正確になり、いい結果が出るそうです。アンケートデータの統計分析をする際、10人に聞いた結果から引き出した結論よりも1000人に聞いた結論の方が信頼性が高いのと同じです。

 追加する文書を選んだら、「追加する前に単語を確認」というボックスをチェックしてから分析に進みます。すると、分析が終わったところで追加候補の単語がリストアップされます。このリストは必ず丹念にチェックして、分析の際に単語の区切りが間違っているものとか、今後使いそうにない単語などはすべて除きます。

 また、スピーチデータの最適化も忘れずに。
 古いバージョンではボキャブラリービルダーという機能で単語の追加とスピーチデータの最適化をまとめてやれるようになっていたのですが、version 6では別々になってしまったので、こちらもやっておく必要があります。
 初めてのスピーチデータ最適化は、使い始めてしばらくしてから(毎日使っているなら3〜4週間ぐらい後)やった方がいいそうです。その後は1週間おきくらい、定期的に実行します。

▲戻る | △目次へ


6.さらにトレーニング

 音声入力ソフトは、たくさん使えば使うほど認識率が向上します。
 使い始めてすぐは、はっきり言って間違いばかりですごくイライラしますが、ここはひたすら我慢。初めてキーボードを使ったとき、誰でもキーがどこにあるかわからなくて打ち間違いばかりしていらいらしたと思いますが、それと同じことだと割り切ってがんばりましょう。

 言った言葉が正しく認識されなかったら、面倒でも必ず修正機能を使って正しい言葉をソフトに教え込みます。修正機能を使わずに直すといくらやってもソフトが覚えてくれません。
 急いでいるときなどはイライラしますが、これをやるかどうかが将来音声入力を使いこなせるかどうかの分かれ目です。
 どうしても望む単語が出てこない場合は、「単語の追加」機能で追加したり、「単語のトレーニング」機能で発音を覚え込ませます。また、いつも決まったフレーズで使う場合には、フレーズごとまとめてボキャブラリーに追加してしまえば認識されやすくなります。

 4週間ぐらい毎日使って、スピーチデータの最適化も実行すると、ずいぶん認識率が上がってきます。これは、ソフトがあなたの話し方や語彙に慣れる(充分な量のデータを取り込む)一方で、あなたの方も「こう言わないとソフトが聞き取ってくれないんだな」とわかってくるため。音声入力は、ソフトとユーザーの相互理解のもとに成り立っているのです。

(工事中)

▲戻る | △目次へ


7.ユーザーグループで情報収集

 英語音声入力についてはユーザーの数も多いことから大規模なメーリングリストがあり、活発な意見交換がされていて比較的簡単に情報を集めることができます。リストのメンバーには音声入力ソフト開発に関わった技術者や、音声入力トレーナー、マイク販売業者、音声入力ソフトの使い方に関する本を出版した著者など専門知識が豊富な人や、何年にも渡って各社の各バージョンをことごとく試したという大ベテランなどもいて、とても参考になります。また、ユーザーグループの種類も、初心者向けのグループから音声入力ソフトを使ってプログラムを書くソフトウェアプログラマーの専門メーリングリストまで多彩。
 残念ながらこうしたリストはみな英語なので、英語がすらすら読めないと参加しづらいのが難点。。日本語音声入力についてはユーザー数そのものがまだまだ少ないため、ユーザーグループも限られてしまいますが、ViaVoice-MLというメーリングリストがあって、ViaVoice以外の音声入力ソフトを使っているひとも参加できます。あまり活発ではありませんが、参加の価値あり。
 ユーザーグループから情報を得ることが難しい日本の現状では、情報源としてはソフトのメーカーに頼る部分が大きくなります。ドラゴンスピーチの場合もメールなどでサポート部門に質問を送ることができますので、積極的に利用してください。
 なお、このページでも今後ドラゴンスピーチユーザーのためのFAQセクションを充実させていきたいと思っていますので、質問がありましたら送ってください。私はもちろんただのユーザーであって音声入力に関する専門知識はありませんが、自分の使用経験や英語ユーザーグループで得た知識の範囲でできるだけお答えしたいと思っています。

▲戻る | △目次へ


8.FAQとヒント

Key Steps to High Speech Recognition Accuracy」の内容は以上で終わりですが、その他に音声入力ユーザーグループのメーリングリストから得たアドバイスを以下にまとめます。

  • 音声入力のためには、ウィンドウズは98やMeより2000かXPがいい

     音声入力ソフトを使う場合、OSにはWindows 98よりもWindows 2000やWindows XPを使った方がいいといわれています。
     OSは新しいほどいいということかというとそうではありません。例えばWindows MeはWindows 2000よりも新しいですが、音声入力には適していないと言われています。では何が重要なのかというと、まず知っておくべきことは、ウィンドウズOSには「9X系」「NT系」と呼ばれるふたつの系統があるということなのです。そして、9X系のWindows 98やWindows Meよりも、NT系のWindows 2000やWindows XPの方が、リソース管理がきちんとできていてクラッシュしにくいため、音声入力に適しているのです。
     私も技術的なことはあまり知らないのですが、NT系OSではアプリケーションごとに個別にリソース(メモリ配分)を管理しているのに対し、9X系では全部いっしょにドンブリ勘定で管理しています。
     ウィンドウズはアプリケーションやファイルをひとつ開くたびに、それぞれにメモリを配分し、閉めると配分してあったメモリ容量を取り戻す仕組みになっているのですが、配分した容量が全て戻るかというとそうではないのだそう。従って、アプリケーションやファイルを開けたり閉めたりしているうちに、空きリソースがだんだん減っていきます。この減少は「メモリーリーク(漏れ)」と呼ばれています。
     普通の使用環境でもWindows 98はいろんなウィンドウを開けていくとクラッシュしてしまうことがよくありますが、それはこのメモリーリークのためリソースの空き容量がゼロになってしまうのが原因。そこに音声認識ソフトのように重くてメモリに対する負荷が大きいソフトを使うと、メモリーリークの影響がさらに大きくなってクラッシュしやすくなります。MS Wordと音声入力の併用は、中でもクラッシュを起こしやすい組み合わせと言われています。
     この点はNT系のOSでも程度の差はあれ同じなのですが、NT系ではアプリケーションごとの個別リソース管理になっているので、アプリが単独でクラッシュしてもシステム全体が一緒にクラッシュすることはあまりありません。それに対し、98やMeなど9X系では、アプリケーションがひとつクラッシュするとOSまで一緒にクラッシュしてしまい、システムを再起動しなくてはならなくなるのが大きな弱点です。そうなると、もちろん音声入力ソフト使用中に蓄積された音声データは保存できず消えてしまいます。NT系のWindows 2000やXPが推奨されているのはこれが理由です。
     ただし、同じNT系でも、Windows XPはOS自体がWindows 2000よりも相当重く作られているため、XPを使う場合はWindows 2000よりもメモリ(RAM)がたくさん必要になります。ユーザーグループでは一般に、Win 2000なら386MBでいいが、XPを使うなら最低でも512MBはあった方がいいと言われています。

  • 固定スワップファイル設定で快適動作

    (工事中)

  • ユーザーファイルは壊れやすい。バックアップをしっかり

    (工事中)

  • PCが軽快に動作するよう、システムメンテをまめに実行

    (工事中)

  • 「文章スタイル再構成」機能はどこにいった?

    (工事中)

  • 快適な音声入力のためには喉を大切に

    (工事中)

▲戻る | △目次へ

トップに戻る