音声検索の方法
サブプライム・ローン破綻にはじまる金融危機が大きく報道されて以来、いやなニュースばかり流れるようになりましたが、本日のテレビ愛知(テレビ東京系列)のワールド・ビジネス・サテライトは、ちょっと面白いITトレンドを紹介していました。
それは、録音された膨大なデータに対し、文字入力されたキーワードを使って高速検索する、というものです。
日立製作所が開発中の技術で、番組では、数百時間録音されたデータに対し、番組レポータがキーワード検索したところ瞬時にその言葉が録音された箇所を一覧表で表示し、実際にそれぞれの箇所をクリックすると、その言葉を含む録音箇所が再生されました。
グーグルを含むこれまでの検索は、キーワードを入力すると、キーワードが書き込まれたウェブページを実際に、文字照合しながら探して一覧表示していました。検索エンジンはそれを高速化するために、あらかじめ世界中のウェブページの情報をサーバに取り込む処理を行っています。
これに対し音声検索では、次のような手順となります。
1)音声データを録音すると、この音声を、まず音素、つまり「じょうほう」という声なら Jou hou といった音の単位に分解し、それぞれの音別に、音素および音素の開始位置をインデクスとしてサーバ登録する。
2)検索キーワードが与えられると、このキーワードの読み方をサーバ側の辞書を使って調べて音素を割り出し、この音素を含む録音データをサーバ登録されたインデクス内から見つけ出し、一覧表として表示する。
3)利用者が一覧の中から選択すると、録音データ内の指定開始位置から音声データを再生する。
なるほど、これなら高速化できます。ただしまだ音素の解析能力に課題があり、録音の声が弱かったり、周囲に雑音があると、このシステムは「聞き間違い」をすることもあるようです。番組レポーターが、「半導体」と入力すると、「あんどうただお」--これは著名な建築家「安藤忠雄」氏の読み方--と録音されたデータが読み出されてしまいました。
日立製作所は、2~3年後をめどに、このシステムを実用化する計画だとのことです。
期待したいですね。
| 固定リンク | コメント (0) | トラックバック (0)




最近のコメント