【電気機器】日立、2000時間の録音データから3秒で特定音声を検索できる技術[08/10/07]

このエントリーをはてなブックマークに追加
1やるっきゃ騎士φ ★
日立製作所(古川一夫執行役社長)は10月6日、2000時間の録音データから3秒で
特定音声を検索できる技術を開発したと発表した。

今回の技術は、大規模な録音データの中から、任意のキーワードを含む音声を高い精度で
高速に検索するもで、「音素記号インデックス(索引)を利用した高速検索技術」と
「音声特徴量を利用した高精度な検索技術」の開発によって実現した。

「音素記号インデックス(索引)を利用した高速検索技術」では、録音データを音素
(音声の基本単位)の記号列に変換し、音素がどのタイミングで出現するかを
インデックス(索引)として保存する方式を用いた検索を行う。
今回、このインデックス処理を最適化し、不要なインデックスを削減することで、
任意のキーワードを含む音声を高速に検索することが可能となった。

「音声特徴量を利用した高精度な検索技術」では、音素による検索処理の後で、
音声特徴量を用いたより精度の高い再検索を行う。今回、音声特徴量を用いた処理を
2段階に分け、段階的に精度を高めながら合計3回の検索処理を行うことで、検索速度を
損なうことなく高精度なキーワード検索を実現した。なお、音声特徴量の学習や
システム性能評価にあたっては、国立国語研究所、情報通信研究機構、東京工業大学が
共同開発した「日本語話し言葉コーパス(CSJ)」を利用した。

従来の音声検索技術には、録音データを音素の記号列に変換して高速にキーワードの
照合を行う方式や、録音データの音声特徴量を解析し高い精度で照合を行う方式が
あったが、検索の精度や、照合処理に膨大な時間がかかるという問題があった。
こうした背景から、日立では、音素の記号列と音声特徴量による検索方式を組み合わせ、
任意のキーワードに対して段階的に照合を行うことで、大規模な音声データを高い精度で
高速に検索する音声検索技術を開発した。今後、音声付き映像コンテンツの検索や
コールセンターでの活用など、幅広い応用が見込まれる。

同社では、今回の技術を、オーストラリアのケアンズで10月8日から10月10日まで
開催される国際学会「IEEE Signal Processing Society 2008 International Workshop on
Multimedia Signal Processing」で発表する。

ソースは
http://www.asahi.com/digital/bcnnews/BCN200810070001.html
日立製作所
http://www.hitachi.co.jp/
ニュースリリースから、2008年10月6日
2000時間の録音の中から3秒でキーワードを含む音声を検索
http://www.hitachi.co.jp/New/cnews/month/2008/10/1006.html
会社情報・株価
http://company.nikkei.co.jp/index.aspx?nik_code=0001161
依頼を受けてたてました。
2名刺は切らしておりまして:2008/10/07(火) 09:18:14 ID:E3NP6eHn
どう使うの
3名刺は切らしておりまして:2008/10/07(火) 09:24:24 ID:5s0WZuq/
専用データに変換してるなら検索1秒だろうがどうでもいいだろ。
4名刺は切らしておりまして:2008/10/07(火) 09:24:28 ID:awYt47rr
これで電話の盗聴コストが大幅に下がるわけだな
5名刺は切らしておりまして:2008/10/07(火) 09:32:24 ID:H1RK3/nC
エシュロン
6名刺は切らしておりまして:2008/10/07(火) 09:48:54 ID:lNWyuRBv
「できるだけ話を引き伸ばして!」や
「だめです!探知できませんでした!」「シット!」みたいなものがなくなるのか?
7名刺は切らしておりまして:2008/10/07(火) 09:53:24 ID:K0bviZmz
ジャスラックに使えるな
8名刺は切らしておりまして:2008/10/07(火) 09:55:20 ID:56W+go7Z
こういう妙ちきりんな技術は、たくさんあるよな
9名刺は切らしておりまして:2008/10/07(火) 10:16:48 ID:KyyS4Adg
ダメ絶対音感か
10名刺は切らしておりまして:2008/10/07(火) 10:40:51 ID:n/cWFer+
日立は技術はあるんだけど売れない
11名刺は切らしておりまして:2008/10/07(火) 10:47:03 ID:tVMpYiBq
NSAで採用決定だな
もっとも内部で・・・なんてなw
監視テクノロジーはどんどん進んでいくなw

4 名刺は切らしておりまして sage New! 2008/10/07(火) 09:24:28 ID:awYt47rr
これで電話の盗聴コストが大幅に下がるわけだな


5 名刺は切らしておりまして sage New! 2008/10/07(火) 09:32:24 ID:H1RK3/nC
エシュロン

12名刺は切らしておりまして:2008/10/07(火) 10:49:10 ID:ozxszda7
AVの前半のインタビューとかドラマ部分は飛ばして絶頂シーンのみを抽出
13名刺は切らしておりまして:2008/10/07(火) 11:55:08 ID:nSYO2B+o
ちゅぱ音とかでも大丈夫なん?
らめぇぇぇとかニュアンス違いでも検索してくれるん?(´・ω・`)
14名刺は切らしておりまして:2008/10/07(火) 12:43:40 ID:lxrySUNJ
ネットで音声検索できるようになるのかな?
15名刺は切らしておりまして:2008/10/07(火) 12:57:02 ID:awvS2jcc
表向きはコールセンターのオペレータへらしたりとか?
裏向きは交換機に、、、
16名刺は切らしておりまして:2008/10/07(火) 13:06:27 ID:q7M0IHVi
前処理に200時間かかるとか
17名刺は切らしておりまして:2008/10/07(火) 13:13:26 ID:0iF/Q+vr
曲のサビしか知らなくて曲名や歌手名が分らない時に使えるな
18名刺は切らしておりまして:2008/10/07(火) 13:29:16 ID:AorVHjZC
ハッシュ検索アルゴリズムに時間など不要、

これって単に検索部分の処理の応答に3秒て話だろう。

>>16
前もって検索情報を溜める作業は必要。
19名刺は切らしておりまして:2008/10/09(木) 16:12:40 ID:aLe9ZxAx
でも、中で出ないもんは出ないんだから仕方ない
20名刺は切らしておりまして:2008/10/09(木) 16:14:08 ID:aLe9ZxAx
>>18
がっ ぽん 主義の洒落話
大嘘ですよ
21名刺は切らしておりまして:2008/10/09(木) 16:16:29 ID:Era4cHL8
>>17
鼻歌吹込んだら検索してくれると、一日中モヤモヤしないですむなw
22名刺は切らしておりまして:2008/10/09(木) 17:06:46 ID:tjVoJxxx
また、こと技術研究において変態まっしぐらの
中研(日立製作所中央研究所)の仕業ですね。
23名刺は切らしておりまして:2008/10/09(木) 17:10:05 ID:cQKiswGL
Googleはテキスト検索以外はついに自力ではろくなもんを生み出せなかったな。
これもお買い上げになるのかね。
24名刺は切らしておりまして
ネタが無いなら大人しくしてれば良いのに