W3C、「VoiceXML 3.0」で話者認識方法を標準化へ

  同仕様のドラフト作成を進めるW3Cによると、VoiceXML 3.0では、電話やコンピュータ上の音声サービスを使って商取引を行うユーザーが、音声による本人確認を行えるようになるという。

 こういうの読むと、音声による認証があっという間に
普及することをすぐに想像してしまうワシ


 W3Cは、あくまで標準規格=インターフェイスを策定するのが
メイン業務です(恥)
voiceXMLは、タグを用いて音声関係の様々なことをするためのものではあるが、
実際に、その標準仕様に基づいた実装をするのはW3Cではないんですよね?(恥)


 実際に、音声の本人確認を行うためのアルゴリズムなり、実装なりは、
個々の対応アプリケーションの実装に委ねられる


 ってことは、音声による本人確認の精度も実装される
アプリケーションにもろに依存するということですよね?
 つまり、現段階で音声によって100%本人確認が出来る
実装方法が策定されているとは限らないということ


 ここら辺、携帯電話のソフトウェア開発をしていてもよく目の当たりにする
MIDP2.0の仕様は、かなり要求がきついが韓国などのケータイは、
MIDP2.0対応と言っていながら、ざっくり実装されていない命令があったりした


 ショートメールが使えないのは、端末の内部の作りの問題であって、
低レベル部分にないものをソフトウェアからコントロールしようとしたって
動くわけがない


 MIDP2.0仕様の中で対応していないものを、端末仕様書に載せていないことが
よくあった


 ちょっと脱線しすぎたかもしれませんが・・・
どういう理由にしろ、仕様についていけなくて
実装にポッカリと穴が開くというのは、よくあることなのだろうか?


 音声に関する内部の実装が現実的になる頃に、
いわゆるVoiceXMLがブレークするのかな?


 音声に関する要素技術の動向はどうなんだろうか?
ここら辺をチェックしていないのに語るなと>ワシ