現在・過去の研究テーマ
Last Modified: 2013-02-19.
2005年4月より、多様な利用環境における音声対話インタフェースの利用状況を把握するために、 インターネット上のユーザを対象とした音声対話データ収集サーバ(Moscowmule)を開発し、 このサーバと連携するクライアントとして楽曲の検索・購入のための音声対話インタフェース(MusicNavi2)の開発に取り組んできた。 MusicNavi2によるMoscowmuleへの音声送信機能は、これまでには収録が難しかったユーザごとに異なる音響環境で収録された多様な音声の収集を可能とした。 また、不特定多数ユーザに対応可能な音声認識・楽曲検索システムとするために、ユーザが音声認識に用いる辞書をカスタマイズできる機能を備えた。 2006年2月から約2ヶ月にわたるフィールドテストにより、適切に調整されていない音声入力レベル、雑音環境の不整合による雑音誤識別などの問題点が明らかとなった。 これらの問題点は従来研究の実験条件では含まれることがなかったため、それら問題の解決に必要となる音声対話コーパス構築につながる研究である。
2007年1月より前項にあげた音声対話システムの改善と音声対話コーパスの構築に取り組んできた。 認識機能をPC内に備えており、ユーザがPC内に保管している楽曲を検索対象としているが、その認識機能はインターネット経由でのアップデートが可能な半分散型音声認識(Semi-DSR; Distributed Speech Recognition)として開発した。 2007年6月から約2ヶ月のフィールドテストを行い、1359名の被験者による総計488時間の利用データを収録した。 十分にシステムを利用していたユーザ500名については、システムに関するアンケート調査も行うことで主観的なデータも得た。 そして、雑音・音声などのタグ付け、音声のテキストへの書き起こしなどを行い、コーパスとしての整備を行った。 同時に自動車運転時やバイク運転時の楽曲検索システム利用音声収録なども行われ、本対話システムが様々な場所で利用可能であることを示した。 この音声対話コーパス収録の詳細や分析結果は2010年5月の国際会議LRECなどで発表を行った。
2009年8月より音声対話システムの課題達成・未達成を自動的に識別・検出する手法を研究している。 まずは従来手法にみられた確率モデルに基づく手法において、どのような特徴量が識別に有効かを調査した。 これは2010年9月の国際会議Interspeechなどで発表し、2011年2月には、モデル化に利用する主要な特徴量として、ユーザとシステム両方の発話・動作系列をN-gram単位で扱う手法を提案した。 特に、ユーザのみやシステムのみといった特徴だけを用いるのではなくその両者を用いることが、識別に有効であることを実験的に示した。 そして、SVMによる識別と新しい入力特徴量の導入を行うことで、課題未達成となりそうな対話の早期検出が可能となることを、2011年8月の国際会議Interspeechや2011年9月の国際会議IWSDSにおいて報告してきた。 また、最新の研究結果として詳細な分析結果を2012年5月に開催される国際会議LRECで報告した。
親しみやすいキャラクターとの対話システムを構築することで長期間にわたる利用実績をほこる対話システムとして、「たけまるくん」があります。 奈良先端科学技術大学院大学 音情報処理学研究室によって開発されたシステムであり、様々な研究機関でそのベースシステムが利用されたり実際の音声対話システムが運用されています。 私は直接の開発者ではありませんが、10年に亘って保守・管理されてきたシステムの整備を行っていました。
音声対話システムを実際に運用する場合、必ずしも意味のある発話がされるとは限らないため、 雑音に反応してしまったり、話しかけていないのに反応してしまうなどの誤動作が頻繁に起こります。 この研究では、そのような誤動作を減少させるために、SVM(Support Vector Machine)やME(Maximum Entropy)法などを用いた、 音声対話システムが反応する必要のない音を棄却するための研究が行われていました。
音声対話システムの応用範囲としては、設置型の案内システムだけではなく、モバイル環境下での利用が想定されます。 この研究では、安定した運用実績のある「たけまるくん」をモバイル環境(iPhone / iPad)でも利用できるようにしています。 また、利用環境下における基礎的な検討も実施しており、例えば利用者とデバイスの距離や角度について、 デバイス毎の用途に着目してそれらの違いを明らかにすることでより高度なモバイルシステム運用が可能になると考えられます。
ドメイン(知識)やタスク(用途)を特定せずに、いつどこで誰が利用しても有用な音声対話システムを構築することは難しい問題です。 「たけまるくん」システムはドメインの切替が容易に行えるため、このシステムを様々な場所で利用可能なシステムとして大量に用意することができれば、マルチドメインシステムとして運用が可能になると考えられます。 実際に、北生駒市コミュニティーセンターに設置された「たけまるくん」と同等のシステムは、 近鉄学研北生駒駅に設置された「キタちゃん」として移植が行われています。 これらの対話環境としては、単一のエージェントとの対話よりも、エージェント間の協調を想定した対話システムとして構築することが有効であると考えられます。 しかし、エージェントが爆発的に増える環境で全てのエージェントと協調することは現実的ではありません。 そこで、この研究では、モバイル環境下で利用するユーザはその場所に強く依存した情報を欲している、という仮定のもとで、 GPS等で近隣に見つかるエージェントのみと協調した動作を行う手法を検討しています。