Last Modified: 2013-02-19.

楽曲情報検索(MIR) + 音声対話(SDS)

大規模なデータ収集を可能とする音声対話システム構築に関する研究(名古屋大)

2005年4月より、多様な利用環境における音声対話インタフェースの利用状況を把握するために、 インターネット上のユーザを対象とした音声対話データ収集サーバ(Moscowmule)を開発し、 このサーバと連携するクライアントとして楽曲の検索・購入のための音声対話インタフェース(MusicNavi2)の開発に取り組んできた。 MusicNavi2によるMoscowmuleへの音声送信機能は、これまでには収録が難しかったユーザごとに異なる音響環境で収録された多様な音声の収集を可能とした。 また、不特定多数ユーザに対応可能な音声認識・楽曲検索システムとするために、ユーザが音声認識に用いる辞書をカスタマイズできる機能を備えた。 2006年2月から約2ヶ月にわたるフィールドテストにより、適切に調整されていない音声入力レベル、雑音環境の不整合による雑音誤識別などの問題点が明らかとなった。 これらの問題点は従来研究の実験条件では含まれることがなかったため、それら問題の解決に必要となる音声対話コーパス構築につながる研究である。

  • 原直,宮島千代美,伊藤克亘,武田一哉, ``多様な音響環境下における音声認識システム利用時のデータ収集システム,’’ 電子情報通信学会論文誌, Vol. J90-D, No. 10, pp. 2807–2816, Oct. 2007.

実環境下における音声対話システムを用いた音声対話コーパス構築に関する研究(名古屋大)

2007年1月より前項にあげた音声対話システムの改善と音声対話コーパスの構築に取り組んできた。 認識機能をPC内に備えており、ユーザがPC内に保管している楽曲を検索対象としているが、その認識機能はインターネット経由でのアップデートが可能な半分散型音声認識(Semi-DSR; Distributed Speech Recognition)として開発した。 2007年6月から約2ヶ月のフィールドテストを行い、1359名の被験者による総計488時間の利用データを収録した。 十分にシステムを利用していたユーザ500名については、システムに関するアンケート調査も行うことで主観的なデータも得た。 そして、雑音・音声などのタグ付け、音声のテキストへの書き起こしなどを行い、コーパスとしての整備を行った。 同時に自動車運転時やバイク運転時の楽曲検索システム利用音声収録なども行われ、本対話システムが様々な場所で利用可能であることを示した。 この音声対話コーパス収録の詳細や分析結果は2010年5月の国際会議LRECなどで発表を行った。

  • Sunao HARA, Norihide KITAOKA, Kazuya TAKEDA, “Estimation method of user satisfaction using N-gram-based dialog history model for spoken dialog system,” Proc. LREC2010, 579, pp.78–83, Valleta, Malta, May 2010.

音声対話システムにおける課題達成・未達成に着目した自動評価手法に関する研究(名古屋大・奈良先端大)

2009年8月より音声対話システムの課題達成・未達成を自動的に識別・検出する手法を研究している。 まずは従来手法にみられた確率モデルに基づく手法において、どのような特徴量が識別に有効かを調査した。 これは2010年9月の国際会議Interspeechなどで発表し、2011年2月には、モデル化に利用する主要な特徴量として、ユーザとシステム両方の発話・動作系列をN-gram単位で扱う手法を提案した。 特に、ユーザのみやシステムのみといった特徴だけを用いるのではなくその両者を用いることが、識別に有効であることを実験的に示した。 そして、SVMによる識別と新しい入力特徴量の導入を行うことで、課題未達成となりそうな対話の早期検出が可能となることを、2011年8月の国際会議Interspeechや2011年9月の国際会議IWSDSにおいて報告してきた。 また、最新の研究結果として詳細な分析結果を2012年5月に開催される国際会議LRECで報告した。

  • Sunao HARA, Norihide KITAOKA, Kazuya TAKEDA, “Automatic detection of task-incompleted dialog for spoken dialog system based on dialog act N-gram,” Proc. INTERSPEECH2010, pp.3034–3037, Makuhari, Japan, Sept. 2010.
  • 原直,北岡教英,武田一哉, ``音声対話システムの発話系列N-gramを利用した課題未達成対話の検出,’’ 電子情報通信学会論文誌(レター,研究速報), Vol. J94-D, No. 2, pp. 497–500, Feb. 2011.
  • 原直,北岡教英,武田一哉, ``音声対話システムの発話・動作タグN-gramを用いた課題未達成のオンライン検出’’ 電子情報通信学会論文誌,Vol. J96-D,No. 1,pp. 81–93, Jan. 2013.

一般情報案内(IR) + 音声対話(SDS)

音声情報案内システム「たけまるくん」(奈良先端大)

親しみやすいキャラクターとの対話システムを構築することで長期間にわたる利用実績をほこる対話システムとして、「たけまるくん」があります。 奈良先端科学技術大学院大学 音情報処理学研究室によって開発されたシステムであり、様々な研究機関でそのベースシステムが利用されたり実際の音声対話システムが運用されています。 私は直接の開発者ではありませんが、10年に亘って保守・管理されてきたシステムの整備を行っていました。

  • 西村竜一,原直,川波弘道,李晃伸,鹿野清宏, “10年間の長期運用を支えた音声情報案内システム「たけまるくん」の技術,” 人工知能学会誌(特集:「音声対話システムの実用化に向けて」),Vol.28,No.1,pp.52–59,Jan. 2013.

設置型システムの無効入力棄却に関する研究(奈良先端大)

音声対話システムを実際に運用する場合、必ずしも意味のある発話がされるとは限らないため、 雑音に反応してしまったり、話しかけていないのに反応してしまうなどの誤動作が頻繁に起こります。 この研究では、そのような誤動作を減少させるために、SVM(Support Vector Machine)やME(Maximum Entropy)法などを用いた、 音声対話システムが反応する必要のない音を棄却するための研究が行われていました。

  • Haruka Majima, Rafael Torres, Hiromichi Kawanami, Sunao Hara, Tomoko Matsui, Hiroshi Saruwatari, Kiyohiro Shikano, “Evaluation of invalid input discrimination using BOW for speech-oriented guidance system,” Proc. IWSDS2012, pp.195–200, Paris, France, Nov. 2012.
  • 真嶋温佳,藤田洋子,トーレス・ラファエル,川波弘道,原直,松井知子,猿渡洋,鹿野清宏, ``音声情報案内システムにおけるBag-of-Wordsを用いた無効入力の棄却’’ 情報処理学会論文誌,Vol. 54,No. 2,pp. 443–451, Feb. 2013.

モバイル利用環境下における基礎的検討(奈良先端大)

音声対話システムの応用範囲としては、設置型の案内システムだけではなく、モバイル環境下での利用が想定されます。 この研究では、安定した運用実績のある「たけまるくん」をモバイル環境(iPhone / iPad)でも利用できるようにしています。 また、利用環境下における基礎的な検討も実施しており、例えば利用者とデバイスの距離や角度について、 デバイス毎の用途に着目してそれらの違いを明らかにすることでより高度なモバイルシステム運用が可能になると考えられます。

  • 原直,川波弘道,猿渡洋,鹿野清宏, “多様な利用環境における音声情報案内サービスソフトウェアの開発,” 電子情報通信学会 総合大会 講演論文集, 情報・システム(1), D-9-36, p.168, Mar. 2012.
  • 中清行,原直,川波弘道,猿渡洋,鹿野清宏, “携帯端末用音声情報案内システムのためのマイク入力に関する調査,” 電子情報通信学会 総合大会 情報・システムソサイエティ特別企画 学生ポスターセッション予稿集, ISS-SP-009, p.164, Mar. 2012.

モバイル利用環境下におけるマルチエージェントに関する研究(奈良先端大・岡山大)

ドメイン(知識)やタスク(用途)を特定せずに、いつどこで誰が利用しても有用な音声対話システムを構築することは難しい問題です。 「たけまるくん」システムはドメインの切替が容易に行えるため、このシステムを様々な場所で利用可能なシステムとして大量に用意することができれば、マルチドメインシステムとして運用が可能になると考えられます。 実際に、北生駒市コミュニティーセンターに設置された「たけまるくん」と同等のシステムは、 近鉄学研北生駒駅に設置された「キタちゃん」として移植が行われています。 これらの対話環境としては、単一のエージェントとの対話よりも、エージェント間の協調を想定した対話システムとして構築することが有効であると考えられます。 しかし、エージェントが爆発的に増える環境で全てのエージェントと協調することは現実的ではありません。 そこで、この研究では、モバイル環境下で利用するユーザはその場所に強く依存した情報を欲している、という仮定のもとで、 GPS等で近隣に見つかるエージェントのみと協調した動作を行う手法を検討しています。

  • 原直,川波弘道,猿渡洋,鹿野清宏, “携帯端末用の音声情報案内システム開発に向けたネットワークサービスの検討,” 情報処理学会研究報告, Vol.2012-SLP-92, No.1, pp.1–6, July 2012.
  • Sunao Hara, Hiromichi Kawanami, Hiroshi Saruwatari, Kiyohiro Shikano, “Development of a toolkit handling multiple speech-oriented guidance agents for mobile applications,” Proc. IWSDS2012, pp.195–200, Paris, France, Nov. 2012.