音学シンポジウム2025発表(阿部研学生・共著 2件)
2025年6月13日から14日にかけて開催された 音学シンポジウム 2025 (情報処理学会第156回SLP・第143回MUS 共催研究会,電子情報通信学会SP・日本音響学会SP 連催研究会) において, 阿部研究室修士学生2名による研究発表が行われました.
岡村優頼, 阿部匡伸, 原直,
``舌亜全摘出者音声合成における他話者の健常音声と障害音声を用いた話者類似性向上の検討,’'
電子情報通信学会技術研究報告, vol. 125, no. 74, SP2025-5, pp. 22–27, June 2025.
— ポスター発表[2025.6.13], 情報処理学会・電子情報通信学会・音響学会 音学シンポジウム2025, 2025.6.13--14
概要
本報告では,1分未満の目標話者音声を用いた舌亜全摘出者音声合成を検討する.提案方式では,話者適応時に目標話者の障害音声に加え,他話者の健常音声と障害音声のパラレルコーパスを用いた学習を行う.これにより,目標話者の音声として障害音声が少量しか得られない状況下でも,明瞭性および話者類似性の高い音声の合成を目指す.また本報告では,パラレルコーパスをどのように活用することで合成音声の話者類似性および音韻明瞭性が向上するのかについて検討する.評価実験では,他話者の健常音声と障害音声のパラレルコーパスの使用有無や,発話内容および話者の多様性による音韻明瞭性および話者類似性への効果を評価する.実験の結果,他話者パラレルコーパスを用いた話者適応は,従来手法と比較して文字認識率および話者類似性に関するMOSを向上させることが確認された.また,話者埋め込みの分布を可視化することにより,提案方式によって学習された話者エンコーダでは,健常音声と障害音声の話者特徴がより近づくことが確認された.
岩崎茉理, 阿部匡伸, 原直,
``指動作入力に基づく会話支援システムのためのニューラル機械翻訳と生成AIを用いた入力文推定方式の検討,’'
電子情報通信学会技術研究報告, vol. 125, no. 74, SP2025-4, pp. 16–21, June 2025.
— ポスター発表[2025.6.13], 情報処理学会・電子情報通信学会・音響学会 音学シンポジウム2025, 2025.6.13--14
概要
本報告では,指動作を入力とする会話支援システムのための,ニューラル機械翻訳と生成AIを用いた文字列推定方式を検討する.提案する会話支援システムでは,十指に装着するウェアラブルデバイスを使用し,各指から得られる入力を利用して文章を推定する.指動作から文章の変換には一対一の対応関係がないため,変換の際に曖昧性が生じる.提案方式では,まずニューラル機械翻訳により文章を推定し,次に生成AIを用いて推定誤りを訂正する.評価実験では,ニューラル機械翻訳の推定精度,生成AIによる誤り判定および訂正精度を評価する.実験の結果,NMTの推定精度はシンボル単位で95.1%,文単位で50.2%となった.また,生成AIを用いた誤り判定と誤り訂正により,文正解率は4.1ポイント向上することが示された.
参考URL