マイクロホンアレーを用いた遠隔発話音声受音に関する研究

傳田  遊亀

特別な技術を持たない利用者でも機器への情報入力を容易に行えるハンズフリー音声インタフェースは,情報化社会の基盤を担う新しい技術として期待されている.しかし,実環境に存在する背景雑音や室内残響の影響によって受音した遠隔発話音声に歪みが生じるため,ハンズフリー音声インタフェースの性能が低下してしまうという問題がある.

近年,この問題を解決するためにマイクロホンアレーを用いることが広く検討されている.マイクロホンアレーを用いて音声を高品質に受音するためには, (1)話者の方位を推定する話者方位推定,(2)受音信号から音声を検出する発話区間検出,(3)話者方位に感度の高い指向特性を形成するビームフォーミングを実環境において高精度に実現する必要がある.そこで本論文では,マイクロホンアレーを用いて雑音に頑健な話者方位推定と発話区間検出を行い,ビームフォーミングによって雑音を抑圧することで音声を高品質に受音する手法について検討する.

本論文では第1に,(1)音声の平均スペクトルに基づいて各周波数の位相情報に信頼度を付与するWCSP(Weighted Cross-power Spectrum Phase)法,(2)音響空間内の雑音分布を抑圧するCSP係数サブトラクション,(3)話者方位の時系列最尤推定に基づく雑音に頑健な話者方位推定法を提案する.実騒音環境における評価実験の結果,提案手法の有効性を確認した.

第2に,雑音に頑健な発話区間検出について検討し,提案する話者方位推定法によって抽出した空間特徴量に基づいて,時間特徴量を動的に抽出する適応ゼロ交差検出法と適応短時間エネルギー閾値法を提案する.実騒音環境における評価実験の結果,提案手法はETSI(European Telecommunications Standards Institute)の標準化手法AFE(Advanced Front End)よりも頑健に発話区間を検出できることを確認した.

第3に,(1)遅延和ビームフォーマとフーリエ/ウェーブレットスペクトルサブトラクションによる多段雑音抑圧,(2)減算型ビームフォーマによる非定常雑音の逐次推定に基づく雑音抑圧法を提案する.実騒音環境における評価実験の結果,提案手法によって雑音抑圧性能と音声認識性能が改善されることを確認した.

最後に,上記の研究成果をテレビ会議の自動マルチメディアトランスクリプションに応用することを検討し,トランスクリプションの第一歩である話者ID付与を目的とした雑音に頑健な音響-画像統合型話者方位推定法を提案する.実騒音環境における評価実験の結果,提案手法は従来手法よりも高い話者方位推定性能を得られることを確認した.