単語間の単純距離計算
-
単語音声「単体」,「短波」,「単価」,(2度目の)「単体」の全てを lpfrmt コマンドで分析しなさい。
分析する単語音声ファイルを仮にfile.wav とすると,lpfrmt の実行は
lpfrmt -s 16000 -n 512 -w file.txt -a file_a.txt -f file_f.txt -b file_b.txt -F file_ffs.txt -S file_lps.txt file.wav
であり,file_a.txt にフレーム毎の線形予測係数が格納される。
このファイルの内容を確認すること。
なお,これまでに分析済みの単語を再度分析する必要はない。
-
線形予測係数を特徴ベクトルとした単純な(時間軸整合を行わない)単語間の距離計算を試みる。
すなわち,
「短波」,「単体」,「単価」の 1 回目の発声 (以前収録) 全てを音声認識における標準パターンとし,
2 回目の発声の 1 単語を入力音声(テストパターン)と考え,
入力音声と各標準パターンとの距離を求めてみる。
そのためには,特徴ベクトルの時系列がfile1_a.txt とfile2_a.txt に入っているならば,
dpmatch -nodp file1_a.txt file2_a.txt > dist_file1_file2.txt
を実行する。
これにより,dist_file1_file.txt には,
2単語音声のフレーム毎の局所的距離,および単語間の(大域的な)距離が格納される。
各標準パターンと入力音声との距離から,入力音声がどの音声として認識されることになるかを調べなさい。
-
dist_file1_file2.txt に記されている各フレームの開始時刻 (time 列) より,
各フレームが元の音声波形のどの箇所に対応するのかを確認しなさい。
そのために,file1.wav や file2.wav を wavesurfer で開いて観察しなさい。
さらに今回の距離計算の問題点を考えて記しなさい。