単語間の単純距離計算

  1. 単語音声「単体」,「短波」,「単価」,(2度目の)「単体」の全てを lpfrmt コマンドで分析しなさい。 分析する単語音声ファイルを仮にfile.wav とすると,lpfrmt の実行は
    lpfrmt -s 16000 -n 512 -w file.txt -a file_a.txt -f file_f.txt -b file_b.txt -F file_ffs.txt -S file_lps.txt file.wav
    であり,file_a.txt にフレーム毎の線形予測係数が格納される。 このファイルの内容を確認すること。 なお,これまでに分析済みの単語を再度分析する必要はない。
  2. 線形予測係数を特徴ベクトルとした単純な(時間軸整合を行わない)単語間の距離計算を試みる。 すなわち, 「短波」,「単体」,「単価」の 1 回目の発声 (以前収録) 全てを音声認識における標準パターンとし, 2 回目の発声の 1 単語を入力音声(テストパターン)と考え, 入力音声と各標準パターンとの距離を求めてみる。 そのためには,特徴ベクトルの時系列がfile1_a.txt とfile2_a.txt に入っているならば,
    dpmatch -nodp file1_a.txt file2_a.txt > dist_file1_file2.txt
    を実行する。 これにより,dist_file1_file.txt には, 2単語音声のフレーム毎の局所的距離,および単語間の(大域的な)距離が格納される。 各標準パターンと入力音声との距離から,入力音声がどの音声として認識されることになるかを調べなさい。
  3. dist_file1_file2.txt に記されている各フレームの開始時刻 (time 列) より, 各フレームが元の音声波形のどの箇所に対応するのかを確認しなさい。 そのために,file1.wav や file2.wav を wavesurfer で開いて観察しなさい。 さらに今回の距離計算の問題点を考えて記しなさい。