簡易音声認識実験

「短波」,「単体」,「単価」の 2 回目に発声した各音声を入力パターンとし,1 回目に発声した各音声を各単語の標準パターンと考え,各入力パターンが 3 単語のどれとして入力されることになるかを,認識に用いた距離の値も全て明示して,word ファイルに記しなさい。また,結果を考察しなさい。

認識に用いる特徴量(特徴ベクトル系列)には線形予測係数を使うこととする。 認識結果は,入力パターンとの距離が最小となる標準パターンが属するクラス(単語)である。

入力パターンの認識は次の2通りの方法,それぞれについて行う。

  1. 入力パターンと各標準パターンとの距離を,前回資料で扱ったように,同じ時刻(同じ番号のフレーム)同士での局所的距離に基づいて求める。 仮に lpfrmt コマンドによって得られた線形予測係数がfile1_a.txt と file2_a.txt に入っているとすれば,2音声間の距離は次を実行して得られる。
    dpmatch -nodp file1_a.txt file2_a.txt > dist_file1_file2.txt
  2. 入力パターンと各標準パターンとの距離を DTW (DP マッチング)のアルゴリズムで求めることによって行う。 2 音声間の距離は次を実行して求めることができる。
    dpmatch file1_a.txt file2_a.txt > dp_file1_file2.txt
    dp_file1_file2.txt の末尾に格納された最適パスを gnuplot で表示し,2音声間の距離の妥当性を検討すること。

なお,gnuplot で最適パスを表示するには,基本的に,ファイルの中に座標値だけが入っている必要がある。ただし,gnuplot は # で始まる行をコメントとみなすので,# で始まる行が座標値になっていなくとも問題はない。