単語間の単純距離計算による簡易音声認識

1. 線形予測係数を用いた単語間の距離計算(時間軸整合なし)

音声の分析結果(特徴ベクトルの時系列; 具体的には,資料「音声の線形予測分析」に記載の方法でプログラム lpfrmt で求めた線形予測係数を想定)から,音声間の距離を求めるプログラム dpmatch を用意しています。 これを用いて, 同じ時刻(同じ番号のフレーム)同士での特徴ベクトルの局所的距離を基に,2音声(単語)間の距離を求めることができます。 lpfrmt コマンドによって得られた線形予測係数が file1_a.txt と file2_a.txt に入っているとすれば,2音声間の距離は次を実行して得られます。

dpmatch -nodp file1_a.txt file2_a.txt > dist_file1_file2.txt

これにより,2音声間の距離が dist_file1_file2.txt に入ります。

dist_file1_file2.txt には, file1 と file2 の同時刻の分析フレームから求めた特徴ベクトル同士の距離に続いて, Total distance としてその距離の合計が入っており, また Average として Total distance の平均(音声間の距離)が入っています。

2. 単純距離計算を用いた簡易音声認識

分析済みの 3 単語音声(/tanpa/,/tanka/,/tantai/) の1回目発声を参照パターン(テンプレート)として,新たな入力音声(各単語の2回目発声)が 3 つのうちのどの単語であるかを(時間軸整合なしの)単純距離を用いて認識して(求めて)ください。 これらの結果をまとめ,考察を行ってください。

日付: 2023/7/6

著者: Hideaki Konno

Created: 2023-07-06 木 15:47

Validate