単語間の単純距離計算による簡易音声認識

1. 線形予測係数を用いた単語間の単純距離計算

音声の分析結果(特徴ベクトルの時系列; 具体的には,資料「音声の線形予測分析」に記載の方法でプログラム lpfrmt で求めた線形予測係数を想定)から,音声間の距離を求めるプログラム dpmatch を用意しています。 これを用いて, 同じ時刻(同じ番号のフレーム)同士での特徴ベクトルの局所的距離を基に,2音声(単語)間の距離を求めることができます。 lpfrmt コマンドによって得られた線形予測係数が file1_a.txt と file2_a.txt に入っているとすれば,2音声間の距離は次を実行して得られます。

dpmatch -nodp file1_a.txt file2_a.txt > dist_file1_file2.txt

これにより,2音声間の距離が dist_file1_file2.txt に入ります。

dist_file1_file2.txt には, file1 と file2 の同時刻の分析フレームから求めた特徴ベクトル同士の距離に続いて, Total distance としてその距離の合計が入っており, また Average として Total distance の平均(音声間の距離)が入っています。

2. 単純距離計算を用いた簡易音声認識

分析済みの 3 単語音声(/tanpa/,/tanka/,/tantai/) の1回目発声を参照パターン(テンプレート) として,新たな入力音声(2回目発声のうちの少なくとも1つ)が 3 つのうちのどの単語であるかを,上記の単語間の距離を用いて認識してください。 ここで認識とは,3つの参照パターン(テンプレート)の音声を \(R_\mathrm{/tanpa/}, R_\mathrm{/tanka/}, R_\mathrm{/tantai/}\) とし,入力音声を \(I\) としたとき,

\[\underset{w}{\operatorname{argmin}} D'(I, R_w)\]

を(手作業で)求めることです。 ただし, \(w \in \{\mathrm{/tanpa/, /tanka/, /tantai/}\}\) です。

以上の結果を文書にまとめてください。

日付: 2024/7/4

著者: Hideaki Konno

Created: 2024-07-04 木 16:02

Validate