単語音声の収録と観察

1 単語音声の収録

以下の手順で,単語音声「短波」,「単価」,「単体」を各2回ずつ wavesurfer で収録し,各単語を個別のファイルに保存する。

1.1 録音設定の確認と変更

  1. wavesurfer を起動する
  2. File -> Preferences… の SoundIO タブを開く
  3. New sound default rate が 16000 に,New sound default encoding が Lin16 に,New sound default channels が 1 になっていることを 確認する。なっていなければ変更し,Apply ボタンで 適用して OK ボ タンを押してから,Wavesurfer を再起動する。再度 SoundI/O タブの 設定を確認する。

1.2 録音

「単体」,「短波」,「単価」を各2回を録音する。 録音は wavesurfer の赤ボタンで開始できる。

録音時には,波形の瞬時振幅が許容される最大値(32767)や最小値 (-32768) を超えないように注意する。 ただし,小さすぎても支障がある。5000 程度の振幅値があればよい。

1.3 録音した音声のファイル保存

収録した各単語を,次の手順で個別のファイルに保存する。

  1. 波形の上で右クリック -> Create Panel -> Waveform
  2. 保存する区間をマウスで選択し,View -> Zoom to Selection で選択区間の音声波形を確認。
  3. 選択区間の音声を聴いてから,File -> Save Selection でファイルに保存する。ファイル名は tanpa01.wav, tanpa02.wav 等とする。

音声をファイルに保存するために単語区間を選択する際には,各単語の前後には若干(0.03秒程度)の無音区間を含めること。

1.4 収録した音声の標本化周波数・チャネル数の確認

wavesurfer で音声ファイルを開き,ウィンドウ上のどこかにマウスカーソルを置いて

    右クリック -> Properties... から Sound タブ 

を開いて,Sample rate と Number of channels を確認する。 この授業で使う音声は

  • Sample rate (サンプリング周波数)が 16000 Hz で
  • Number of channels が 1

になっている必要がある。

なお,上記の Sound タブでサンプリング周波数等を変更すると音声信号が劣化するので,行わないこと。

2 単語音声の観察

  1. 収録した単語のうち,幾つかを wavesurfer で開いて,

    • 波形,
    • スペクトル,
    • サウンドスペクトログラム [Create Pane -> Spectrogram],
    • 基本周波数(F0)パターン [Create Pane -> Pitch Contour],
    • 強度の時間変化 [Create Pane -> Power Plot]

    を確認しなさい。

  2. 単語「単体」の入ったファイル一つについて,各音素の区間をマウスで選択して再生し, どのように聞こえるかを確かめた上で,各音素の開始・終了時の入ったテキストファイルを作りなさい (このような作業を音素ラベリングという)。 例えば次のようなテキストファイル tantai01.lab を作る。

    このようなファイルは wavesurfer に tantai01.wav を読み込んで [Create Pane -> Transcription] を使って作ることもできる。 (Transcription pane で右クリックして,Insert Label でラベルの挿入,Save all transcriptions で .lab ファイルへの保存)

    0.0000000 0.3100000 sil 
    0.3100000 0.3700000 t 
    0.3700000 0.5400000 a 
    0.5400000 0.6400000 N 
    0.6400000 0.7400000 t 
    0.7400000 0.7600000 a 
    0.7600000 0.8900000 i 
    0.8900000 1.1100000 sil 
    

    (0秒から0.31秒は無音区間; 0.31秒から0.37秒は /t/)

    音素表記には次の音素一覧を使うこととする。

    sil a i u e o a: i: u: e: o: N p t k b d g s sh z j ch ts f h m n r w y py ky by dy gy hy my ny ry q

    ここで sil は無音区間を, a: i: u: e: o: は長母音(長く伸ばした母音)を,q は促音(っ)を意味することとする。

  3. 収録した三単語の各音素区間の波形やスペクトルを観察しなさい。 特に単語の出だしの /taN/ の部分に,共通性や違いが見られるか。 /taN/ に続く部分はどうか。
  4. 「短波」,「単価」についても,音素ラベリングを行った結果を上記 1. で作成したのと同様にファイルに入れなさい。

日付: 2019/5/23

著者: Hideaki Konno

Validate