1.2 レコードとフィールドについて

この資料でも前回資料で紹介した教材テキストを利用する。 このテキストファイルの内容を less コマンドを使って確認しておこう。 コマンド行でファイル名をタイプするときには Tab キーによるファイル名補完を使おう。

この教材テキストには改行コードで区切られたがあり, その行の中に + (プラス) 記号で区切られた項目(列)が存在する。 awk では,各行をレコードと呼ぶ1。 さらにその中の,ある記号で区切られた項目(列)をフィールドと呼ぶ。

awk は,このような項目(列),すなわちフィールドを指定して, さまざまな操作をすることに適している言語である。

例えば,教材テキスト

単語表記+カタカナ読み+活用見だし語+品詞コード+ローマ字読み(改行コード)
のうち,1 列目の単語表記フィールドのみを取り出して less で閲覧するには,
gawk -F+ '{print $1}' /pub/db_a/data/75.60k.vocab.romaji | less
を実行すればよい。