この教材テキストには改行コードで区切られたがあり, その行の中に + (プラス) 記号で区切られた項目(列)が存在する。 awk では,各行をレコードと呼ぶ1。 さらにその中の,ある記号で区切られた項目(列)をフィールドと呼ぶ。
awk は,このような項目(列),すなわちフィールドを指定して, さまざまな操作をすることに適している言語である。
例えば,教材テキスト
単語表記+カタカナ読み+活用見だし語+品詞コード+ローマ字読み(改行コード)のうち,1 列目の単語表記フィールドのみを取り出して less で閲覧するには,
gawk -F+ '{print $1}' /pub/db_a/data/75.60k.vocab.romaji | less
を実行すればよい。