日本語/English
日本言語学会について
入会・各種手続き等
学会誌『言語研究』
研究大会について
学会の諸活動
その他関連情報

コンピュータ言語学と日本語形態論
―今後の言語研究のありかたの一側面―

荻野 綱男

本発表は,日本語の文章を自動的に単語に分割するパソコン用のシステム fixseg を作成した経験をもとに,言語記述の精度について「実験」を行なう立場から,コンピュータ言語学の考え方を示すものである。
日本語の形態論的な記述のために,全部の形態素を約300のグループ(およそ「品詞」に相当する)に分割し,相互にどのように接続しうるかを記述したテーブルを用意した。また,日本語の辞書として,カナ漢字変換システムの辞書を転用して用意した。これらにしたがって,パソコンで普通に入力した文章を自動的に単語に分割していくシステムを作成した。その考え方は次の通りである。(1)辞書は全部引き,考えられるあらゆる単語候補を抽出する。(2)相互に接続する可能性のあるものを残し,他の解釈は捨てる。(3)文節数・形態素数が最小になるような組み合わせを優先して,それで単語の認定を行なう。(4)辞書にない単語(未知語)についても,文字の種類を見ながら単語候補の範囲を決め,自動的な処理を行なう。
このような研究はコンピュータ言語学と呼ばれるが,コンピュータ言語学は,言語研究一般と立場が異なるわけではなく,言語研究がさらに厳密性を増し,形式化された場合にコンピュータ言語学と考えられるものである。
コンピュータ言語学では,言語記述がどのくらい正しいかについて「実験」することができる。そこで,複数の言語記述があるときに,それらを現実の文章でチェックして,どれが望ましい「正確な」言語記述であるかを決定することができる。この点で,コンピュータ言語学は「実験言語学」になる資格を持つ。
パソコン用の fixseg は無料で一般に公開するので,入手希望者は荻野まで問い合わせていただきたい。

プリンタ用画面

このページの先頭へ