形態分析プログラムによるコーパスヘの形態情報の付加について
松村 一登(東京大)
plain text のコーパスしか提供されていない言語の場合でも,フィンランド語やエストニア語のように,形態分析をしてくれるプログラムが利用できる場合は,plain text をその形態分析プログラムにかけた出力を Perl などにより適当に整形することによって,品詞・形態情報の付加されたコーパスとして利用することができる.
形態分析プログラムは,(1) コーパス本体を手もとに置いて利用できる(エストニア語)か,(2) コーパス提供者の指定するサーバーにアクセスしてオンラインで利用することを求められる(フィンランド語)かによって,利用のしかたが異なる.前者の場合,コーパスは検索プログラムとセットにして CDROM に納めれば,携帯可能になって,自分のノートパソコン上でもコーパス利用を可能にできるが,後者の場合は,形態分析を含めたかなりの作業をサーバー上で行うことになる.