コーパスとしての新聞記事テキストデータ
―終助詞「かしら」をめぐって―
後藤 斉(東北大文学部)
本研究は,新聞記事テキストデータの言語資料としての性格を論じたものである.文系の研究者による日本語のコーパス研究の多くは新聞記事のテキストデータを資料体として利用している.これは現時点で入手しやすい日本語の電子化テキストの代表であり,擬似的なサンプルコーパスと見倣すことは現実的な選択である.しかし,新聞記事テキストデータの現代日本語の資料としての性格についての吟味はないがしろにできない.
本研究では,終助詞「かしら」をとりあげる.周知のとおりこれは典型的な女性語であり,その使用が話し手(書き手)の社会的要因と相関しているために,新聞記事の文章の性格を判断する指標を提供すると考えられるからである. まず,「CD-毎日新聞 '93」から終助詞「かしら」を検索し,文脈を考慮して分析した.
投稿欄において女性が筆者である文章に「かしら」が頻出するが,これは「かしら」が典型的な女性語であることの確認にすぎない.インタビュー記事などにおいて女性の発言中に現れるのも同様のように思われる.しかし,ここで外国人女性の発言にも「かしら」が現れていることに注目しなくてはならない.記者ないし編集者の側で日本語で記事をまとめるときに付け加えたのと想像される.そうだとすれば言語資料としては握造されたものとさえ言える.そのほかに,不特定多数の人の発言や男性の発言のなかにも現れることがある.非女性語としての「かしら」の使用例が得られたものと考えてよい.
新聞のテキストデータは編集者の方針にしたがって特定の表現の使用が増幅あるいは減衰されているのである.現代日本語の多様な使われ方を代表するサンプルコーパスと見なすことは難しい.新聞記事テキストデータはそのような性格を踏まえた上で適切な使用をすべきである.