自動言語判定手法の開発とそれを利用したインターネット上の言語分布に関する調査


児玉 茂昭
三上 喜貴
チュー ユー チョーン

発表者らは,N-gramと呼ばれる計算機による自動言語判定手法と,それを利用したアジアとアフリカにおけるインターネット上での言語使用の実態調査について報告を行った。

発表者らの用いた手法は,予め入力した教師データを用いて言語判定を行うもので,動作が高速で,判定対象の言語の数が無制限であるという特徴を有する。発表者らによるソフトの正答率は95%程度で,他の言語判定ソフトと比較しても高い水準にある。

アジアとアフリカ地域のそれぞれ1億ページのウェブページを収集し,それらに対して言語判定を行った結果,両地域において英語の使用率が非常に高いが,その割合は,アジア地域では40%程度であるのに対し,アフリカ地域では80%を超えること,また,アジア地域ではヘブライ語,タイ語などいくつかの地域言語は,10%を超える比率を占めるのに対し,アフリカ地域では,そのような比較的高い比率を占める地域言語は存在しないことがわかった。