論文
日本語コーパスとコロケーション―辞書記述への応用の可能性―
コーパスは従来のタイプの言語研究の精密化にも大きな力を発揮するが,コーパスの特性を生かすことにより旧来の言語研究資料では考えられなかったさまざまな種類の研究が可能になる。
本稿は,大規模なコーパスを使って初めて満足な調査・分析が可能になる言語現象の1 つであるコロケーションを主題とし,日本語コーパスの分析によって得られるコロケーション情報が日本語の一般的な辞書ないしコロケーション辞典の作成にどのように生かせるかという応用的な関心に基づいて考察を行う。具体的には,筆者が‘circumcollocate’と呼ぶ現象の分析,述語の有標率の分析,類義的な慣用句型の意味・用法の分析におけるコーパスの有用性について述べる。
コロケーションの分析には大規模なコーパスが必要となる。本稿では,筆者が2008 年に作成した巨大なWeb コーパスを使用する。その規模は約750 億字,ファイルサイズにして約150 ギガバイトであり,平均的と思われる小説単行本の30 ~ 40 万冊に相当する。
論文
日本語史における動詞の意味構造と項の具現化―上代日本語の複合動詞の分析―
本稿では「日本語史における動詞の意味構造と項の具現化」という共同研究プロジェクトの概要とそのプロジェクトから得られた研究の成果を紹介する。このプロジェクトの一環として,上代から室町時代までの日本語文献に依拠した言語コーパスを開発中である。形態素から統語のレヴェルまでの情報をコード化したこのコーパスを利用して行った,上代日本語の複合動詞(V1 + V2 複合語)に関する分析の結果を紹介する。まず補助動詞の特徴を明らかにするため,V1 とV2 との意味関係が薄い複合動詞を「非語彙的複合動詞」(non-lexical compound)と定め,そういった複合動詞の単語完結性と他動性の調和を調べた。この結果,非語彙的複合動詞のV2 の結合と分布に幾つかの特徴的パターンを見出した。次に,出現頻度の高い動詞「思ふ」が孤立した動詞の形でどのような項を取るかを調べ,V1 を「思ふ」とする複合動詞が取る項と比較した。この分析により,[思ふ+ V2]が文節を項として取ることが著しく少ないという興味深い結果が得られた。
論文
terrorの語法・意味の変化―新聞アーカイブ・コーパスにおける使用実態調査―
terror の最も古い意味である「非常な恐怖」の意味から派生し,今日のようにterrorismと同義で用いられるようになるまでの語法・意味の変化を辞書,新聞アーカイブ,コーパスにより明らかにした。一般的に「恐怖状態を引き起こす行為」という意味から,特に政治的に用いられるようになったのはフランス革命時の“The Terror”「恐怖政治」で,その後,独裁政権による人民の抑圧を“reign of terror”と呼んだ。さらに現体制によるterrorから,反体制派による体制崩壊を目指すterrorへの変身をとげ,個人的な活動から組織的活動へ,国内におけるテロから国際テロへと範囲を広げていく。新聞アーカイブによる調査では,2001年「対テロ戦争」開始以前と以降で使用頻度,使用される意味が大きく異なること,war on terrorとwar on terrorismの使用時期のピークの違い,英米紙で使用の傾向がことなることなどを,年代を追って解明した。コーパスによる調査では,心理的恐怖を表す意味で多く使われていたterror が,近年その意味に加えて,terrorismと同義で用いられることが多くなり,共起語,語法,類義語が大きく変化し,terrorismと非常に類似した文法パタンで使用されている様子を描き出し,いかにterrorが語法的・意味的にterrorismに近くなっているかを明示した。
論文
バックアイコーパスにおける母音フォルマントの自動測定
近年,コーパス言語学が急速に発展している一方で,自動音響分析のための適切なツールがなかったこともあり,この分野の進展が阻害されている。本稿では,robust linear predictive coding(RLPC)とdynamic formant tracking の手法を用いて母音のフォルマント特徴を自動的に抽出する手法を紹介する。音響分析のデータ源はすべて英語の自然会話を収集したバックアイコーパスである。分析においては事前強調(preemphasis)とLPC の順序という二つのパラメータを変化させることにより,各話者および各母音に対するフォルマント測定値を最適化した。本稿では,この手法による研究の成果として,英語の10 個の母音が会話文において第一・第二フォルマント空間にどのように分布しているかを示す。
論文
コリャーク語の属性叙述―主題化のメカニズムを中心に―
本稿では,コリャーク語(チュクチ・カムチャツカ語族)で伝統的に「質形容詞」と呼ばれてきた形式が,実際には動詞をはじめとする形容詞以外の品詞語幹からの派生も可能であることや,主題化の形態的・統語的な現われである逆受動化や一般的な構造制約に対する違反などを示すことなどから,日本語研究発信の叙述類型論によって提案された「属性叙述」というタイプに相当することを論証する。また,属性叙述は対応する「事象叙述」と相互変換が可能であることを示し,これが,各品詞語幹が本来的にもつ時間的安定性の制限を解消するためのストラテジーであることを指摘する。コリャーク語のようにこれら2 つの叙述タイプの違いを形態的にも統語的にも明確な形として具現化している言語はこれまで知られておらず,その意味で本稿は叙述類型論の視野を広げるひとつの重要なデータを提供しうると考えられる。
フォーラム
ハッサーニーヤ語における仮定文の形式について
本稿は,ハッサーニーヤ語(アラビア語・モーリタニア方言)における基本的な仮定文の形式を明らかにしようとするものである。Cohen(1960)は,ハッサーニーヤ語の仮定文(の前提節)を導入する接続詞として,(イ)mneyn,(ロ)iida またはiila,(ハ)luu / iluu の3 つ(3 組)を挙げ,実現可能性がある仮定文では(イ)または(ロ)が,実現可能性がない仮定文では(ハ)が用いられるとしている。しかしながら,筆者の調査では,iida やluu / iluu が用いられる例は見られず,代わりに,ile が実現可能性の有無にかかわらず極めて広範に用いられており,現在あるいは未来の事象を対象とする実現可能な仮定についてはileyn も頻繁に用いられることが認められた。また,ile とileynの双方が可能な仮定文に関して,その使い分けに何らかの基準があるのかについて,いくつかの可能性を検討した。
English Abstract
Japanese Corpora and Their Lexicographic Applications, with Special Emphasis on Collocation
Although Japanese has been lagging behind the other major languages of the world in the utilization of electronic corpora in linguistic studies, the situation is changing rapidly due to several factors including, notably, the ongoing construction of a balanced corpus of the language at the National Institute for Japanese Language and Linguistics.
This paper focuses on collocation, a linguistic phenomenon which can be analyzed reliably only by using large corpora, and explores the possible roles which corpora may play in the compilation of a dictionary of Japanese, be it a dictionary of an ordinary kind or a collocational dictionary. Th e three collocational aspects of Japanese examined by way of corpus analysis are: 1) the concept of ‘circumcollocate’, 2) the degree of markedness of verbs and adjectives, and 3) the semantic diff erences between synonymous idiomatic grammatical phrases. Th e paper will demonstrate the ways in which corpora may have lexicographic signifi cance in each of those domains.
A large corpus is required for the retrieval of collocational information. The paper uses a Web corpus, constructed by the author in 2008, which consists of approximately 75 billion characters. This is equivalent to 150 gigabytes in fi le size, or three to four hundred thousand Japanese novel books of average size.
Verb Semantics and Argument Realization in Pre-Modern Japanese:A Preliminary Study of Compound Verbs in Old Japanese
This paper introduces the collaborative corpus-based research project Verb semantics and argument realization in pre-modern Japanese. As part of the project, we are developing a corpus of pre-modern Japanese texts which is encoded with grammatical, and in particular syntactic, information and we here present two pilot studies based on the corpus, concerning verb-verb (V1-V2) compounds in Old Japanese (8th century). We fi rst focus on V2s, with a view to understanding what properties are characteristic of the loosely defi ned class of ‘auxiliary verbs’ (hojodōshi補助動詞). We apply a number of tests to compounds, including for lexical integrity and transitivity harmony, and thereby identify a number of V2s that can take part in ‘non-lexical compounds’ (compounds relatively unconstrained by the semantics of their component verbs), as well as some distributional and combinatory patterns typical of non-lexical compounds. Second, we examine a single high-frequency verb, omop- ‘think, feel’, in order to examine its argument-taking properties when used as a predicate alone and when used as a V1 in a compound. We identify interesting diff erences, in particular finding that omop-V2 compounds are less likely to take clausal complements than when omop- is used as a predicate on its own.
New Usages and Meanings of terror:An Analysis based on Newspaper Archives and Corpora
This article discusses the current usages and meanings of terror as well as changes over time, particularly in the past few decades. In recent news articles, the word terror is often used to refer to attacks by international terrorist groups whose main purpose is to create chaos. Derived from the original meaning of “intense fear,” terror has gone through various changes before coming to be used as a synonym of terrorism. Th ese changes are described, based on newspaper archives and corpora as well as dictionary definitions and citations. Starting as an abstract noun, over time the word came to have a more concrete meaning, “the action of causing dread,” and then became more specifi cally political in its sense when it was used in contexts such as “reign of terror.” Later, the focus of the act shifted from governmental to agitational, from personal to organizational, and from domestic to international. It is pointed out that these shifts can be observed especially clearly after the start of the “Global War on Terror” promoted by the Bush administration. Corpus analyses of the collocations, grammar patterns, and synonyms of terror show clearly that the word is becoming closer in usage and meaning to terrorism and nearly interchangeable with it.
Automated Measurement of Vowel Formants in the Buckeye Corpus
In recent years, corpus phonetics has become a rapidly expanding field. However, the lack of appropriate tools for automatic acoustic analysis hinders further development of the fi eld. In this paper, we present a methodological study on the automatic extraction of vowel formants using both robust linear predictive coding (RLPC; Lee, 1988) and dynamic formant tracking (Talkin, 1987). Acoustic data were taken from the Buckeye corpus of English conversations. We varied two aspects of the analysis—preemphasis and LPC order—to optimize formant tracking results by speaker and vowel. We also show, based on the optimal results, the distribution of ten English vowels in the F1/F2 space in conversational speech.
Property Predication in Koryak: Focusing on Topicalization
This paper argues that what are traditionally called “qualitative adjectives” in Koryak (the Chukchi-Kamchatkan language family) essentially correspond to the property predication type proposed by the newly developed predication typology in the field of Japanese linguistics. Th e argument is based on two observations. First, the form can be derived not only from adjective stems but also from other word class stems, including verbal stems. Second, the form shows antipassivization or violations of the general structural constraint of this language, such as intransitive conjugation of transitive stems or promotion of oblique nouns to the absolutive case; all of these are morphological and syntactic manifestations of topicalization.
Further, a property-predication-type sentence is mutually convertible with its corresponding event-predication-type sentence; this is a strategy aimed at reducing the constraints of temporal stability inherent in each word class. A language such as Koryak, which recognizes the diff erence between property predication and event predication with both morphologically and syntactically clear forms, has hitherto not been discussed in the fi eld of languages worldwide. Thus, this paper suggests a possibility for broadening the perspective of the new predication typology.
The Form of Conditional Sentences in Hassaniya
This paper aims at presenting the popular forms of the basic conditional sentences of Hassaniya (the Mauritanian dialect of Arabic). Cohen (1960) presents three groups of conjunctions introducing the protasis clause of a conditional sentence: (a) mneyn (b) iida or iila and (c) luu/iluu. He adds that (a) or (b) is used in a sentence with a realizable condition, whereas (c) is used in a sentence with an unrealizable one. However, a survey the author recently conducted in Nouakchott did not fi nd any examples of a conditional sentence in which iida or luu/iluu was used. Instead, it was observed that ile is used very widely in conditional sentences both with realizable conditions and with unrealizable ones, and that ileyn is also frequently used, in addition to ile, in conditional sentences with realizable conditions involving present or future phenomena. This paper also attempts to find a Merkmal or Merkmals to distinguish between ile (an ile-conditional sentence) and ileyn (an ileyn-conditional sentence) from four points of view: the degree of conditionality, the speaker’s psychological position toward the conditionality, the binding-degree of protasis to apodosis, and the degree of selectivity in the condition.