作家・英語教育研究家 晴山陽一オフィシャルサイト

コーパスは語る!

■人気のある曜日・ない曜日
 こんな、役に立つのか立たないのかわからないことを調べた学者がいる。
 1週間の中でいちばん人気があるのは何曜日で、いちばん人気がないのは何曜日か。そして、いちばん人気のある曜日は、いちばん人気のない曜日の何倍くらい人気があるのか!?
 彼のとった方法は、こうだ。総数1億5千万語という膨大な量の英文を対象に、SundayからSaturdayまでの7単語の出現数をコンピューターで検索する。その結果、人々がいちばん話題にする曜日と、いちばん話題にしない曜日を割り出し、互いに比較するのである。
 調査結果は以下のようになった。

 1位 Sunday 17,350回
 2位 Saturday 14,600回
 3位 Friday 10,650回
 4位 Monday 9,500回
 5位 Wednesday 8,150回
 6位 Thursday 6,900回
 7位 Tuesday 6,750回
 (Michael Stubbs:Words and Phrases所収)

 

 この結果から、いちばん人気があるのは、当然ながら日曜日であり、いちばん人気がないのは火曜日であることがわかった。また、日曜日は火曜日の2.7倍も話題に上る回数が多い!ということもわかったのである。
 先ほど、何の役に立つのかわからないと悪口を言ったが、もしかしたらこんなデータだって何かの役に立たないとも限らない。

■コーパス、嘘つかない!
 ところで、このように、言葉の使用状況を調べるために集められる大量の言語データのことを、コーパスという。コンピューターの発達により、瞬時に膨大な量のデータ分析が可能になったため、近頃はコーパスを使った研究が大流行で、辞書や文法書など、多くの出版物がコーパス・データに基づいて作られるようになった。
 ヘタな説明を聞くくらいならコーパス・データ、というわけだ。なんだか、同情するなら金をくれ、みたいだが......。
 コーパスを使った説明の例をひとつお見せしよう。
 wantという動詞の代表的な用例は、①want+不定詞(want to goなど)、②want+名詞(want a new carなど)、③want+人+不定詞(want her to goなど)の3つである。 では、①~③の使用頻度はどうか。
 ここで、コーパスが登場する。コーパスを使えば、①56%、②21%、③15%と、たちどころに明確な数字を得ることができる(『コーパス活用 英語基本語語彙の使い方辞典』(語研)参照)。これにより、使用例の半分以上が①の場合であり、①は③の4倍近く使われるなどの事実を、いとも簡単に手に入れることができるのである。とにかく、現代人は数字に弱い。
 コーパスを使った文法書の代表例として、ロングマンの GRAMMAR OF SPOKEN AND WRITTEN ENGLISH という大著がある。直訳すると『話された・書かれた英語の文法』となるわけだが、この長たらしいタイトルには理由がある。
 それは、同書がベースとしたコーパスが、①会話、②フィクション、③ニュース、④学術文献の4種類から構成されているからなのだ。つまり、「話された英語」と「書かれた英語」の両方をバランスよくデータソースにして調査しましたよ、と言いたいわけなのである。
 この本をパラパラとめくりながら、本書のテーマである英語動詞について、興味深いデータを抜き出してみることにしよう。

■「文の速度」と動詞
 そもそも、英文の中で、動詞は何語に1回の割合で使われるのだろう。こんな、素朴で、一見荒唐無稽な質問にも、コーパスは確実に答えを出してくれる。
 その答えはこうだ。動詞の使われる確率は、ふつうは10語に1回くらい。それが、会話の中となると、8語に1回と、出現率が上がる。
 具体的なコーパス・データでお見せすると、①会話では8語に1回、②フィクションでは7.4語に1回、③ニュースでは10語に1回、④学術文献では12語に1回、となっている。
 これを見てすぐにピンとくる読者はいないと思うので(私だってこない)、実際の英文で確かめてみることにしよう。①~④の、典型的な例文を使って、「8語に1回」とか「10語に1回」などの頻度の違いを実体験していただくことにする。

①会話(8語に1回)
 I go to the movies once a week .
 (私は週に1度は映画を見に行きます)
②フィクション(7語に1回)
 The lake was in the north country.
 (その湖は北の国にあった)
③ニュース(10語に1回)
 OPEC cut oil production by two million barrels per day.
 (OPECは1日あたり200万バレルの石油減産を行なった)
④学術文献(12語に1回)
 Information technology and globalization have brought about rapid social and economic change.
 (情報技術とグローバリゼーションが急速な社会的・経済的変化をもたらした)

 さあ、この4例文で、「会話」から「学術文献」までのおおよその文体の差と、動詞の使用頻度の違いを実感していただけたと思う。
 動詞は「文の速度」と関係する。
 動詞の多い文章は展開が速く、もたつきが少ない。会話やフィクションでは、動詞の活躍する場が勢い多くなる。
 逆に、動詞の少ない文章は、その分、名詞や形容詞の勢力範囲が多くなり、「文の速度」がにぶる。特に④の「学術文献」ともなると、もたつき方も格別で、納豆のようによくねばる。
「動詞の頻度の違い」と一口に言うのは簡単だが、実際には、これだけの英文の質の差を表していたのである。
 このコラムでは、多少ミーハー的なアプローチながら、昨今のコーパス流行の原因を探ってみた。また、単純なコーパス・データが、英文の質の差をさりげなくとらえる様子を観察した。
 結論。コーパス、恐るべし!

(『英語は動詞で生きている!』 2005年 集英社新書 序章より)