論文の英語表現をコーパスを使って磨く方法

いざ文章を英語で書こうと思ったときに、適切な表現が分からず、書き方に困ることはよくあることかと思います。

自分の場合は論文を書くときにそういったことで良く困ってます。間違えると、内容以外の点でrejectの一因になってくるので切実です。

そこで、やられるのは他の論文や文章から役に立ちそうな表現を集めてきて、剽窃にならないように改変しつつ使うといったことでしょうか。

ここで困るのは単語同士の組み合わせです。他から表現を持ってきたは良いけれど、どれとどれなら組み合わせて使って良いのかが困る点であり、間違えることがあるところです。

「この組み合わせはおかしい！」と分かるようなネイティブの感覚は持ってないですし、Google検索で同様の表現があるか検索はできますが結構間違ってることも多いです。

そこで、今回は英語表現が正しいのかどうか、どんな組み合わせならば自然なのか、コーパス言語学を使ってそういったことが学習できる方法を紹介してみます。

そもそもコーパス（corpus）とは
コーパスにおける用語説明
代表的なコーパス
コーパスを活用してみよう

そもそもコーパス（corpus）とは

「コーパス」は言語学分野の専門用語で書き言葉や話し言葉を集めたデータベースのことを意味します。膨大な量の文章や話し言葉を集めることで、出てくる言葉の頻度・関係性などを分析し、言語の特徴の解明や、自然言語処理、書き手の特定、時代による言語の変化の研究等を行うことができます。

これが英語学習に何の役に立つのでしょうか。

例えば、日本語を知らない外国人が「ブログ」という言葉を使ってみたい、とします。「ブログを書く」「ブログをアップする」とは言いますが、「ブログを描く」「ブログをアップロードする」という表現は何となく使わないと思います。意味を解釈しようと思えばできますがどことなく不自然な表現です。

そこで、コーパスを用いて文章の頻度を検索すれば、明らかに後者の言葉の出現頻度は低いので、自然な表現ではないということが分かります。こういった頻度の比較はgoogle検索では十分にできません。また、「書く」「アップする」という表現を知らなくても、「ブログ」と関連しやすい動詞をコーパスで調べれば、そうした表現に気づくこともできます。これを英語で利用しよう、というのが今回の記事の目論見です。

世界初の英語コーパスは1964年に完成されたBrown Corpusとされており、100万語ほどでしたが、現在はインターネットとＰＣの普及もあり、データベースの構築がより容易となったため億単位規模のコーパスが多数存在しています。しかも、無料で使えます。*1

ちなみに、億単位の単語量のあるコーパスを構築するには言葉のどこまでをどのように収集するですが、多くの場合は”均衡的収集法”という方法が使われます。*1この方法では、まず大まかにジャンル毎で言葉の種類を層別化します。例えば、小説、新聞、雑誌、話し言葉、学術論文etc...。こうして作った層が大体言葉全体の何割を占めるか割り振ります。これを仮想の母集団として、統計学のごとく同じ割合になるように、各ジャンルから無作為に標本抽出をします。こうしてコーパスを作る方法が均衡的収集法と言われます。

続いて、造られたコーパスからどうやって英語表現を磨いていくかを具体的な方法を紹介していきます。

コーパスにおける用語説明

実際のコーパスを使っていくうえで知っておきたい用語を説明します。

コンコーダンス(concordance)

いわゆる用例と同じような意味です。コンコーダンス検索ということをすると、調べたい単語の入った例文がざっと並びます。調べたい単語が真ん中に並び、周辺に前後の文章が並ぶKWIC(keyword in context)形式と呼ばれる形で結果が出されることが多いです。

オンライン辞書でも例文はみられると思いますが、コーパスでは表示される量がはるかに多いのと、前後の文脈もより広くみられることが特徴です。端的な例文では正直使い方が分かりにくいことが多いので、そういった点ではコーパスに利点があります。

共起表現(collocates)

どの単語と単語が関連性が強いか（＝一緒に用いられる頻度が多いか）を示すのがcollocatesです。ある語と一緒に用いられやすい言葉が分かります。文章中で隣接していなくても、3－4語離れていても検出したり、設定は色々です。

例えばreveal（～明らかにする）と言う単語だと、名詞ではstudy, analysis, difference,...などの単語が並びます。共起表現から、学術的に用いられやすい単語であることが分かりますね。

単語連鎖(clusters)

clustersは隣接して用いられる単語の塊を検出します。句動詞(different from~とか)は多くがこれで見つかってくると思います。

代表的なコーパス

実際に使えるコーパスを紹介します。

①Corpus of Contemporary American English (COCA)

Corpus of Contemporary American English (COCA)

2008年に構築されたアメリカ英語のコーパスです。語数は10億語に達しています（2020年現在）。上述した均衡的収集法を用いており、内容は話し言葉、小説、雑誌、学術論文、新聞、ウェブ、テレビ、ブログに分けられています。1年に2000万語追加され、年に2回更新され続けています。

例文もジャンルを表記してくれるので学術論文の表現を探したい自分にとっては役に立ちます。ちなみにこのリンクのサイトから他の代表的なコーパスにいけます。簡単な使い方は後述します。

②iWEB

The iWeb Corpus

名前の通りウェブからのみ収集したコーパスです。収集された単語量は驚きの140億語！2200万以上のウェブページから集められています。こちらは均衡的収集法ではなく、ユーザー数の多いウェブサイトを色々ふるいにかけて集めているようです。

単語量が圧倒的に多くウェブが主体のため、ネットで書くような表現は参考にしやすいと思います。

③ライフサイエンス辞書

ライフサイエンス辞書

ちょっと例外ですが、日本のサイトも紹介します。生命科学系の分野のコーパス検索（コーパスというよりコンコーダンスな感じですが）ができ、文章のもとになった論文へのpubmedリンクも設定してあります。英語を書く対象が論文であれば役に立つと思います。

コーパスを活用してみよう

言語分析的な詳細な使い方はあまり分からない（というか必要でない）ので、COCAを例にして簡単な見方だけ紹介します。

まず上記リンクから飛ぶとこのような画面になります。

f:id:medibook:20200924223159j:plain

(https://www.english-corpora.org/coca/より引用)

まず①～③の部分を押して、そのあと下の空欄にいれると単語の検索ができます。

①はコンコーダンス検索です。文章中での使われ方がリストになってざっと並びます。スペースで区切って複数語も検索可能です。

②は言葉を学ぶうえではあまり使えませんが、ジャンルと年代ごとの頻度が分かります。

③は単語検索で、一語のみでの検索となります。画面が切り替わって共起表現や単語連鎖の検索ができます。（下図）

④はiWEBなどの別のコーパスに切り替えができます。

続いて、③の単語検索画面を見てみます。

f:id:medibook:20200924224022j:plain

(同HPより引用)

①は検索した単語です。先ほど例で出した"reveal"を入れてます。

②はジャンル毎の頻度がグラフ化されています。ACADは学術論文ですが、それが多いですね。

③TOPICSは単語があるところと同じウェブページ内に出てくる単語（同じ文章とは限らない）で頻度が多いものを挙げています。

④は上で説明した共起表現です。

⑤のリンクをクリックすると、共起表現や単語連鎖を見ることができます。

単語連鎖（クラスター）の検索画面はこんな感じです。

f:id:medibook:20200924224639p:plain

(同HPより引用)

青が濃いものであるほど頻度が高いです。一緒に使われる単語がパッと見て良く分かります。

単語同士の相性が統計的に整理された頻度をみてしっかりと確認できるので、論文を書く時の正しい表現を見つけるのにはうってつけです。例文に目を通すだけでも感覚が磨かれる感じもあるので、ぜひ英語で文章を書かないといけないような方は見てみることをお勧めします。どこまで効果があるかはまだ実証できてないので分かりませんが(笑)

コーパスから見つけた論文に使えそうな医学英語表現について、また記事にしていく予定です。

（追記）

検索使ってるとすぐに「アカウント作れ」とかストップがかかります。無料なのでユーザー登録をお勧めします。それでも上限あるので「有料アカウント作れ～」とかきますが、まあ専門として使う方でなければ、スルーしましょう。

参考文献：

*石川慎一郎著『ベーシックコーパス言語学』

リンク

脳内ライブラリアン

医療、統計、哲学、育児・教育、音楽など、学んだことを深めて還元するために。