英語のコンテンツ難易度を単語のレベルで測る方法

  • このエントリーをはてなブックマークに追加

英語を習得するためには圧倒的にインプットが必要

英語を学習するにあたった、「英語のインプット」が必要なのは言うまでもありません。

第二言語習得の研究で言語習得に「ある程度時間が必要」とされる理由は、習得したい言語に触れている必要があるためなのですが、その「触れている」状態の一つがインプットなのです。

言語の学習者は彼らの現在のレベルより、僅かに高いレベルの言語のインプットを理解した時に進歩する

wikipedia インプット仮設

詳しくは wikipedia インプット仮説などご参考いただけるとある程度まとまっているので御覧ください。

インプットする英語のレベルは、現在の英語レベルから丁度いい距離感であることが重要

さて、英語の習得にはインプットが重要ということは明らかなのですが、ではどのレベルの英語が重要なのでしょうか?

第二言語習得理論のインプット仮設を提唱したクラッシェンが言うには、現在のレベルよりわずかに高いレベルの言語のインプットを理解したときに言語習得が進むと述べています。

実体験に照らし合わせれば想像がつくのですが、あまりにも何回な文章は読んでも全く理解できませんし、理解するためには、何回も辞書を引いたり文法書を見直したりと多大な労力が必要になります。

逆に、現在の自分のレベルから「わずかに」レベルの高い文章、たとえば知らない単語が一つしかない状態でかつ構文もはっきりわかっているような英文に触れた場合には、その単語についての意味、使い方、使うべき場面など多くのことが瞬時に理解でき、身につくのです。

そのため、日々英語の学習時に触れる英語は、今の自分の英語レベルより少しだけレベルの高いものがいいのです。

具体的に言えば、

  • 新しい単語が一つだけ含まれている。
  • 新しい構文が一つだけ出てくる。
  • 新しい場面(コンテキスト)で、既知の言い回しを使っている。

ということになります。

英語のレベルは使われている単語である程度判別が可能

英語のコンテンツのレベルの判別で、構文やその英文が出てくるコンテキストについてを自動的に判別させるのはなかなか難しいのですが、単語であれば機械的に判別が可能です。

英文に出てくる単語を一つ一つレベル付けし、英文全体でどれくらいの難易度の英単語が使われているかを分析するのです。

それにより、たとえば、学習者の英語のレベルがCEFRのB1の前半レベルなのであれば、それに合った単語で構成さえるコンテンツを探し出し、読み込むことで効率のよいインプットを達成できるようになります。

英語のレベルを読みやすさで測る方法

FRS(Flesch Readability Score)を利用したリーダビリティ、つまり「読みやすさ」を測る

FRSとは、対象テクストの語数、センテンス数、およびシラブル(音節)数を基本にリーダビリティをスコアとして算出するスキームです。

参考:「リーダビリティ」の測定について

FRSの計算式があるのですが、複雑なので「そんなのもあるのね」程度の理解でいいと思いますが、一応。

206.835-(1.015×α)-(84.6×β)
where,
α = average number of words per sentence
β = average number of syllables per word

さらに、このFRSのスコアとそれを読んで理解するために求められる教育レベルを米国式の Grade Levelと対応させたものがFKG(Flesch-Kincaid Grade Level)になります。

こちらも一応式があるので、ご参考まで。

(0.39×α)+(11.8×β)-15.59 
where,
α = average number of words per sentence
β = average number of syllables per word

殆どの文章がFKG のスコアは 5.5 から16.3 に収まります。

Readable にレベルがわかる良い図があったので紹介します。

Flesch-Kincaid Grade Level | free readability test
readable.com

ジュラシック・パークがハリーポッターより上にあるんですね。ちょっと意外です。

また上記図の説明文にも書いてありますが、FKGをgrade 8(つまり英語母国語の8年生:中学2年生でも読めるレベル)に抑えると8割のアメリカ人が読めるようです。

ちなみに、アメリカの教育レベルとFRSがどのような関係になっているかの図も 紹介します。あくまで英語を母国語とする話者の学年別レベル分けになりますが、おおよそのスコアとの対象がわかるかと思います。


英文の単語レベルとリーダビリティを測れるサイト

英文中に含まれる単語をレベルごとに集計して文章のレベルを測れるサイトや同時リーダビリティも測れるサイトがいくつかあるので紹介します。

使い勝手や、分析の結果の表し方がそれぞれ違うので用途に応じて使い分けてみるといいと思います。

『The Oxford Text Checker』 を使って文章のレベルを判別する。

Oxford辞書に登録されている単語をベースに判別するサイトです。

The Oxford Text Checker

3つのタイプから英文を調べる方法を選べます。

Oxford Keywordsという、Oxfordが選出した英語を学ぶために必要な3000単語があるのですが、

Oxford 3000 では、調べる英文内にそれがどれくらい含まれているかを調べることができます。

Oxford 2000は3000から更に単語を重要なものに絞った単語リストになります。

文章を入力して「Check Text」すると、文章に含まれる(3000・2000・Academic)に応じて単語含有率が出てきます。レベルは以下になるようです。

 ・Oxford 3000のほぼ100%であればLow intermediate(中級の下)
 ・Oxford 3000の90~95% であればHigh intermediate(中級の上)
 ・Oxford 3000の75~90%であればAdvanced(上級)

今回2008年のオバマ大統領の大統領選勝利演説の冒頭部分をチェックシてみたのですが、以下の通りの結果でした。

Words in Oxford 3000 = 96% なので、Low intermediate (中級の下)ぐらいに相当するのかなと思われます。

ちなみに赤文字は、あればあるほど難しい文章になると一応説明されていますが、おそらく固有名詞系は単語リストにないので赤文字化されやすい傾向にあるのだと思います。Americaとか難しくもなんともないけど、Albaniaとか出てきたら一瞬「?」ってなりますよね。

関西大学の染谷さんが開発した『Word Level Checker』を利用する

Word Level Checker

染谷泰正氏が提供する、文章の単語レベルを測定できるwebサイトになります。

単語のレベルを分けるための単語リストは以下の三種類あります。

  • JACET8000:大学英語教育学会基本語改訂委員会のリスト
  • SVL12000:株式会社アルク提供のリスト
  • WLC (Ver.02):染谷氏が提供するビジネス英語の分析用に特化した約35,000語

それぞれについて、オバマ大統領の勝利演説冒頭部分を見てみましょう。

大学英語教育学会基本語改訂委員会が作成のリスト:JACET8000

株式会社アルクが開発したリスト。12000語のリスト:SVL12000

染谷氏作成のリスト。「ビジネス英語の分析用に特化した約35,000語」WLC(Ver.2)

word level distribution (単語レベルごとの分布)が8段階に別れているWLC(ver.2)を使う方法が一番分かりやすそうですね。

ちなみに WLCをつかって、MIT テクノロジーレビューというテック系の最先端メディアの記事を分析すると以下のようになります。

2,000 ~ 4.000 のレベルまでの単語が多く含まれるようになります。簡単にいうと、こちらの文章のほうが単語のレベルが高いという理解です。

課金すればめっちゃ使える(と思われる)Text inspector を使う

Text inspector

課金しないとその機能をフルに使えないのですが、このText inspectorめちゃめちゃ使い勝手が良さそうです。

これまで紹介したサービスはあくまで無料でできる範囲のものを提供してくれていましたが、(それでもすごく助かります)このText inspectorはレポートもかなり見やすく、いろいろな面で文章のレベルを分析することができるようです。

たとえば、CEFRレベル別の単語分布量とか。

4技能でさんざCEFRがいわれている昨今では、かなり響く分析軸ですね。

まとめ

英語の習得にはインプットがつねにつきまといます。
そのインプットの質を限りなく高めるために、自分がこれから取り組むコンテンツのレベルを「現在の自分と比べてわずかに高い」レベルで調整することが寛容です。

今回はそのレベル選定に役立つツールを紹介しました。

今後、いろいろな学習アプリでこういった分析機能や文章のレベルを表示する機能が出てくるといいですね。

さらにはテキスト自体のレベルだけでなく、その使われているコンテキストに配慮した分析などもあればつぎのレベルのコンテンツ提供ができると思います。

宣伝

Eigoooでは、ユーザーの使いこなせている単語に合わせてコンテンツをレコメンドするシステムを現在研究開発中です。

こういった研究や機能開発にご興味がある方は是非以下までご連絡ください。

採用担当:Dan
sensei@eigooo.com


SNSでもご購読できます。