語の数え方(延べ語数(token frequency)と異なり語数(type frequency))について

語の数え方

語を数えるときには大きくわけて、延べ語数異なり語数という2つのやり方があります。

 

以下の例文をもとに、延べ語数と異なり語数についてみてみたいと思います。

 

私は昨日、スーパーへ行った。

スーパーで買った野菜でサラダを作った。

 

 

延べ語数(token frequency)

延べ語数とは、同じ語が何回でてきたとしても、気にせずに数えるというやり方です。

上記の例の場合、以下のように延べ語数は14になります。

 

私 (1)/は (2)/昨日 (3) /スーパー (4) /へ (5) /行った。(6)

スーパー (7)/で (8)/買った (9)/野菜 (10)/で (11)/サラダ (12)/を (13)/作った。(14)

 

 

異なり語数(type frequency)

異なり語数は、一度でてきた語は、もう次には数えないというやり方です。

上記の例の場合、「スーパー」と「で」は2回出てきているので、2回目は数えません。

以下のように異なり語数は12になります。

 

私 (1)/は (2)/昨日 (3)/スーパー (4)/へ (5)/行った。(6)

スーパー (x) /で (7)/買った (8)/野菜 (9)/で (x) /サラダ (10)/を (11)/作った。(12)

 

なお、和語・漢語は繰り返し使われる語彙が多いといわれています。

なので、延べ語数では比率が高くなりますが、異なり語数になると、その比率が減ります( 山崎・小沼 2004)。

 

使用率

ある語の使用率を調べるときは、ふつうは、以下のように計算します。

使用率
使用率=使用回数÷延べ語数 x 100

 

例えば、上の例だと、「スーパー」という語の使用率は以下のようになります。

  • 「スーパー」という語の使用率=使用回数(2)÷ 延べ語数(14) X 100 ≒ 14.3%

 

まとめ

延べ語数と異なり語数について説明しました。

とはいえ、語と数えるのは、そんな単純ではなく、基準を決めるのはかなり難しいです。

例えば、「行った」や「作った」という動詞の過去形について、この記事では1語としてカウントしましたが、場合によっては2語するケースもでてくると思います(行く+過去形「た」、作る+過去形「た」)。

自分の目的に応じてどう数えるかを考えなければならなくなるかと思います。