AIにビッグデータを与え続けると賢くはなるのか

ナマケモノ君

AIにデータ与えまくれば、いずれ誰よりも賢くなるよね！？

チキン君

うーん、そううまくはいかないみたいだよ。

ChatGPTをはじめとする自然言語処理AIが今、「人間の仕事を奪うほど賢い」と注目を集めています。

しかし実際に使ってみると、まだまだトンチンカンな答えを返すと気づいた方も多いでしょう。

素人としては「ありとあらゆるデータを取り入れたら、最強のAIが完成するんだろうなぁ」なんて考えてしまいます。

ところが、AIはそうかんたんには賢くならないようです。

本記事では、AIと学習データの関係について以下の内容をまとめました。

この記事でわかること

大量のデータだけではAIが賢くなれない理由
AIの過学習とはなにか
過学習とはなにか
偏りとはどういう状態か

AIが学習するデータは多ければいいというわけじゃない
AIが大量に学習した際の「過学習」と「偏り」とは
まとめ：AIのかしこさは学習データの量だけでは決まらない

AIが学習するデータは多ければいいというわけじゃない

AIが学習するためデータを与え続けると、AIはより正確な予測や分析ができるようになる可能性はあります。

ただし、学習に使用したデータの質や量によっては問題が発生する可能性があるのも事実です。

たとえば医療の診断で使われるAIを学習させるとき、女性よりも男性のデータが極端に多かった場合、AIがうまく女性を診断できない場合があります。

ナマケモノ君

やたらめったらにデータを入れると、バランスが悪くなる可能性があるのか。

チキン君

そういうこと。答えの精度を高めるには緻密な計算が必要なんだ。

AIが適切な答えを返すには、学習させるデータだけでなく、データを抽出するためのアルゴリズムや複雑なパラメータも関係してきます。

また学習させるデータそのものも、適切に前処理しなければAIが正しく理解できません。賢いAIを作るのはかんたんではないようです。

自然言語処理AIが学習するために前処理されたデータは、テキストコーパスとよばれます。

※参考：過学習とは？具体例と起きる要因から避けるための対策までご紹介

AIが大量に学習した際の「過学習」と「偏り」とは

AIにただただ大量のデータを学習させた場合、「過学習」と「偏り」とよばれる2つの問題が発生する可能性があります。

それぞれどういった状態なのか、具体例を確認していきましょう。

過学習（overgitting）とは：新しいデータに弱い状態

過学習（overfitting）とは、訓練データに対して過度に適合してしまい、新しいデータにうまく対応できなくなる現象を指します。

人間の学習でたとえると、過去問を解きまくって過去問なら完ぺきに答えられるようになったが、新しい問題が出たらパニックを起こして間違えてしまうような状態です。

天気予報のように未来を予想するAIや、ニュースのように常に新しい情報を処理するAIは、新しいデータに対応できなくなるのは致命傷となります。

過学習を起こさないためには、AIが学習データ全体の規則性を学べるように、データバランスを整えるなど工夫しなければいけません。

ナマケモノ君

過去問を解けるだけじゃダメだなんて、AIも大変だなぁ。

チキン君

AIのすごいところは予測することだからね。未知にも対応できなきゃ意味ないんだ。

過学習は過剰適合とも呼ばれ両者は同義ですが、ChatGPTを含む自然言語処理AIに対しては過学習という言葉を使うケースが多いです。

偏り（bias）とは：バイアスがかかった状態

偏りとは、学習データやそれを抽出するアルゴリズムの選択によって、AIが人間の望んでいない判断をしてしまうことを指します。

実例を挙げれば、2018年Amazon社が期待を込めていたAI採用は、女性よりも男性を優先して採用していることが明らかになり採用を打ち切ることになりました。

原因は、学習したエンジニアの履歴書に男性が多かったことにより発生したAIの偏りです。

システムに性別の中立性が働かない事実を見つけ出してしまった。これはコンピューターモデルに１０年間にわたって提出された履歴書のパターンを学習させたためだ。つまり技術職のほとんどが男性からの応募だったことで、システムは男性を採用するのが好ましいと認識したのだ。
焦点：アマゾンがＡＩ採用打ち切り、「女性差別」の欠陥露呈で

※太字装飾は著者（チキン）による強調

ナマケモノ君

手持ちのデータを入れるだけだと、偏った学習をしてしまうってことか…

チキン君

データが少ないと十分に学習もできないし、難しいところだね。