AIにビッグデータを与え続けると賢くはなるのか

過学習と偏りAI
スポンサーリンク
ナマケモノ君
ナマケモノ君

AIにデータ与えまくれば、いずれ誰よりも賢くなるよね!?

チキン君
チキン君

うーん、そううまくはいかないみたいだよ。

ChatGPTをはじめとする自然言語処理AIが今、「人間の仕事を奪うほど賢い」と注目を集めています。

しかし実際に使ってみると、まだまだトンチンカンな答えを返すと気づいた方も多いでしょう。

素人としては「ありとあらゆるデータを取り入れたら、最強のAIが完成するんだろうなぁ」なんて考えてしまいます。

ところが、AIはそうかんたんには賢くならないようです。

本記事では、AIと学習データの関係について以下の内容をまとめました。

この記事でわかること
  • 大量のデータだけではAIが賢くなれない理由
  • AIの過学習とはなにか
  • 過学習とはなにか
  • 偏りとはどういう状態か

AIが学習するデータは多ければいいというわけじゃない

勉強するロボット

AIが学習するためデータを与え続けると、AIはより正確な予測や分析ができるようになる可能性はあります。

ただし、学習に使用したデータの質や量によっては問題が発生する可能性があるのも事実です。

たとえば医療の診断で使われるAIを学習させるとき、女性よりも男性のデータが極端に多かった場合、AIがうまく女性を診断できない場合があります。

ナマケモノ君
ナマケモノ君

やたらめったらにデータを入れると、バランスが悪くなる可能性があるのか。

チキン君
チキン君

そういうこと。答えの精度を高めるには緻密な計算が必要なんだ。

AIが適切な答えを返すには、学習させるデータだけでなく、データを抽出するためのアルゴリズムや複雑なパラメータも関係してきます。

また学習させるデータそのものも、適切に前処理しなければAIが正しく理解できません。賢いAIを作るのはかんたんではないようです。

自然言語処理AIが学習するために前処理されたデータは、テキストコーパスとよばれます。

※参考:過学習とは?具体例と起きる要因から避けるための対策までご紹介

AIが大量に学習した際の「過学習」と「偏り」とは

AIにただただ大量のデータを学習させた場合、「過学習」と「偏り」とよばれる2つの問題が発生する可能性があります。

それぞれどういった状態なのか、具体例を確認していきましょう。

過学習(overgitting)とは:新しいデータに弱い状態

理解できず困っているロボット

過学習(overfitting)とは、訓練データに対して過度に適合してしまい、新しいデータにうまく対応できなくなる現象を指します。

人間の学習でたとえると、過去問を解きまくって過去問なら完ぺきに答えられるようになったが、新しい問題が出たらパニックを起こして間違えてしまうような状態です。

天気予報のように未来を予想するAIや、ニュースのように常に新しい情報を処理するAIは、新しいデータに対応できなくなるのは致命傷となります。

過学習を起こさないためには、AIが学習データ全体の規則性を学べるように、データバランスを整えるなど工夫しなければいけません。

ナマケモノ君
ナマケモノ君

過去問を解けるだけじゃダメだなんて、AIも大変だなぁ。

チキン君
チキン君

AIのすごいところは予測することだからね。未知にも対応できなきゃ意味ないんだ。

過学習は過剰適合とも呼ばれ両者は同義ですが、ChatGPTを含む自然言語処理AIに対しては過学習という言葉を使うケースが多いです。

偏り(bias)とは:バイアスがかかった状態

偏った考え方におちいるロボット

偏りとは、学習データやそれを抽出するアルゴリズムの選択によって、AIが人間の望んでいない判断をしてしまうことを指します。

実例を挙げれば、2018年Amazon社が期待を込めていたAI採用は、女性よりも男性を優先して採用していることが明らかになり採用を打ち切ることになりました。

原因は、学習したエンジニアの履歴書に男性が多かったことにより発生したAIの偏りです。

システムに性別の中立性が働かない事実を見つけ出してしまった。これはコンピューターモデルに10年間にわたって提出された履歴書のパターンを学習させたためだ。つまり技術職のほとんどが男性からの応募だったことで、システムは男性を採用するのが好ましいと認識したのだ。

焦点:アマゾンがAI採用打ち切り、「女性差別」の欠陥露呈で

※太字装飾は著者(チキン)による強調

ナマケモノ君
ナマケモノ君

手持ちのデータを入れるだけだと、偏った学習をしてしまうってことか…

チキン君
チキン君

データが少ないと十分に学習もできないし、難しいところだね。

まとめ:AIのかしこさは学習データの量だけでは決まらない

本を読んで学習するロボット

賢いAIを作るには大量の学習データが必要であることは事実です。

だからといって闇雲にデータを与えると、本来求めていたのとは違った答えを出力する場合があります。

具体例としては、新しいデータに対応できない「過学習」や、いびつな考え方をする「偏り」などがあります。

つまり、AIの精度を高めるには学習データの他にも、それを抽出するアルゴリズムやパラメータの調整が必要なのです。

ナマケモノ君
ナマケモノ君

AIの精度を高めるのって大変なんだね。

チキン君
チキン君

ホントにね。今あるAIサービスをありがたく使わせてもらおうか。

コメント

タイトルとURLをコピーしました