「すみません、よくわかりません」AIは特定の人々の言葉を誤認識しやすい

(※本記事は『THE CONVERSATION』に2025年1月27日付で掲載された記事を、許可を得て掲載しています)

スマホを手に困っている女性の画像
音声認識システムは、女性や黒人を含む特定の属性を持つ人々に対して精度が低くなる傾向がある。

あなたと会話ができる、人間のようなAIアシスタントという考えは、スパイク・ジョーンズ監督の映画『her・世界でひとつの彼女』が2013年に公開されて以来、多くの人の想像の中に生き続けている。映画では、主人公はサマンサというSiriのようなAIと恋に落ちる。映画の中で主人公は、サマンサがどれほどリアルに感じられたとしても人間ではなく、これからも決して人間にはなり得ないと苦悩する。

それから12年が経ち、このような話はもはやSFの世界だけのものではなくなった。ChatGPTのような生成AIや、アップルのSiri、アマゾンのアレクサのようなデジタルアシスタントは、車のナビゲーションや買い物リストの作成など、さまざまな場面で人々の生活を支えている。しかし、映画のサマンサと同様に、現在の音声認識システムもまだ、人間の聞き手ができることを全てできるわけではない。

銀行や公共サービスの会社に電話をかけた際、音声対応のデジタル・カスタマーサービス・ボットが理解できるように、何度も繰り返して言わされる、というもどかしい経験があると思う。また、電話にメモを音声入力したものの、誤認識された単語の調整に時間を費やしたこともあるかもしれない。

言語学やコンピュータ・サイエンスの研究者は、こうしたシステムは特定の人々に対して、他の人よりもうまくいかないことを明らかにした。非ネイティブ地域特有のアクセントを持つ人、黒人アフリカ系アメリカ人英語(AAVE)を話す人、コード・スイッチングを行う人、女性高齢者幼児発話障害がある人に対して、認識精度が低下する傾向がある。

共感力が低い自動音声認識システム

あなたや私と異なり、自動音声認識システムは、研究者のいう「共感的な聞き手(sympathetic listener)」ではない。イントネーションや表情といったほかの有用な手がかりを活用するどころか、シンプルに諦める。あるいは確率的に最もありそうな言葉を推測するが、この行動は時にエラーを引き起こす。

企業や公共機関がコスト削減のために、自動音声認識ツールを導入することが増えている。そして人々はシステムとのやり取りを避けられなくなっている。しかし緊急対応から医療教育法律執行にいたるまで、重要な分野でこういったシステムが活用されるほど、人の発言を認識できなかった場合に深刻な結果を招く可能性が高まる。

続きは無料会員登録後、ログインしてご覧いただけます。

  • 記事本文残り64%

月刊「事業構想」購読会員登録で
全てご覧いただくことができます。
今すぐ無料トライアルに登録しよう!

初月無料トライアル!

  • 雑誌「月刊事業構想」を送料無料でお届け
  • バックナンバー含む、オリジナル記事9,000本以上が読み放題
  • フォーラム・セミナーなどイベントに優先的にご招待

※無料体験後は自動的に有料購読に移行します。無料期間内に解約しても解約金は発生しません。