XI本部 オープンイノベーションラボの飯田です。
最近、ChatGPTをはじめとした生成AIが注目されています。
その中で、Gigazineのニュースで以下の話を目にしました。
上記の記事に感化され、心理学でChatGPTのようなものが、どのように扱われているのかを調べています(私は大学で心理学専攻だったこともあり)。その中で、心理学系論文のプレプリントが掲載されている PsyArXivで、GPT-3の振る舞いを認知心理学の観点で分析した論文を見つけました。
生成系の振る舞いを理解する上でも参考になりそうだし、ISIDでも取り組んでいるロボット技術やLabratory Automationとの接合点を見つけた気がしましたので、ISIDでの取り組みを紹介しつつ、妄想したいと思います。
Binz, M., & Schulz, E. (2022, June 21). Using cognitive psychology to understand GPT-3. https://doi.org/10.31234/osf.io/6dfgk
※PNASに査読付き論文も公開されているようですが、有料なので、今回は無料のPsyArXivをよんでいます。
※念押しになりますが、以下、引用するBinz&Schulz(2022)は「ChatGPT」ではなく、「GPT-3」にて実験を行っています。
認知心理学の観点からみたGPT-3
Binz&Schulz(2022)の概要
- GPT-3に認知心理学で使われる課題を与え、その解答からGPT-3の特性を考察
- 4カテゴリ(1.意思決定 / 2.情報探索 / 3.熟慮 / 4.因果推論) についての実験を行った
- GPT-3は多くの課題に正解し、バンディット課題でも良い成績を残し、モデルベース強化学習を行っている可能性を示した。これらの結果は、GPT-3が単なる確率的なオウム返しではないことを示している。
- 一方で、人間の認知機能で重要な"統制的探査”や"因果推論”の能力を持っていないことも推察された
Binz&Schulz(2022)の実験イメージ
概要だけでは、イメージをつかみにくいと思いますので、簡単にBinz&Schulz(2022)がどのような実験をしたのか触れたいと思います。
意思決定:ヒューリスティックとバイアス(例:リンダ問題)
以下は、リンダのプロフィールです。 現在のリンダについて推測する場合、(1)と(2)のどちらの可能性が高いと思いますか? リンダは31歳、独身で、積極的に発言する非常に聡明です。 大学では哲学を専攻し、学生時代には差別や社会正義の問題に関心を持っていました。また、反核デモに参加していました。 1. リンダは銀行の出納係である。 2. リンダは銀行の出納係であり、フェミニスト運動の活動家である。
上記のような質問をされると、2は1の部分集合なので、確率的には1の方が間違いなく高いにもかかわらず、多くの人は2を選択する傾向にあります。
そのような「一般的な状況よりも、特殊な状況の方が起こりやすい」と誤判断することは"合接の誤謬"や"連言錯誤"と呼ばれます。ステレオタイプに合致した方を過大に評価しやすい意思決定プロセス(代表性ヒューリスティクス)とされます。
→GPT-3は人と同じように、2番目の選択肢を選び、合接の誤謬に陥りました
※神谷先生がChatGPTでも試していらっしゃいます
リンダ問題の答えを聞いて怒り出さないのが人間らしくない pic.twitter.com/HxxdPUbFOT
— Yuki Kamitani (@ykamit) 2022年12月5日
熟慮:認知反射テスト
誤った解答がパッと浮かびやすい問題を課して、直観型か熟慮型かを見分けるようなテストです。
例)5台の機械を5分間動かすと、製品が5つできる。100台の機械で100個の製品を作るには、何分かかるか。 - パッと浮かびやすい解答:100分 - 正解:5分
→GPT-3は、多くの人間が選んでしまう、パッと浮かびやすい解答を行い不正解となりました
因果推論:ブリケット探知器
ブリケット探知器とは、以下のような装置であり、子供の因果推論能力を推定するテストです
ある箱の上に、いろいろな色や形をした積み木のようなものを置く。
特定の積み木を特定の置き方で置いたとき、箱が光る。
→GPT-3は、人間と同じように、因果を見出しました
情報の探索:多腕バンディット課題
利益を最大化するための「活用」と「探索」の2種類の情報探索方法を適切に使い分けることができるか?という課題
- 活用:利益がどれぐらい得られるか過去に経験した手段の活用
- 探索:利益をさらに得られるかもしれない未知の手段の探索
このような質問が提示されて回答をしていくイメージです。
→GPT-3は人間と同等、それ以上のスコアを収めることができた。
しかし、探索方法の戦略を見ると、ランダム探索を主に行っており、統制的探査は見られなかった。
Binz&Schulz(2022)では、他にも詳しく行っていますので、気になる方は論文をお読みください。
大規模言語モデルとロボット技術・Labratory Automationとの接合の可能性
Binz&Schulz(2022)では、「大規模言語モデルはテキストを受動的に学習しているだけであるため、因果推論等は弱い」という指摘がありました。
その世界に介入(試行錯誤)して結果を得る取り組みとして、ロボット技術やLabratory Automation等があるのではないかと思います。
ISIDイノラボでは下記のように、ロボット技術を身近なものに活かす取り組みを色々と行っております。
ロボット技術を上手く使うことにより、ソフトウェアだけでは実現できない世界とのインタラクション・フィードバックを基にした学習が可能となり、大規模言語モデルの一層の進化が期待できるのではないでしょうか?
また、Labratory Automationとは、下の動画のようなロボットによる科学実験の自動化技術です。
下記のNatureの動画のように、人間を介在せず、実験・試行錯誤をできます。
※ISIDイノラボでもLabratory Automationの研究開発に取り組んでおり、その内容もいずれお伝えできればと思います。
大規模言語モデルとロボット技術やLabratory Automationを上手く組み合わせることができたら、この論文でGPT-3の弱点と言われる因果推論もできるようになってくるのかもしれないと感じました。
認知心理学では、身体化認知(embodied cognition)という概念があります。身体化認知では、人間の認知機能や概念知識を構築するにおいて、身体(感覚や身体的経験)が必須であるという立場です。
psychmuseum.jp
※上記P18にある通り、実験の追試に失敗したりなど、再現性問題が指摘されていたりしますが・・・
また、静的なデータセットによるトレーニングから学んだ表現よりも、世界との相互作用を通じて学習した表現の方が強力であるとしてEmbodied AIが提唱されており、CVPRではEmbodied AIのワークショップも開催されています。
大規模言語モデルにおいても、より進化させていくにあたっては、身体化認知のような認知科学の知見も活かされてくるのだろうなと感じました。
最後に
ChatGPTでも簡単にできるテストを試してみましたので、結果を載せておきます。
リンダ問題
最初やってみたら、実験の決まり文句だとバレました
少し修正したら、誤魔化すことができて、連言錯誤に陥りました(改変が妥当でない可能性もありますが)
認知反射テスト
キレイに間違えてくれました
情報探索(適切な質問を選ぶことができるのか?)
正解しました
最後に、私たちは一緒に働いてくれる仲間を募集しています!
デジタル技術を社会課題解決につなげるようなプロジェクトを推進していきたいプロジェクトマネージャーやエンジニアを募集しています。 ぜひご応募ください!
ソリューションアーキテクト スマートシティ導入コンサルタント/スマートシティ戦略コンサルタント執筆:@iida.michitaka、レビュー:@yamada.y
(Shodoで執筆されました)