讀心術在我們人類中很常見。 不是以心理學家聲稱的方式,通過獲得充滿每個人經驗的溫暖意識流,或者以心理學家聲稱的方式,通過隨意從你的腦海中抽出一個想法。 日常的讀心術更加微妙:我們觀察人們的面部表情和動作,傾聽他們的話語,然後判斷或憑直覺判斷他們腦子裡可能在想什麼。
在心理學家中,這種直覺心理學——將不同於我們自己的心理狀態歸因於他人的能力——稱為心理理論,它的缺失或受損與 自閉症, 精神分裂症 和別的 發育障礙. 心理理論幫助我們相互交流和理解; 它使我們能夠欣賞文學和電影、玩遊戲並了解我們的社會環境。 在許多方面,能力是人的重要組成部分。
如果機器也能讀心會怎樣?
最近,斯坦福商學院的心理學家 Michal Kosinski, 提出了那個論點:像 OpenAI 的 ChatGPT 和 GPT-4 這樣的大型語言模型——在來自互聯網的大量文本上訓練的下一個詞預測機器——已經發展出了心智理論。 他的研究尚未經過同行評審,但它們引發了認知科學家之間的審查和對話,他們最近一直在嘗試回答這個經常被問到的問題——ChatGPT 能做到嗎 這? – 並將其轉移到更強大的科學探究領域。 這些模型有什麼能力,它們會如何改變我們對自己思想的理解?
加州大學伯克利分校的心理學家 Alison Gopnik 說:“心理學家不會接受任何僅僅根據你與他們互動的軼事來斷言幼兒的能力,這似乎是 ChatGPT 正在發生的事情。” 1980 年代第一批研究心智理論的研究人員。 “你必須做非常仔細和嚴格的測試。”
Kosinski 博士之前的研究表明,經過訓練分析鼻子形狀、頭部角度和情緒表達等面部特徵的神經網絡可以預測人們的 政治觀點 和 性取向 具有驚人的準確度(第一種情況下約為 72%,第二種情況下約為 80%)。 他最近在大型語言模型方面的工作使用了經典的心理測試理論來衡量兒童歸因的能力 錯誤的信念 給其他人。
新一代聊天機器人
一個勇敢的新世界。 一批由人工智能驅動的新型聊天機器人引發了一場爭論,以確定該技術是否可以顛覆互聯網的經濟,將今天的強者變成過時的,並創造出該行業的下一個巨頭。 以下是需要了解的機器人:
一個著名的例子是 莎莉安妮測試,其中一個女孩 Anne 在另一個女孩 Sally 不注意的時候將一顆彈子從籃子裡移到一個盒子裡。 研究人員聲稱,要知道莎莉會在哪裡尋找彈珠,觀眾必須運用心智理論,對莎莉的感知證據和信念形成進行推理:莎莉沒有看到安妮將彈珠移到盒子裡,所以她仍然相信它是她最後一次離開它的地方,在籃子裡。
Kosinski 博士展示了 10 種大型語言模型,這些模型具有這些心理測試理論的 40 種獨特變體——描述了像 Sally-Anne 測試這樣的情況,在這種情況下,一個人 (Sally) 會形成錯誤的信念。 然後他向模型詢問有關這些情況的問題,促使他們看他們是否會將錯誤的信念歸因於所涉及的角色並準確預測他們的行為。 他發現 2022 年 11 月發布的 GPT-3.5 有 90% 的時間這樣做,而 2023 年 3 月發布的 GPT-4 有 95% 的時間這樣做。
結論? 機器有心理理論。
但在這些結果公佈後不久,哈佛大學心理學家托默·烏爾曼就回應了 一組自己的實驗,表明即使是最複雜的大型語言模型,提示中的微小調整也可以完全改變生成的答案。 如果容器被描述為透明的,機器將無法推斷有人可以看到它。 在這些情況下,機器很難考慮到人們的證詞,有時無法區分容器內和容器頂部的物體。
卡內基梅隆大學計算機科學家 Maarten Sap, 進行了超過 1,000 次心理測試 進入大型語言模型,發現最先進的轉換器,如 ChatGPT 和 GPT-4,僅在大約 70% 的時間內通過。 (換句話說,他們 70% 成功地將錯誤信念歸因於測試情境中描述的人。)他的數據與 Kosinski 博士的數據之間的差異可能歸結為測試中的差異,但 Sap 博士說即使通過95% 的時間不會成為真正的心智理論的證據。 他說,機器通常會以一種模式化的方式失敗,無法進行抽象推理,而且經常會做出“虛假的關聯”。
Ullman 博士指出,機器學習研究人員在過去幾十年中一直在努力捕捉計算機模型中人類知識的靈活性。 他說,這種困難一直是一個“影子發現”,隱藏在每一個令人興奮的創新背後。 研究人員已經表明,如果在提出問題之前輸入不必要的信息,語言模型通常會給出錯誤或不相關的答案; 一些聊天機器人被關於會說話的鳥的假設性討論所拋棄,以至於他們最終 聲稱鳥會說話. 因為他們的推理對輸入的微小變化很敏感,科學家們將這些機器的知識稱為“脆”
Gopnik 博士將大型語言模型的心智理論與她自己對廣義相對論的理解進行了比較。 “我讀了足夠多的書,知道這些詞是什麼,”她說。 “但如果你要我做出新的預測或說出愛因斯坦的理論告訴我們的關於新現象的內容,我會感到很困惑,因為我的腦子裡並沒有真正的理論。” 她說,相比之下,人類的心理理論與其他常識推理機制相關聯; 它在審查面前屹立不搖。
總的來說,Kosinski 博士的工作和對它的回應符合關於這些機器的能力是否可以與人類的能力進行比較的辯論——一場辯論 分裂 從事自然語言處理的研究人員。 這些機器是隨機鸚鵡,還是外星智能,還是欺詐騙子? A 2022 調查 該領域的研究人員發現,在做出回應的 480 名研究人員中,51% 的人認為大型語言模型最終可以“在某種非平凡的意義上理解自然語言”,而 49% 的人認為他們不能。
烏爾曼博士並沒有低估機器理解或機器心智理論的可能性,但他對將人類能力歸因於非人類事物持謹慎態度。 他注意到一個著名的 1944年學習 由弗里茨·海德 (Fritz Heider) 和瑪麗安·西美爾 (Marianne Simmel) 設計,參與者觀看了一部兩個三角形和一個圓相互作用的動畫電影。 當受試者被要求寫下電影中發生的事情時,幾乎所有人都將這些形狀描述為人。
“二次元世界的戀人,毫無疑問; 第二個小三角形和甜蜜的圓圈,”一位參與者寫道。 “三角一號(以下簡稱反派)窺探到年輕的愛人。 啊!”
通過談論信仰、願望、意圖和想法來解釋人類行為是很自然的,而且通常是社會要求的。 這種傾向對我們是誰至關重要——如此重要以至於我們有時會試圖讀懂沒有思想的事物的思想,至少不是像我們自己的思想。