正如我所寫,大型語言模型 (LLM)(例如 GPT-4)的興起及其生成高度流暢、自信的文本的能力令人矚目。 可悲的是,炒作也是如此:微軟研究人員氣喘吁籲 描述了微軟資助的 OpenAI GPT-4 展示“通用人工智能火花”的模型。 對不起,微軟。 不,它沒有。
當然,除非微軟的意思是產生幻覺的傾向——生成錯誤的文本,而這些文本肯定是錯誤的——這太人性化了。 GPT 也不擅長下象棋和圍棋等遊戲,數學也很不穩定,並且可能編寫出帶有錯誤和細微錯誤的代碼。 加入俱樂部,對吧?
這些都不意味著 LLM/GPT 都是炒作。 一點也不。 相反,這意味著我們在生成式人工智能 (GenAI) 對話中需要一些觀點,而不是誇大其詞。
作為 在 IEEE Spectrum 文章中有詳細說明,一些專家,例如 OpenAI 的 Ilya Sutskever,認為加入帶有人類反饋的強化學習可以消除 LLM 幻覺。 但其他人,例如 Meta 的 Yann LeCun 和 Geoff Hinton(最近從谷歌退休)認為,大型語言模型中存在一個更根本的缺陷。 兩者都認為大型語言模型缺乏非語言知識,這對於理解語言描述的潛在現實至關重要。
在一次採訪中,Diffblue 首席執行官 Mathew Lodge 認為有更好的方法:“小型、快速且運行成本低廉的強化學習模型在從玩遊戲到編寫代碼的各種任務中輕鬆擊敗了擁有數千億參數的大型 LLM。 ”
我們是否在錯誤的地方尋找 AI 黃金?
我們玩個遊戲好嗎?
正如 Lodge 相關的那樣,生成式 AI 肯定有一席之地,但我們可能會試圖將其強加到強化學習更好的領域。 以遊戲為例。
Levy Rozman,國際象棋大師, 發布了一段他與 ChatGPT 對戰的視頻. 該模型做出了一系列荒謬和非法的舉動,包括奪取自己的棋子。 最好的開源國際象棋軟件(Stockfish,它根本不使用神經網絡)讓 ChatGPT 在 LLM 找不到合法的走法後不到 10 步就辭職了。 這是一個很好的證明,LLM 遠遠沒有達到通用 AI 的炒作,這不是一個孤立的例子。
谷歌 AlphaGo 是目前最好的圍棋人工智能,它是由強化學習驅動的。 強化學習的工作原理是(巧妙地)為一個問題生成不同的解決方案,嘗試它們,使用結果改進下一個建議,然後重複該過程數千次以找到最佳結果。
就 AlphaGo 而言,AI 會嘗試不同的走法,並預測這一步是否好走以及是否有可能從該位置贏得比賽。 它使用該反饋來“遵循”有希望的移動序列並生成其他可能的移動。 結果是搜索可能的移動。
該過程稱為概率搜索。 您無法嘗試每一步(太多了),但您可以花時間搜索可能找到最佳著法的著法空間區域。 這對於玩遊戲來說非常有效。 AlphaGo 過去曾擊敗過圍棋大師。 AlphaGo 並非萬無一失,但它目前的表現優於當今最好的 LLM。
概率與準確性
當面對 LLM 明顯低於其他類型 AI 的證據時,支持者認為 LLM“會變得更好”。 然而,根據 Lodge 的說法,“如果我們要同意這個論點,我們需要了解 為什麼 他們會在這類任務中做得更好。” 他繼續說,這就是事情變得困難的地方,因為沒有人可以預測 GPT-4 會針對特定提示產生什麼。 該模型無法由人類解釋。 這就是為什麼,他爭辯說,“’即時工程’不是一件事。” 人工智能研究人員也很難證明這一點 “緊急屬性” 的 LLM 存在,更不用說預測它們了,他強調說。
可以說,最好的論據是歸納法。 GPT-4 在某些語言任務上比 GPT-3 更好,因為它更大。 因此,更大的模型會更好。 正確的? 出色地…
“唯一的問題是 GPT-4 繼續與 OpenAI 指出對 GPT-3 具有挑戰性的相同任務作鬥爭,”Lodge 爭辯道。 數學就是其中之一; GPT-4 在執行加法方面優於 GPT-3,但仍難以處理乘法和其他數學運算。
使語言模型更大並不能神奇地解決這些難題,甚至 OpenAI 也表示更大的模型不是答案。 原因歸結為 LLM 的基本性質,因為 在 OpenAI 論壇中提到:“大型語言模型本質上是概率性的,並且通過根據他們在訓練數據中觀察到的模式生成可能的輸出來運行。 在數學和物理問題的情況下,可能只有一個正確答案,而且生成該答案的可能性可能非常低。”
相比之下,由強化學習驅動的人工智能在產生準確結果方面要好得多,因為它是一個尋求目標的人工智能過程。 強化學習有意地朝著預期的目標迭代,並旨在產生它能找到的最接近目標的最佳答案。 Lodge 指出,法學碩士“不是為了迭代或尋求目標而設計的。 它們旨在提供“足夠好” 一次或幾次 回答。”
“一次性”答案是模型產生的第一個答案,它是通過預測提示中的單詞序列獲得的。 在“小樣本”方法中,模型會獲得額外的樣本或提示,以幫助它做出更好的預測。 LLM 通常還包含一些隨機性(即它們是“隨機的”)以增加更好回答的可能性,因此它們會對相同的問題給出不同的答案。
並不是說 LLM 世界忽視了強化學習。 GPT-4 結合了“強化學習與人類反饋”(RLHF)。 這意味著核心模型隨後由人工操作員進行訓練,使其更喜歡某些答案而不是其他答案,但從根本上說,這並沒有改變模型最初生成的答案。 例如,Lodge 說,LLM 可能會生成以下備選方案來完成句子“Wayne Gretzky likes ice ……”。
- Wayne Gretzky 喜歡冰淇淋。
- Wayne Gretzky 喜歡冰球。
- Wayne Gretzky 喜歡冰釣。
- Wayne Gretzky 喜歡滑冰。
- Wayne Gretzky 喜歡冰酒。
人類操作員對答案進行排名,並且可能會認為一位傳奇的加拿大冰球運動員更有可能喜歡冰球和滑冰,儘管冰淇淋具有廣泛的吸引力。 人工排名和更多人工編寫的回復用於訓練模型。 請注意,GPT-4 不會假裝準確地知道 Wayne Gretzky 的偏好,只是根據提示最有可能完成。
最後,LLM 的設計並不是高度準確或一致的。 準確性和確定性行為之間存在權衡以換取普遍性。 對於 Lodge 而言,所有這些都意味著強化學習在大規模應用 AI 方面勝過生成 AI。
將強化學習應用於軟件
軟件開發呢? 正如我所寫的那樣,GenAI 已經與發現使用 GitHub Copilot 或 Amazon CodeWhisperer 等工具提高生產力的開發人員一起度過了美好的時光。 這不是推測——它已經在發生了。 這些工具根據集成開發環境中插入點前後的代碼預測接下來可能出現的代碼。
事實上,正如 David Ramel 的 視覺工作室雜誌 建議,最新版本的 Copilot 已經生成了 61% 的 Java 代碼。 對於那些擔心這會消除軟件開發人員工作的人,請記住,此類工具需要勤奮的人工監督來檢查完成情況並對其進行編輯以使代碼正確編譯和運行。 自 IDE 早期以來,自動完成功能一直是 IDE 的主要功能,而 Copilot 和其他代碼生成器正在使其變得更加有用。 但是大規模的自主編碼,需要 實際上 編寫 61% 的 Java 代碼,它不是。
然而,強化學習可以進行準確的大規模自主編碼,洛奇說。 當然,他這樣說有既得利益:2019 年,他的公司 Diffblue 發布了其商業化的基於強化學習的單元測試編寫工具 Cover。 Cover 無需人工干預即可編寫全套單元測試,從而可以大規模自動執行複雜、容易出錯的任務。
洛奇有偏見嗎? 絕對地。 但他也有很多經驗來支持他的信念,即強化學習在軟件開發方面可以勝過 GenAI。 今天,Diffblue 使用強化學習來搜索所有可能的測試方法的空間,為每個方法自動編寫測試代碼,並在編寫的代碼中選擇最好的測試。 強化學習的獎勵功能基於各種標準,包括測試的覆蓋範圍和美學,其中包括看起來像人類編寫的編碼風格。 該工具平均在一秒鐘內為每種方法創建測試。
Lodge 認為,如果目標是為一個沒有人理解的程序自動編寫 10,000 個單元測試,那麼強化學習是唯一真正的解決方案。 “法學碩士無法競爭; 人類無法有效地監督它們並在這種規模上糾正它們的代碼,並且使模型更大更複雜並不能解決這個問題。”
要點:LLM 最強大的地方在於它們是通用語言處理器。 他們可以完成未受過明確訓練的語言任務。 這意味著他們可以在內容生成(文案撰寫)和許多其他事情上表現出色。 “但這並不能使 LLM 替代通常基於強化學習的 AI 模型,”Lodge 強調說,“後者更準確、更一致,並且可以大規模工作。”
版權所有 © 2023 IDG Communications, Inc.