幻覺度
」
全新模型「幻覺度比以前更高」 ChatGPT自己這樣說
OpenAI近日推出的新一代推理AI模型o3與o4-mini,這兩個模型雖在程式設計與數學領域展現更佳性能,卻在一項核心指標「幻覺度」上出現倒退。根據OpenAI內部測試與技術報告,這兩款新模型在處理任務時產生「幻覺」,也就是捏造或虛構資訊的頻率,竟高於先前的多數模型,包括o1、o1-mini與o3-mini,以及非推理導向的GPT-4o。根據《Tech Crunch》報導指出,在OpenAI使用的內部評估基準PersonQA中,o3模型對33%的問題產生幻覺,幻覺度的產生機率為o1的兩倍(16%),與o3-mini相比,也是高出兩倍多(14.8%);而o4-mini的表現更為誇張,其回答中竟有48%為幻覺。這一實測顯示,即便技術演進帶來某些任務表現的提升,在資訊準確性方面卻未必同步改善,甚至出現退步。OpenAI在其技術報告中坦言,雖然這兩款模型能生成更多正確主張,但同時也更常生成錯誤或虛假的說法,這可能與模型本身的輸出風格有關,即「更常主動發表結論」。對此,OpenAI表示「仍需更多研究」以釐清為何推理模型擴展後會導致幻覺比例上升。第三方非營利機構Transluce也進行獨立測試,結果與OpenAI觀察一致。Transluce研究員、前OpenAI員工喬杜里(Neil Chowdhury)表示,這可能與o系列模型採用的強化學習方式有關。推測強化學習放大了某些原可經標準後訓練流程弱化但無法完全消除的問題。在測試過程中,Transluce發現o3模型甚至會編造自身行動的過程。舉例而言,o3曾宣稱自己「在ChatGPT外部的2021年MacBook Pro上執行了程式碼」,並從中取得數字作為回答依據。這明顯與模型實際能力不符,因其並無法控制外部實體設備。除了虛構執行環境外,使用者也注意到o3在提供參考資源時存在缺陷。例如,史丹佛大學兼任教授、Workera執行長卡坦佛魯什(Kian Katanforoosh)在測試o3於實際程式碼工作流程時,雖肯定其整體表現超越市面競品,但也指出該模型常提供無法開啟的網站連結,降低了實用性。幻覺的出現,雖可能有助於模型展現創意與生成靈感,但對高度要求正確性的應用領域如法律、醫療或學術,卻是一大風險障礙。若AI系統在客戶合約中添加虛構條款、捏造引用來源,勢必會削弱用戶信任,使其無法被廣泛採用。報導中提到,為提升準確率,OpenAI已嘗試引入搜尋能力,例如具備網路搜尋功能的GPT-4o在另一項基準SimpleQA上達到90%準確率。儘管這種方法可望降低幻覺現象,但也須依賴使用者願意讓提示經由第三方搜尋引擎處理,牽涉隱私與資訊安全等議題。OpenAI發言人費利克斯(Niko Felix)表示,解決幻覺問題仍是公司重點研究方向之一,公司會持續投入資源改善模型的準確性與可靠性。而針對幻覺度一事,《CTWANT》實際詢問ChatGPT,ChatGPT也是很直接的表示「我其實不知道自己什麼時候在胡說。不像人類可以自省說『欸這我不太確定』,我的設計本質上就是盡量流暢地回答你,不管有沒有百分之百根據資料來生成。所以即使我看起來『自信滿滿』,也可能完全是亂湊出來的。」ChatGPT甚至希望用戶能夠多加督促,以此來減少在回應時產生幻覺的機會。ChatGPT針對回答產生幻覺一事的回應。(圖/翻攝自ChatGPT)
AI也有幻覺!檢測各家AI模型「幻覺度」 ChatGPT「3%錯誤」…這家巨頭竟然墊底
隨著生成式聊天機器人CahtGPT在全球的爆火,AI機器人可以說是開始逐步進入人們的日常生活中,不少人都會開始使用AI機器人來輔助自己的工作。但現在就有公司發明檢測AI,專門針對各家廠商的AI機器人進行內容「正確性」上的檢測,並且將各家機器人「幻覺度」進行排名,其中冠軍就是大家所熟知的ChatGPT,而排名最末的竟然是Google所推出的PalM 2。根據《toms hardware》報導指出,先前就有第三方研究機構在研究各家AI機器人之後,確定了AI機器人會有「幻覺(hallucinations)」的產生,AI機器人會憑空編造一些不存在的資訊來回答。先前其實就有傳出類似的案例,美國紐約律師事務所「Levidow, Levidow & Oberman」施瓦茨(Steven A Schwartz)就在一次訴訟中,提出由ChatGPT所撰寫的文件,而其中引用了6起步存在的案件當作判例,結果遭到對手公司法律團隊識破,更被法院要求解釋。而且根據研究人員的研究,他們發現短時間內似乎無法解決AI機器人產生幻覺的問題。研究AI科技的布朗大學教授文卡達蘇巴馬尼安(Suresh Venkatasubramanian)也表示,與其說AI機器人會虛構不存在的事情,還不如說,AI機器人所產生的回答比較像是小孩子隨口說出的故事,因為不懂得事情的真偽。為了釐清AI幻覺度的問題,新創公司Vectara就進行了一項研究,以各家廠商推出的AI機器人進行法律方面的測試,Vectara提供了800多份文件給AI,接著要求這些AI依照要求來進行文件的內容摘要,最後將AI生成的結果輸入到自己研發的檢測AI中。Vectara驗證各家AI準確度的排名。(圖/翻攝自Vectara GitHub)其中,GTP 4與GTP 4 Turbo的正確性為97%、幻覺度3%;GPT 3.5 Turbo的正確性為96.5%、幻覺度3.5%;Meta推出的Llama 2 70B正確性為94.9%、幻覺度5.1%;Llama 2 7B正確性為94.4%、幻覺度5.6%。其餘各家的AI機器人正確度均有90%以上,幻覺率也是10%以下。但在其中,Google所推出的PalM 2,其正確率為87.9%,幻覺率為12.1%;而PalM 2 Chat的正確率為72.8%,幻覺率為27.2%。