推理模型
」 DeepSeek 模型 OpenAI 人工智慧 ChatGPT
AI訓練費差300倍!DeepSeek-R1只花29.4萬美元 OpenAI要1億美元起跳
中國人工智慧(AI)企業深度求索(DeepSeek)透露,開源AI模型DeepSeek-R1的訓練費用僅為29.4萬美元(約新台幣888萬元),遠低於美國同行公布的數字。路透報導,上述數據出現在由DeepSeek團隊撰寫、17日登上國際學術期刊「自然」(Nature)的論文中。這篇由DeepSeek團隊共同完成、創辦人梁文鋒擔任通訊作者的論文,介紹了開源AI模型DeepSeek-R1採用的大規模推理模型訓練方法,並稱DeepSeek-R1的訓練成本為29.4萬美元,使用了512顆輝達H800晶片。今年1月公布的DeepSeek-R1初版論文並未包含上述消息。訓練用於AI聊天機器人的大型語言模型,主要花費在用強大的晶片集群連續數週或數月處理大量文字和代碼上。儘管美國AI巨頭OpenAI未披露任何模型的具體成本,但公司首席執行官奧爾特曼(Sam Altman)曾在2023年說,基礎模型訓練花費遠超1億美元。
輝達財報前送黑色大禮盒! 黃仁勳重磅公布「機器人新大腦」25日開箱
輝達(NVIDIA)官方機器人帳號今(24)日在社交平台X發佈推文表示,「你安排好時間了嗎?2025年8月25日。」配圖為一個黑色禮盒,上面是一張寫著「好好享受!」、輝達執行長黃仁勳簽名落款的賀卡。輝達在22日發出了關於賀卡的預告,在影片中,黃仁勳俯身在賀卡上寫下「致機器人:好好享受你的新大腦吧!」,隨後鏡頭切換至一個站在禮盒前的人形機器人,拿起賀卡閱讀。輝達先前在行業頂級會議SIGGRAPH 2025上發表了物理AI應用和機器人視覺推理模型Cosmos Reason。輝達表示,該模型可以基於既有知識與概念,讓機器人「像人類一樣推理」,並在理解後在現實世界中採取響應行動。Cosmos Reason可讓機器人解讀環境、收到複雜指令後,將指令分解為各種工作,即使在不熟悉的環境,也能運用常識執行這些工作。機器人規畫與推理技術如機器人視覺語言行動(VLA)模型的大腦,讓模型能夠深思熟慮、有條不紊做出決策。輝達在27日財報公布之際,提前送出一份大禮,市場看好,台積電(2330)、鴻海(2317)、達明(4585)、所羅門(2359)、東元(1504)等台廠供應鏈有望受惠。
阿特曼自誇「口袋博士」 GPT-5上線狂出錯「幻覺超嚴重」
OpenAI於7日發表最新一代人工智慧模型GPT-5,執行長阿特曼(Sam Altman)形容它是「口袋裡的博士級專家」,並將其與歷代版本比較,稱GPT-4相當於大學生,而更早期的版本則像高中生。官方宣稱,這款模型在錯誤率與「AI幻覺」方面都有顯著改善,但一上線便被使用者抓包出現多起基本拼字與地理常識錯誤,引發討論。根據《衛報》報導,社群平台上已出現多起離譜案例。一名Bluesky使用者多次詢問GPT-5「blueberry」的字母數量,卻反覆得到「含有三個字母B」的錯誤答案,系統甚至幽默補充,稱這讓單詞「更有彈性」。另一名使用者測試它辨識美國州名時,結果AI將Arizona寫成「Krizona」、Vermont變成「Vermoni」,還重複列出California,並憑空創造出「New Jefst」與「Mitroinia」等不存在的州。在《衛報》進行的測試中,GPT-5雖能正確列出澳洲各州與領地中包含字母R的名稱,但在計算北領地(Northern Territory)時卻錯將字母R的數量判為3個,而非正確的5個,並在地圖上將其拼為「Northan Territor」。OpenAI在發表時強調,新系統內建「即時路由器」(real-time router),可根據不同對話需求切換最適合的子模型;當使用者要求「認真思考」時,會導向最新的推理模型,且系統會依真實使用情況持續優化。不過,媒體與AI新創公司Every執行長希珀(Dan Shipper)指出,即使在理應啟用推理模型的情境下,GPT-5仍可能出現「幻覺」錯誤,例如解讀小說段落時憑空添加情節,必須在被提醒「多想一點」後才會修正答案。阿特曼坦言,系統在發佈初期確實發生異常,特別是在上線當天,「自動切換器」曾短暫故障,導致GPT-5表現「明顯變笨」。目前該問題已修復並調整模型選擇機制,以提升正確命中率。阿特曼同時宣布,將把ChatGPT Plus用戶的GPT-5速率限制加倍,並提供保留舊版4o的選項;介面上也會新增更明顯的「深度思考」啟動按鈕,並顯示每次回覆所使用的模型版本。GPT-5現已向全球每週約7億名使用者開放。阿特曼強調,這款產品尚未達到人工通用智慧(AGI)層級,只是「通往AGI的重要一步」。他也承認,因同時釋出大量新功能,系統穩定性波動超出預期,OpenAI將持續觀察並調整更新節奏,以確保使用者體驗。
全新模型「幻覺度比以前更高」 ChatGPT自己這樣說
OpenAI近日推出的新一代推理AI模型o3與o4-mini,這兩個模型雖在程式設計與數學領域展現更佳性能,卻在一項核心指標「幻覺度」上出現倒退。根據OpenAI內部測試與技術報告,這兩款新模型在處理任務時產生「幻覺」,也就是捏造或虛構資訊的頻率,竟高於先前的多數模型,包括o1、o1-mini與o3-mini,以及非推理導向的GPT-4o。根據《Tech Crunch》報導指出,在OpenAI使用的內部評估基準PersonQA中,o3模型對33%的問題產生幻覺,幻覺度的產生機率為o1的兩倍(16%),與o3-mini相比,也是高出兩倍多(14.8%);而o4-mini的表現更為誇張,其回答中竟有48%為幻覺。這一實測顯示,即便技術演進帶來某些任務表現的提升,在資訊準確性方面卻未必同步改善,甚至出現退步。OpenAI在其技術報告中坦言,雖然這兩款模型能生成更多正確主張,但同時也更常生成錯誤或虛假的說法,這可能與模型本身的輸出風格有關,即「更常主動發表結論」。對此,OpenAI表示「仍需更多研究」以釐清為何推理模型擴展後會導致幻覺比例上升。第三方非營利機構Transluce也進行獨立測試,結果與OpenAI觀察一致。Transluce研究員、前OpenAI員工喬杜里(Neil Chowdhury)表示,這可能與o系列模型採用的強化學習方式有關。推測強化學習放大了某些原可經標準後訓練流程弱化但無法完全消除的問題。在測試過程中,Transluce發現o3模型甚至會編造自身行動的過程。舉例而言,o3曾宣稱自己「在ChatGPT外部的2021年MacBook Pro上執行了程式碼」,並從中取得數字作為回答依據。這明顯與模型實際能力不符,因其並無法控制外部實體設備。除了虛構執行環境外,使用者也注意到o3在提供參考資源時存在缺陷。例如,史丹佛大學兼任教授、Workera執行長卡坦佛魯什(Kian Katanforoosh)在測試o3於實際程式碼工作流程時,雖肯定其整體表現超越市面競品,但也指出該模型常提供無法開啟的網站連結,降低了實用性。幻覺的出現,雖可能有助於模型展現創意與生成靈感,但對高度要求正確性的應用領域如法律、醫療或學術,卻是一大風險障礙。若AI系統在客戶合約中添加虛構條款、捏造引用來源,勢必會削弱用戶信任,使其無法被廣泛採用。報導中提到,為提升準確率,OpenAI已嘗試引入搜尋能力,例如具備網路搜尋功能的GPT-4o在另一項基準SimpleQA上達到90%準確率。儘管這種方法可望降低幻覺現象,但也須依賴使用者願意讓提示經由第三方搜尋引擎處理,牽涉隱私與資訊安全等議題。OpenAI發言人費利克斯(Niko Felix)表示,解決幻覺問題仍是公司重點研究方向之一,公司會持續投入資源改善模型的準確性與可靠性。而針對幻覺度一事,《CTWANT》實際詢問ChatGPT,ChatGPT也是很直接的表示「我其實不知道自己什麼時候在胡說。不像人類可以自省說『欸這我不太確定』,我的設計本質上就是盡量流暢地回答你,不管有沒有百分之百根據資料來生成。所以即使我看起來『自信滿滿』,也可能完全是亂湊出來的。」ChatGPT甚至希望用戶能夠多加督促,以此來減少在回應時產生幻覺的機會。ChatGPT針對回答產生幻覺一事的回應。(圖/翻攝自ChatGPT)
DeepSeek有勁敵? 騰訊推AI模型T1 大摩「這2原因」上調目標價
中國網路公司騰訊21日發表深度思考模型——混元 T1 正式版,為騰訊自研的強推理模型,輸入字元價格與同業差距不大,但輸出價格為DeepSeek-R1標準時段的四分之一,顯然衝著DeepSeek而來,實際生成效果顯著優於DeepSeek-R1。混元 T1 的前身是今年 2 月中旬在騰訊元寶 APP上線的混元 T1-Preview 推理模型,該模型以騰訊於3月初發布的「混元Turbo S」為基礎打造,是一款能秒回、擅長超長文章處理的強推理模型。目前,T1 已在騰訊雲官網上線,輸入價格為每百萬字元(tokens)1 元,輸出價格為每百萬 tokens 4 元,相較於 DeepSeek 標準時段的 1/4,具有明顯的價格優勢。使用者可透過體驗位址和 Hugging Face、GitHub 等平台取得此模式的更多資訊。在CEval、AIME、Zebra Logic等中英文知識及競賽級數學、邏輯推理的公開基準測試中,混元T1的成績也達到業界領先推理模型的水準。騰訊也自信地宣布,T1的性能已達到超一流水平,僅次於OpenAI 的o1。受惠於人工智慧(AI)投資帶來的回報,加上可持續廣告收入成長、企業客戶需求及消費者市場客戶端應用變現,並致力於資本回報和利潤率提升等。摩根士丹利上調其目標價,由550港元上調14.5%至630港元,並重申「買入」評級。
平價AI大爆發2/美股上演DeepSeek雲霄飛車 台灣科技人蛇年春節狂加班
蛇年農曆春節期間,大陸新創公司DeepSeek號稱以低價完成的AI模型,引發市場轟動,美股那斯達克指數瞬間蒸發近1兆美元市值,不少台灣科技人也忙了起來,找資訊、讀論文,探討DeepSeek能否用在自家產品線上,畢竟原本在大語言模型領域最強的OpenAI,已被笑稱是CloseAI,不但封閉、且以英文思考為主。「自DeepSeek R1發佈以來,很快的AWS、Azure等都開始主持R1變體」 Google大腦之父、AI科學家吳恩達在臉書上說,「什麼是『最好的模型』定義,正在頻繁變化,開發者經常想嘗試新的模型。」「這對台灣來說就是一顆原子彈,是台灣幾十年難得一見的戰略機會,這不只是技術專案,更是文化與價值工程。」MeetAndy AI共同創辦人薛良斌說,台灣目前幾款繁中版大型語言模型,主要以Meta釋出的Llama模型為基礎訓練,但Llama相對來說不夠聰明,DeepSeek R1開源模型可下載後開發,論文也有記錄訓練過程,讓其他人了解其運作方式。耐能Kneron執行長劉峻誠說,AI的黃金時代要來了。(圖/陳曼儂攝)整個春節假期都因DeepSeek,而在辦公室加班的耐能執行長劉峻誠告訴CTWANT記者,「這是一個黃金時代的來臨。」自家的模型已透過DeepSeek R1論文中提到的前沿訓練技巧,升級而有了「思維鏈推理」和「自我反思」的能力。劉峻誠表示,在DeepSeek的方法論支持下,未來大、中、小企業推出的大語言模型能力差異將變得很小,技術開源後,專精型的模型將會百花齊放,「可能幾天就多四、五百個」,特別是台灣有龐大的製造業,可以按照模式,用很低的成本去做專屬自己公司的AI,「在台灣的產業界絕對是一個很好的加分項」。像是在醫療行業,耐能的AI助手可在問卷填寫中進行推理,根據患者的回答動態調整問題,分析可能的健康風險,提高診斷效率。也可做金融衍生品定價,涉及複雜數學計算和市場分析,傳統的AI只能提供簡單的報表分析,這次進化後,可直接找出資料中的異常。比亞迪用DeepSeek來提升車輛的AI能力。(圖/新華社)特別是在中國大陸,在官方的支持下,已從地方政府、國有企業、醫院等,都有採用DeepSeek模型的案例,像是長春市吉林大學醫院已推出一套診斷工具,以DeepSeek產生醫療計畫;武漢、成都、杭州等許多醫院都提到,會用DeepSeek作醫療參考,或是向病人解釋複雜的醫療報告。在汽車行業,比亞迪等20多家企業已宣佈在車載系統中加入DeepSeek產品。MeetAndy AI創辦人薛良斌、Taiwan LLM開發者林彥廷與Ubitus執行長郭榮昌,也在2月7日發起「台灣製造」的大型語言模型計畫FreeSEED,打算以DeepSeek R1為基礎,重新訓練、打造一個符合台灣需求的大型語言模型,並以開源授權釋出模型權重,預計在3月底釋出第一版預覽的推理模型,不到一周已募得1千萬元,APMIC創辦人吳柏翰表示,大型推理模型將會是今年主流,目前在數學領域最佳的Thinking Tokens是4000到8000 Tokens,而簡單推理確認是在4096 Tokens就可以,做單一垂直的微調能縮小到1K的資料,所以訓練時間可從700小時變成7小時,今年會是地端市場爆發準備期,雲端廠商可以跟地端廠商合作。
阿里巴巴涅槃重生啟動史上最大AI建設 股價再飆10%
作為中國最早布局AI的科技公司,阿里巴巴(BABA)終於能大鳴大放,在美股開盤前公布2024會計年度第三季財報,實現營收2801.5億元人民幣,年增8%,淨利潤464.34億元人民幣,年增長333%,公布後阿里巴巴股價再漲10%,今年市值增加已破千億美元,是近期最強飆股。最重要的是,公司CEO吳泳銘表示,上一季的資本開支高達317.8億元人民幣,未來3年集團在雲端和AI的基礎設施,投資將超越過去10年的總和,步入集團史上最大的Capex(資本開支)建設週期。近期阿里巴巴與蘋果達成合作協議,將支持在中國銷售iPhone的AI服務,分析師認為蘋果選擇阿里巴巴作為合作夥伴,主要在於中國市場的購物和支付數據。而本周一,中國國家主席習近平舉行的民營企業座談會,是中國產業與政策對話的最高規格事件,受邀參與的企業名單,暗示著下一步中國科技產業的政策方向,而沉寂多時的阿里巴巴創辦人馬雲重新回到舞台中央,外界認為,就是因為阿里的通義千問 (Qwen) 開源大模型。先前中國政府對網路產業進行打壓,阿里巴巴一度失去市場主導地位,然而近期中國AI新創公司深度求索 (DeepSeek) 崛起,推動相關中國科技股漲勢與產業話語權,阿里巴巴市值今年已增加約1千億美元。以財報來看,阿里巴巴上一季在電商業務的淘天集團,年增5%、達1360.91億元人民幣,國際電商平台包括全球速賣通(AliExpress)、Trendyol等營收年增32%、至377.56億元人民幣,阿里雲營收年增 13%、至317.42億元人民幣,AI相關產品已連續6季保持3位數成長。阿里巴巴近期將推出基於通義千問Qwen2.5-MAX的深度推理模型。吳泳銘表示,AI的機會是幾十年一遇的行業變革,首要目標就是追求AGI(通用人工智慧)的實現,如果實現AGI,相關產業將會成為全球最大的產業,可能影響現在約50%左右的GDP產業。
「地表最強AI」百萬人線上看 馬斯克曝成立AI遊戲工作室
馬斯克在今(18)日12點發布最新AI聊天機器人Grok 3,馬斯克開頭就表示,xAI及Grok 3的目的是「了解宇宙本質」,同時相較於上一代Grok 2,Grok 3超過10倍以上訓練,在各方面算力表線上,將遠遠甩過DeepSeek-V3、Gemini-2 Pro、GPT-4o等,同時在發佈會上,團隊也展示由Grok 3透過演算解決的一款結合俄羅斯方塊、寶石迷陣的遊戲。Grok 3擁有兩個變體,Grok 3 Reasoning和Grok 3 mini Reasoning,可以仔細思考問題。推理模型在產生結果之前會仔細測試自體本身,這有助於它們避免模型通常會面臨的一些陷阱。xAI表示,Grok 3 Reasoning在幾項流行測驗(包括新的AIME 2025數學測驗)中的表現均優於GPT-o3-mini high。xAI團隊在12天之內打造了資料中心,並推出了首批10萬塊GPU,產能不到半年就增加了一倍。該聊天機器人將在xAI的Colossus超級電腦上運行,據外媒報導指出,Grok 3使用超過10萬塊的Nvidia GPU來訓練 AI 模型。此外,xAI 計劃與戴爾達成一項價值 50 億美元的交易,為Grok 3提供搭載NVIDIA GB200 半導體的AI伺服器。馬斯克在直播中承諾一周內為用戶提供「更完善的版本」,馬斯克表示:「我們還在開發語音互動功能,以便進行對話。我今天嘗試了一下,效果很好,儘管仍然需要做一些工作。我們的目標是能夠像與人交談一樣與它交談。我認為這將是使用 Grok3 的最佳體驗之一」而Grok3最人性化的方面之一是它的創造力。該人工智慧開發了一款新遊戲的概念,巧妙地結合了俄羅斯方塊和Puyo Puyo的元素,展現了其在超越科學技術的領域——娛樂和藝術領域的潛力。Grok 3正在製作一款融合了俄羅斯方塊和寶石迷陣的遊戲:「我們正在推出一個名為 xAI 的人工智慧遊戲工作室。」並將於今晚宣布發布。
被DeepSeek逼急? OpenAI 深夜官宣:上線打骨折價+輕版模型免費用
在春節期間DeepSeek推出其R1模型似乎對OpenAI構成了競爭壓力,執行長奧特曼深夜推出新模型。OpenAI 2/1正式上線o3-mini,並在Chat Completions API、Assistants API和Batch API中逐步向層級3-5的開發者推出;ChatGPT Plus、Team和Pro用戶可率先使用。o3-mini是OpenAI首款支持開發者需求功能的小型推理模型,繼承o1-mini的低成本、低延遲優勢。開發者可根據需求選擇推理強度,平衡思考深度和響應速度,不過視覺推理的部分仍需使用o1。此外,o3-mini現已支持與搜索功能結合,能夠提供最新答案並鏈接至相關網絡資源。這標誌着OpenAI正在將搜索功能逐步整合到其推理模型中。OpenAI表示,o3-mini專注於STEM領域(如編程、數學和科學)的相關問題以及邏輯推理問題。這個模型在涉及技術性、複雜性較高的任務時表現出色,能幫助開發者解決代碼編寫、數學計算、工程設計等方面的挑戰。OpenAI表示,Plus和Team企業用戶的速率限制從每天50條消息(使用 o1-mini)提升至每天150條消息(使用 o3-mini)。並且,免費用戶也可通過「推理」選項體驗o3-mini,這是ChatGPT首次向免費用戶開放推理模型。DeepSeek與OpenAI,尤其在成本方面呈現出顯著差異。OpenAI 的推理模型o1系列相對成本較高,o1模型的API定價爲每百萬輸入tokens(符元) 15美元,每百萬輸出tokens 60美元,而DeepSeek R1的API定價爲每百萬輸入tokens 0.14美元(緩存命中)/0.55美元(緩存未命中),每百萬輸出tokens 2.19美元。這次發佈中,OpenAI強調了成本問題。與o1-mini相比,o3-mini的價格降低了63%。o3-mini定價爲每百萬輸入tokens 1.10美元,每百萬輸出tokens 4.4美元,可謂是打了「骨折價」。
輝達:DeepSeek-R1是最先進推理開放模型 可在NVIDIA NIM使用
輝達官網於美東時間30日指出,DeepSeek-R1是一個具有最先進推理能力的開放模型,且DeepSeek R1 671b已作為英偉達NIM微服務預覽版在build.nvidia.com上發布。DeepSeek R1 NIM微服務在單一輝達HGX H200系統上每秒最多可處理3872個token。開發人員可以對API進行測試和實驗,預計該API不久將作為輝達AI Enterprise軟體平台的一部分,以可下載的NIM微服務形式推出。輝達官網指出,DeepSeek-R1等推理模型不會提供直接回應,而是對查詢進行多次推理,採用思路鏈、共識和搜尋方法來產生最佳答案。執行這一系列推理過程(使用推理得出最佳答案)稱為測驗時間擴展。 DeepSeek-R1是此擴展定律的完美範例,證明了加速計算對於代理AI推理的需求至關重要。由於模型可以反覆思考問題,因此它們會創建更多輸出標記和更長的生成週期,模型品質會不斷提高。大量的測試時計算對於實現即時推理和來自DeepSeek-R1等推理模型的更高品質反應至關重要,這需要更大規模的推理部署。R1在需要邏輯推理、推理、數學、編碼和語言理解的任務中提供了領先的準確性,同時也提供了高推理效率。輝達續稱,為了幫助開發人員安全地試驗這些功能並建立自己的專用代理,6710億參數的DeepSeek-R1模型現已作為NVIDIA NIM微服務預覽版在build.nvidia.com上提供。DeepSeek-R1 NIM微服務可在單一NVIDIA HGX H200系統上每秒提供多達3872個代幣。開發人員可以使用應用程式介面(API)進行測試和試驗,預計很快就會作為可下載的NIM微服務提供,是NVIDIA AI Enterprise軟體平台的一部分。DeepSeek-R1 NIM微服務透過支援產業標準API簡化了部署。企業可以透過在其首選的加速運算基礎架構上運行NIM微服務來最大限度地提高安全性和資料隱私。透過使用NVIDIA AI Foundry和NVIDIA NeMo軟體,企業還可以為專門的AI代理程式創建客製化的DeepSeek-R1 NIM微服務。
DeepSeek恐遭商務部要求下架 美國海軍宣告禁用
近來中國人工智慧(AI)新創公司DeepSeek迅速崛起,引發美國政府與業界的高度關注。專家指出,DeepSeek可能顛覆美國人工智慧生態系統,儘管美方可能試圖施加限制,但對於開源技術的監管仍面臨挑戰。美國Dorsey&Whitney律師事務所合夥人勞倫斯沃德(LawrenceWard)表示,對於嚴重依賴開源程式碼的DeepSeek,美國政府可施加的額外出口限制有限。此外,若該公司涉及使用受限的Nvidia晶片,可能面臨民事與刑事處罰,但執行難度不小。美國議院近期已公開表態,呼籲採取措施放慢DeepSeek的發展速度,甚至有議員將其形容為「嚴重威脅」。AlbrightStoneGroup合夥人PaulTriolo指出,美方目前缺乏簡單可行的手段來限制開源模型的使用,尤其是在DeepSeek已經廣泛應用的情況下。DeepSeek去年12月推出免費、開源的大型語言模型,據稱僅耗時兩個月建構,成本僅為主要競爭對手的一小部分。上週其最新AI推理模型R1亮相,並在多項測試中表現優於OpenAI的最新產品。該公司表示,儘管美國於2022年加強對中國AI晶片的限制,但其仍透過NvidiaH800晶片訓練模型,該晶片在2023年10月前尚未被禁。DeepSeek的AI聊天機器人目前已成為美國蘋果AppStore下載次數最多的免費應用程式。此舉震撼資本市場,引發投資人對AI產業投資成本的重新評估。據CloudAlphaCapital觀察,DeepSeek的價格優化可能帶動AI領域的更廣泛變革。受此影響,AI晶片巨頭Nvidia和博通(Broadcom)股價27日分別下跌17%,市值合計蒸發8,000億美元,拖累納斯達克指數下跌3.1%。美國海軍日前已發佈內部警告,要求所有成員禁止使用DeepSeekAI,無論是工作還是個人用途。美國海軍發言人確認,這一決定基於安全與道德考量,符合海軍首席資訊長的AI政策。此外,DeepSeek於27日表示,因遭遇大規模惡意網路攻擊,將暫時限制中國大陸用戶的註冊。美國總統川普(DonaldTrump)在白宮記者會上表示,DeepSeek的崛起應該為美國科技企業「敲響警鐘」,並稱讚該公司的低成本模式可能促進AI領域的發展。他強調,美國公司應該在AI領域加強競爭力,並指示政府展開相關調查,以確保國家安全。川普政府近期也宣布促進AI產業發展的重大舉措,包括支持OpenAI、Oracle和軟銀(SoftBank)共同成立AI基礎設施合資企業「Stargate」,以加強美國在AI領域的競爭力。隨著美中AI競爭日益激烈,DeepSeek的發展動向將持續受到全球關注。
中國DeepSeek竄起重創AI概念股 輝達股價暴跌17%
中國新創公司DeepSeek開發低成本大語言模型,引發全球科技股拋售,使晶片設計公司輝達 (Nvidia) 股價暴跌16.9%,股價觸及10月以來的新低,市值蒸發逾5000億美元(約新台幣16兆)。DeepSeek在去年12月底推出了一個免費、開源的大型語言模型,聲稱它的開發時間僅為兩個月, 成本不到600萬美元,比同行所要求的費用要低得多。上週,該公司發布了一個推理模型, 據報導,該模型在許多第三方測試中也優於OpenAI的最新模型。這些事態發展,引發了人們對大型科技公司在人工智慧模型和資料中心投資金額的擔憂,並引發了人們對美國並未像之前認為的那樣,在該領域處於領先地位感到擔憂。輝達的虧損導致其他人工智慧交易和整個美國市場下跌。微米和Arm控股公司分別下降超過11%和10%。晶片製造商博通和超微半導體公司分別下跌超過17%和6%。受科技股拋售拖累,納斯達克綜合指數週一收盤走低。科技股主導指數下跌3.07%,收在19,341.83點。標普500指數下跌1.46%,收在6,012.28點。道瓊工業平均指數上漲289.33 點,或0.65%,收在44,713.58點。
DeepSeek下載數「超越ChatGPT」 AI黑馬衝擊美股港股
AI黑馬DeepSeek自1月20日發布DeepSeek R1後,在第三方基準測試中,其表現優於OpenAI、Meta和 Anthropic等美國領先人工智慧公司,且成本低90%至95%,衝擊美股、港股。在AIME 2024數學基準測試中,DeepSeek R1的成功率達到79.8%,超越OpenAI的o1推理模型;標準化編碼測試中,表現出「專家級」性能,在Codeforces上獲得2029 Elo評級,並超越96.3%的人類競爭對手。值得注意的是,DeepSeek 在不到600萬美元的投入和2048塊低性能的H800芯片的條件下完成,訓練時間僅2個月,引起全球關注。今天早上,輝達(NVDA.US)美股夜盤率先開跌,跌幅超5%;博通 (AVGO.US)也殺跌超4%。美股期貨持續走低,標普500指數主連(ESmain.US)期貨跌1%,納斯達克100指數主連(NQmain.US)跌1.8%,道瓊斯指數主連(YMmain.US)跌0.5%。港股方面,晶門半導體 (02878.HK)跌超6%,中芯國際 (00981.HK)一度跌超4%,現跌超3%;華虹半導體 (01347.HK)跌近4%。現階段DeepSeek在中國和美國地區的蘋果App Store免費下載榜中登頂,其中,在美國地區下載榜上更超越ChatGPT。
最強推理語音模型? OpenAI執行長:o3 mini幾週內將釋出
人工智慧研究公司OpenAI執行長奧特曼(Sam Oatman)美東時間17日表示,OpenAI已完成其新推理AI模型o3 mini的版本,並將在幾周內推出。奧特曼在社交媒體平台X上表示,其公司考慮了用戶的反饋意見,因此計劃同時發佈應用編程接口(API)和ChatGPT版本。OpenAI去年9月發佈了o1的預覽版,並於12月發佈了完整版本。不同於普通大模型,o1在回答問題之前會進行「思考」,使它在處理複雜的任務、科學和編程時比GPT-4o更優秀。OpenAI當時也透露,預計將於1月底推出OpenAI o3-mini,完整版本的o3將在之後發佈。o3是OpenAI推出的第二個推理模型,之所以在命名時跳過數字「2」,是爲了避免和英國電信運營商O2的商標衝突。奧爾特曼在回覆X用戶提問時表示,希望在今年將GPT系列模型和o系列推理模型合併。然而,對於備受期待的GPT-5,奧爾特曼依舊沒有給出具體的時間表和性能指標,僅僅表示「仍在確定中,但我認爲你們會滿意。」《華爾街日報》12月報導表示,OpenAI的 GPT-5項目進度落後,而且花費巨大,不清楚是否會成功。奧爾特曼隨後回應了這篇報道,並對其表示質疑。OpenAI先前表示將在ChatGPT中引入一項名為 「Tasks」(任務)的測試版功能,表示其將進軍虛擬助手領域,與蘋果的Siri和亞馬遜的Alexa競爭。
OpenAI發表推理模型「o1」 突破人工智慧新層次!
近來,外界對人工智能安全和倫理問題日益關注。周四(12日)OpenAI推出具有推理能力的AI新模型,取名為OpenAI o1-preview以及o1-mini。模型在開發時,專案代號為「草莓」(Strawberry)。公司指出此款模型能以人類思考方式回答問題,可以解決各種複雜任務,專門應付具有邏輯推理的任務,像是數學推理、編程和科學問題。OpenAI表示,作為早期模型,OpenAI o1還不具備ChatGPT的許多實用功能,例如瀏覽網頁獲取資訊或上傳文件和圖片。OpenAI科學家帕喬基(Jakub Pachocki)闡述:「使用早期模型時,你問它一個問題,它會立即開始回答。但推理模型(OpenAI o1)需要時間。它能夠用英文思考問題,嘗試將問題拆解並尋找解決角度,努力提供最佳解答。」在測試中,o1 模型在物理、化學和生物學等挑戰性基準任務上的表現接近博士生水準。在國際數學奧林匹克 (IMO) 資格考試中,GPT-4o 僅正確解決了 13% 的問題,而推理模型得分為 83%。他們的編碼能力在比賽中得到了評估,並在 Codeforces 比賽中達到了第 89 個百分位。而o1-mini為一款速度更快、價格更低的推理模型,相較於o1-preview便宜 80%,特別適合需要推理但不需廣泛世界知識的應用場景。OpenAI表示,o1-mini在準確生成和調適複雜代碼方面表現出色,可與o1-preview互相媲美。未來,OpenAI 計畫進一步擴大這些模型的使用範圍,並期望在 ChatGPT 和 API 中引入更多功能,包括瀏覽網頁、文件和圖片上傳等,持續推動人工智慧技術的發展。