
DeepSeek 最新發表的 Engram 技術論文引起了業界高度關注。這項技術的核心理念在於將簡單的靜止知識(static knowledge)從極其昂貴的 GPU 記憶體中遷移到成本相對低廉的 CPU RAM(主機記憶體)中。當前的 Transformer 架構在處理簡單事實檢索時,往往會浪費大量的計算深度,DeepSeek 則透過引入「條件記憶」(conditional memory)概念,將其與 Mixture-of-Experts (MoE) 架構結合。這意味著模型在面對動態邏輯時啟動專家模組,而面對固定知識時則執行稀疏查找(sparse lookup)。
根據技術報告,DeepSeek 成功將一個擁有 1000 億參數的嵌入表完全卸載至主機記憶體,且其吞吐量損失低於 3%。為了進一步優化性能,開發團隊利用了 Zipfian distribution 原則,將高頻訪問的數據緩存於 GPU 記憶體,而將低頻的「長尾」數據存儲於高容量存儲設備中。這種「架構感知的效率優化」被認為是應對當前 HBM(高頻寬記憶體)短缺與 GPU memory walls 的關鍵解方,展現出中國企業在受限硬體環境下極致榨取效能的研發趨勢。
在全球市場格局方面,RAND Corporation 的最新研究指出,儘管美國 AI 模型如 ChatGPT、Gemini 與 Claude 目前仍佔據約 93% 的全球網頁流量,但這種領先地位並不穩固。報告分析 Similarweb 數據發現,DeepSeek R1 的推出曾一度讓中國模型的全球份額在兩個月內從 3% 躍升至 13%,且主要增長點來自俄羅斯、非洲及中東等發展中國家。RAND 警告,用戶對 AI 平台的忠誠度極低,切換成本極小,效能一旦出現微小差距,市場份額便可能迅速重新洗牌。
為了更真實地評估這些模型的長期性能,加州大學聖地牙哥分校(UCSD)的研究團隊採用了經典桌遊《龍與地下城》(Dungeons & Dragons, D&D)作為測試基準。這項測試挑戰了模型的多步規劃、規則遵循與團隊策略能力。評測結果顯示,Claude 3.5 Haiku 在穩定性與決策品質上表現最為優異,GPT-4 緊隨其後,而 DeepSeek-V3 在長程決策與角色維持方面的表現則相對遜色。研究指出,這反映出模型在面對極長上下文與社會互動時仍存在落差。
在數據生態方面,企業與開發者的態度也出現了顯著的分歧。Hostinger 的最新分析顯示,目前有超過 80% 的企業網站積極封鎖如 GPTBot 等用於模型訓練的爬蟲,以保護其知識產權。然而,針對搜尋輔助用途的 SearchBot 或 Applebot,其覆蓋率卻在過去半年內翻倍。專家提醒,全面封鎖訓練機器人可能導致企業失去其在模型「參數化知識」(Parametric Knowledge)中的存在感,未來 AI 在生成回答時可能因此缺乏該品牌的正確事實,進而影響品牌的 AI 可見度。
資本市場也反映了這一波架構轉型的趨勢。Nvidia 雖仍是訓練晶片的霸主,但其與 Groq 簽署的 200 億美元授權協議,標誌著戰場正加速轉向「推理(inferencing)」領域。台積電(TSMC)宣布增加 2026 年資本支出以應對旺盛需求,但軟體股卻因市場擔心 generative AI 提升效率可能減少「按人頭收費」的授權收入(per-seat licensing)過度樂觀而出現回調。市場的焦點正從通用的 Copilots 轉移到能自主執行任務的「AI Agents」,這將是 2026 年技術落地競爭的最高殿堂。
2026-01-23
本文由網路蒐集並透過 AI 生成