DeepSeek 掀起多模態 AI 革命：從因果視覺編碼到劍指 Google 的 Agent 搜尋引擎

DeepSeek 正在以一種前所未有的速度重新定義全球 AI 產業的邊界。這家來自中國的 AI 新星，不僅憑藉其高效的 DeepSeek-R1 模型震撼市場，近期更連續發布多項核心技術與戰略計畫，從 DeepSeek-OCR 2 的視覺理解突破，到劍指 Google 的多模態搜尋引擎，甚至是引發美國國會高度關注的地緣政治風暴，都顯示出 DeepSeek 已成為當前 AI 領域最具影響力的變量。

DeepSeek 近期正式發布了 DeepSeek-OCR 2，這是一套開源的文檔理解系統，其核心在於引入了 DeepEncoder V2 架構。傳統的多模態模型通常將圖像攤平成固定的光柵序列（從左上到右下），這在處理複雜的多欄布局、嵌套表格或混合語言文檔時效果欠佳。DeepSeek-OCR 2 則採用了 Causal Visual Flow Encoder（因果視覺流編碼器），讓模型能以更接近人類掃描頁面的「因果順序」來讀取內容。該系統由一個 3B 總參數量的 MoE（混合專家模型）組成，每個 token 僅需 500M 的活躍參數，卻在 OmniDocBench v1.5 等基準測試中展現出超越 Gemini-3 Pro 的結構化數據解析能力。這種極致的效率讓 DeepSeek 能夠在更小的計算預算下，實現對複雜學術論文與報紙排版的高精度解析。

除了 OCR 的技術跨越，DeepSeek 的徵才資訊顯示，該公司正秘密研發一款多模態 AI 搜尋引擎。這款搜尋引擎將打破傳統關鍵字搜尋的局限，允許用戶直接輸入手機螢幕截圖、語音錄音或照片進行查詢。這標誌著 DeepSeek 正式進入 Google 的核心腹地，試圖將搜尋從單純的「資訊檢索」轉化為「任務執行」。根據消息，該系統將整合 Persistent Agents（持續性代理），這類 Agents 不僅能找尋資訊，還能自主呼叫外部工具來預訂機票、比較價格或執行複雜的軟體操作。DeepSeek 藉由降低模型訓練成本的效率優勢，正在打造一個將搜尋作為協調層的全新生態系統。

然而，DeepSeek 的崛起也伴隨著巨大的地緣政治爭議。美國眾議院中國特別委員會主席 John Moolenaar 近期致函美國商務部，指控 Nvidia（輝達）曾向 DeepSeek 提供技術支援。信中指出，Nvidia 工程師協助 DeepSeek 優化了演算法與硬體效率，使其能在受限的計算資源下（僅使用 278.8 萬 GPU 小時）訓練出強大模型。這引發了華盛頓的強烈不安，因為這意義著美國的出口限制可能無法阻擋中國縮短 AI 差距。對此，Nvidia 回應稱中國已有足夠的國產芯片用於軍事，限制民用領域的標準技術支援並不合理。儘管 Moolenaar 承認當時 DeepSeek 被視為合法的商業夥伴，但後續有關 DeepSeek 技術可能與軍事用途掛鉤的指控，已讓這家公司深陷美中科技戰的漩渦。

在 DeepSeek 掀起波瀾的同時，基於 Agentic AI（代理人工智慧）的草根運動也能在全球開發者社區中迅速蔓延，其中以 OpenClaw（原名為 Clawdbot 與 Moltbot）最具代表性。這款開源 AI 助手在 GitHub 上迅速突破 18 萬顆星，並衍生出名為 Moltbook 的「Agent 社交網絡」，讓人類觀察 Agents 之間的自主對話。然而，這種極致的權限開放也帶來了嚴重的安全風險。安全研究人員透過 Shodan 掃描發現，超過 1,800 個暴露在網路上的 OpenClaw 實例正外洩 API 金鑰、聊天記錄與帳戶憑證。這類 Agents 通常具備讀取郵件、操作系統文件與外部通訊的能力，一旦安全防禦體系出現漏洞，Agents 就可能成為駭客執行「語義攻擊」的工具，繞過傳統的防火牆與 DLP 監測。

隨著技術從雲端走向終端，Rokid 等硬體廠商也宣布將與領先的中國大語言模型開發商合作，推出下一代 AI Agent 眼鏡，試圖將 DeepSeek 等強大模型的理解能力植入穿戴式裝置中。從 DeepSeek 研發的 DRAM-based engram（旨在降低 AI 運行成本的技術）到多模態搜尋與 Agent 安全架構的角力， AI 領域正進入一個從「靜態理解」轉向「動態執行」的關鍵轉折點。對於科技企業與安全防禦團隊而言，如何在獲取 Agent 帶來的生產力增益時，同時應對隱私外洩與地緣政治帶來的連鎖反應，將是未來兩年最重要的課題。

2026-02-04
本文由網路蒐集並透過 AI 生成