AI concepts explained by builders, not textbooks. No jargon walls. No academic gatekeeping. Just clear, practical definitions of the terms you'll actually encounter.
協助開發者撰寫、審查、除錯與部署程式碼的人工智慧工具。從自動補全(GitHub Copilot、Codeium)到完全自主開發(Claude Code、Cursor、Devin),程式碼助手代表了大型語言模型(LLMs)最成熟且廣泛採用的應用之一。它們透過根據您程式碼庫、文件和說明的上下文來預測程式碼的下一個 tokens 來運作。
利用 AI 來執行以往需要人工介入的任務。這範圍從簡單的自動化(自動分類電子郵件、生成報告)到複雜的自主工作流程(AI 代理程式進行研究、撰寫、測試和部署程式碼)。從傳統自動化(僵硬的規則)轉向 AI 自動化(彈性的智慧)的關鍵在於,AI 能處理模糊且非結構化的任務。
自動化是AI採用的經濟引擎。每一家採用AI的企業,其實是在購買自動化—更少的人從事重複性工作、更快的處理速度、全天候運作。問題不是AI是否會自動化任務,而是哪些任務、多快完成,以及從事這些任務的人們會發生什麼事。
引導人工智慧開發、部署與使用的架構、政策、法律與組織實踐。這包括政府規範(歐盟AI法案、行政命令)、產業自律(負責任擴展政策、model cards)、企業治理(AI倫理委員會、使用政策),以及國際間在AI安全標準上的協調。
在不損害個人數據的情況下建立和使用人工智慧系統的挑戰。這涵蓋整個生命周期:可能包含私人資訊的訓練數據、可能記憶並重現個人細節的模型、追蹤用戶行為的推論日誌,以及人工智慧能力(隨數據增加而提升)與隱私權之間的根本矛盾。
每一次與AI的對話都是數據。每一次你生成的圖片都會暴露出你的提示詞。每一次你總結的文件都會經過某人的伺服器。隱私不只是法律上的勾選框(GDPR、CCPA)—它是一個信任問題,這決定了個人和企業是否會採用AI來處理敏感工作。
保護AI系統免受對抗性攻擊、數據污染、提示注入、模型竊取與濫用的實踐—同時防禦深度偽造(deepfakes)與自動化網絡攻擊等AI啟用的威脅。AI安全位於傳統網絡安全與機器學習系統所引發的獨特弱點的交界處。
用於大規模訓練和部署AI模型所需的完整堆疊硬體、軟體與服務。這包括GPU與客製化晶片、資料中心、網路、儲存、編排平台(Kubernetes、Slurm)、模型服務框架(vLLM、TensorRT)以及整合所有資源的雲端服務供應商。AI基礎設施正是模型架構的抽象世界與電力系統和冷卻系統等具體世界交會之處。
AssemblyAI 讓語音轉文字技術真正對開發者開放,將原本需要專屬機器學習團隊才能完成的任務,簡化為單一 API 呼叫。他們的 Audio Intelligence 架構 — 結合語音轉譯、說話者辨識、情感分析與 LLM 驅動的摘要功能 — 正在將原始音訊轉換為結構化且可操作的資料,其規模之大,甚至是兩年前都難以實現的。在語音逐漸成為 AI 代理程式預設介面的世界裡,AssemblyAI 正在建立所有其他技術所依賴的理解層。
Anthropic 證明了一家 AI 公司可以以安全研究為先導,同時仍能在技術前沿競爭。他們的 Constitutional AI 方法影響了整個產業對對齊問題的思考方式,其 Responsible Scaling Policy 設定了一個模板,其他實驗室以各種形式採用,而 Claude 已成為需要可靠性與謹慎處理敏感內容的企業的首選模型。或許最重要的是,Anthropic 作為一家資金充足的競爭者存在,確保通往 AGI 的競賽不會成為一家公司的獨角戲 — 並確保至少有一家主要參與者將安全編織在其創立基因中,而非事後補上的考量。
阿里巴巴雲已將通義千問打造成亞洲部署最廣的開放權重模型家族,並成為與Meta的Llama真正競爭的全球級模型,證明具備前沿能力的模型可以來自矽谷以外。他們結合開放模型釋出、龐大的雲端基礎設施與ModelScope生態系統,為開發者—尤其是受美國出口管制影響的市場—提供一個可信賴且高品質的西方AI平台替代方案。
一個能夠自主規劃並執行多步驟任務的人工智慧系統,使用工具(網頁搜尋、程式碼執行、API 呼叫)來達成目標。與只能一次回答一個問題的簡單聊天機器人不同,代理會根據迄今所學來決定下一步該做什麼。
Agents 是連結「會說話的 AI」與「會做事的 AI」的橋樑。當你的 AI 能夠自行瀏覽文件、撰寫程式碼並進行測試,而無需你在每一步都親自指導 — 這就是 Agent。
讓AI系統以符合人類價值和意圖的方式運作的挑戰。一個對齊的模型會執行你真正想表達的內容,而不仅仅是字面上的字句 — 即使沒有明確被告知不要這樣做,也能避免有害的行為。
軟體之間進行溝通的結構化方式。在 AI 領域中,這通常表示將請求(您的提示)傳送至服務供應商的伺服器,並接收回應(模型的輸出結果)。透過 HTTPS 的 REST API 是標準做法。
每一家 AI 提供商 — Anthropic、Google、Mistral — 都透過 API 提供其模型。如果你所構建的 AI 應用超出聊天視窗的範疇,你就正在使用 API。
Transformers 中的核心機制,讓模型能夠權衡輸入中哪些部分彼此之間最相關。與較早期的模型從左到右閱讀文字不同,注意力機制讓每個詞彙可以同時「檢視」其他所有詞彙,以理解上下文。
注意力機制正是現代大型語言模型(LLM)之所以能理解「bank」在「river bank」與「bank account」中意義不同的原因。這也是為什麼更長的上下文視窗成本更高—注意力機制的計算量會隨著序列長度呈二次方增長。
字節跳動是全球最有價值的私營科技公司,以規模部署AI技術,少有組織能與之比擬,透過TikTok、抖音以及不斷擴展的AI驅動產品組合,每日服務超過十億用戶。他們的Doubao模型家族與火山引擎雲平台,使他們在基礎模型競賽中成為一股不可小觑的力量,背後擁有大多數AI新創公司只能夢寐以求的資源:龐大且盈利的核心業務,以及內建的十億用戶分發渠道。
Black Forest Labs 代表了開源 AI 的最佳案例:Stable Diffusion 的原始開發者以更先進的技術、更聰明的商業策略,以及創意社群的信任重新出發。FLUX.1 不僅僅是在 Stable Diffusion 上進行迭代 — 它直接跳過了舊有技術,而他們率先提出的分層授權模式,正逐漸成為 AI 公司在開放性與營收之間取得平衡的藍圖。
用來評估和比較AI模型的標準化測試。基準測試會衡量特定能力—推理(ARC)、數學(GSM8K)、程式設計(HumanEval)、一般知識(MMLU)—並產生可跨模型比較的分數。
人工智慧領域專注於讓機器能夠解釋和理解來自世界的視覺資訊——圖片、視頻、3D場景和文件。
核心任務包括物件偵測、影像分類、分割、OCR與姿勢估計。
運用AI來大規模偵測與過濾有害、非法或違規的內容。這包括文字分類(恨意言論、垃圾訊息、威脅),影像分析(NSFW檢測、CSAM),以及影片審查。現代系統會結合AI分類器與人工審查,但AI本身所產生的內容數量正造成審查危機—如今你必須用AI來審查AI。
每個擁有使用者產生內容的平台都需要內容管理,而AI是應對規模的唯一方法。但內容管理比看起來更困難——語境至關重要,文化規範也各不相同,誤判的假陽性會壓制合法言論,而假陰性則讓傷害得以通過。
Cohere代表了在由千兆美元規模的超大雲端服務商與面向消費端的前沿實驗室主導的時代,專注於企業優先的AI公司是否能獨立蓬勃發展的最清晰測試案例。他們源自Transformer論文的技術血統賦予了他們真正的技術可信度,其部署彈性解決了受監管產業的真實痛點,而他們的embedding與rerank模型已成為全球生產級RAG系統的首選工具。如果AI的未來不再聚焦於聊天機器人,而是更多地融入每一個商業流程的基礎設施,Cohere將處於極其重要的地位。
要求「解釋你的推理過程」不只是為了透明度—事實上,這會讓模型變得更聰明。早期研究顯示,CoT可將數學錯誤減少高達50%。目前大多數現代模型都會在內部進行此操作。
上下文視窗大小決定了你可以做什麼。總結整個程式碼庫?需要大規模的上下文。快速提問回答?小規模就夠了。但規模更大不一定更好—模型在非常長的上下文中可能會失去焦點。
垃圾進來,垃圾出去。在Reddit上訓練的模型與在科學論文上訓練的模型對話方式會有所不同。這就是我們為Sarah精心整理自己的語料庫的原因—通用的網頁爬蟲產生了混亂且不連貫的結果。
用以容納伺服器、GPU、網路設備與冷卻系統等硬體設施,這些設施用於訓練與運行人工智慧模型。現代人工智慧資料中心專為大規模平行運算而設計,耗電量可達兆瓦級,且需要專業冷卻系統。單一前沿模型的訓練作業可能需要整個設施中數千個GPU運行數個月。
數據中心是AI時代的工廠。每次對Claude的查詢、Midjourney產生的圖片、Runway產生的影片,都依賴這些建築物內的硬體設備運行。全球AI就緒數據中心容量的短缺,是AI成長最大的限制之一—也是最大的投資機會之一。
DeepL 是專注於 AI 的公司能夠在核心能力上持續超越數兆美元競爭對手的最佳證明。在這個通常規模越大越好的領域,DeepL 對 Google 和 Microsoft 的翻譯品質優勢仍然可衡量且具意義,尤其是在歐洲語言和專業應用場景中。他們的成功挑戰了通用型 AI 模型最終會使專業任務商品化的假設 — 對於數以十萬計依賴精準跨語言溝通的企業而言,這種專業化是值得付費的。
Decart AI 展示了大多數人認為還需數年才能實現的技術:一個神經網絡即時生成可玩、互動的三維世界,而無需傳統遊戲引擎的參與。他們的 Oasis 演示是原生 AI 世界模擬的一個概念驗證,這項技術的影響遠超遊戲領域——從自動駕駛到機器人技術,再到空間計算。如果即時世界模型能達到生產級的實際應用,Decart 最早關於推論優化與互動生成的研究將成為基礎。
中國AI實驗室於2025年初以DeepSeek-R1震撼業界,該推理模型僅需極低的訓練成本即可匹敵前沿實驗室。由量化對沖基金High-Flyer資助。
一種生成模型,透過從純噪音開始,逐步去除噪音,直到產生連貫的輸出(如圖片、影片或音訊)。該模型學習反轉將噪音添加到真實數據的過程。Stable Diffusion、DALL-E 3 和 Midjourney 都採用此方法的變體。
用來衡量AI模型表現的方法。這遠遠超出基準測試—它包括人工評估(讓人類評分輸出結果)、A/B測試(在真實流量中比較模型)、紅隊測試(對抗性測試)、特定領域測試(醫療準確性、程式碼正確性),以及社群排行榜(Chatbot Arena、LMSYS)。良好的評估難度甚至高於建立模型本身。
若無法衡量,便無法改進。但AI評估獨特地困難,因為任務是開放式的,品質主觀。基準測試常被操縱,人工評估成本高昂,而紙上得分最高的模型,往往在實際應用中並非最佳選擇。建立良好的評估方法是一種超能力。
嵌入向量是語義搜索和 RAG 的基礎。它們讓 AI 能夠理解,即使沒有單字重疊,搜尋 “fix login bug” 應該能匹配到關於 “authentication error resolution” 的文件。
在整合AI供應商時,端點就是關鍵所在。每個供應商都有自己獨特的架構方式,這也正是Zubnet等平台存在的原因—為混亂的狀況建立統一標準。
一個基於廣泛資料訓練的大型模型,作為許多不同任務的基礎。Claude、GPT、Gemini 和 Llama 都是基礎模型。它們之所以被稱為「基礎模型」,是因為可以適應幾乎任何任務——寫作、程式設計、分析、影像理解——而不需要為每個任務進行特定訓練。
Google DeepMind 對現代 AI 的基礎研究貢獻比任何其他單一組織都還要多 — Transformer 架構、強化學習的突破性研究、蛋白質結構預測與規模定律等,皆可追溯至 DeepMind 或 Google Brain 的團隊。他們的 Gemini 模型是唯一內建真正全球分發功能的前沿大型語言模型 (LLM),透過搜尋、Android 與 Google Workspace 服務數十億用戶。而 AlphaFold — 這項解決了生物學界沿襲五十年難題、並榮獲諾貝爾獎的技術 — 其本身已足以讓他們在科學史,而不僅僅是 AI 史上佔有一席之地。
一種模型架構,其中兩個神經網絡相互競爭:生成器產生假資料,而判別器試圖分辨真假。透過這種對抗訓練,生成器會變得更擅長產生逼真的輸出。從2014年至約2022年主導影像生成技術。
GPU 是整個 AI 產業的物理瓶頸。為什麼模型價格如此之高,為什麼有些供應商更快,為什麼會有全球性的晶片短缺 — 這一切都歸咎於 GPU 的供應和 VRAM。
扎根是對抗幻覺的主要防禦措施。無依據的模型會自信地編造事實。有依據的模型會指引你到可驗證的真实來源。
防止 AI 模型生成有害、不適當或離題內容的安全機制。這些安全機制可以在模型訓練期間內建(如 RLHF),透過系統提示進行應用,或由外部過濾器在內容傳達給用戶前進行檢查與強制執行。
專注於生成寫實對話頭像與自動口型同步配音的AI視頻平台。被企業用於行銷、培訓和本地化——將一個視頻轉換為數十種語言,並搭配同步的口型動作。
HeyGen 將 AI 視頻人偶從研究興趣轉變為真正的企業工具,證明了讓視頻內容創作變得像寫文件一樣簡單的過程中,確實存在可實現的收入。他們的唇形同步配音技術對全球企業具有特別意義—大幅降低視頻本地化的成本和時間,從數週和數千美元縮短到分鐘和幾美分。作為少數擁有穩定經常性收入的 AI 視頻公司之一,HeyGen 也成為了如何在生成式 AI 上建立真正商業模式的案例研究,而不僅僅是一個演示。
HiDream 展示了小型且專注的團隊可以開發出開放權重的影像模型,其表現足以與那些在訓練基礎設施上投入數個數量級資源的機構競爭。其模型在文字渲染與組合準確度上的優勢,解決了阻礙 AI 生成影像商業應用的實際痛點。在影像模型快速商品化的開放環境中,HiDream 的成功強化了這樣的模式:下一次品質的飛躍可能來自任何地方 — 不只是擁有最多 GPU 的最大實驗室。
Humе之所以重要,是因為他們正在解決現代AI中最明顯的盲點:情感理解。目前每一個聊天機器人、語音助手和AI代理基本上都是對語氣毫無感知,只回應文字的字面內容,卻忽略了人類本能依賴的情感語境。Humе的Empathic Voice Interface是第一個在生產規模上真正嘗試彌合這個缺口的創新,而他們堅持為情感AI制定倫理準則,也樹立了產業最終將被迫採納的標準。
Ideogram證明了解決單一關鍵弱點——AI生成圖片中的可讀文字——可以在競爭激烈的圖片生成領域中開拓出獨特的市場定位。他們從文字渲染專門技術到完整設計平台的演進,展現了當技術差異化針對真實工作流程痛點時,便能與資金更充足的競爭對手一較高下。
運行經過訓練的模型以生成輸出的過程。訓練是學習;推論是應用所學到的知識。每次你向Claude發送提示或使用Stable Diffusion生成圖片時,這就是推論。這就是消耗服務提供商GPU小時數以及你按每個token支付費用的環節。
Jina AI 建立了嵌入式與檢索基礎設施,數千個 RAG 系統皆依賴此基礎設施,證明了專注於搜尋工具的開發,比試圖做所有事情更有價值。他們的長文脈嵌入模型與 Reader API 解決了 AI 驅動搜尋中兩個最困難的實際問題 — 忠實地表示長文件,並從混亂的網頁中提取乾淨的文本 — 同時他們還保持核心模型開源。在由通才實驗室主導的生態系統中,Jina 展示了專注於一件事並做到極致,同時讓開發者使用起來極為簡易,這確實是一個真實的商業模式。
澳洲AI影像平台,在Midjourney與Stable Diffusion之間佔據一席之地。因其經過微調的模型、即時畫布以及專注於可直接用於製作的創意資源,廣受遊戲開發者與數位藝術家歡迎。
Leonardo.ai 展示了 AI 圖像生成可以被包裝成專業創意平台,而不僅僅是新奇的提示工具,並證明這樣做可以吸引數千萬用戶。他們專注於遊戲開發與數位藝術工作流程,開拓了 Midjourney 和 DALL-E 等更廣泛工具並未特別針對的應用場景。Canva 的收購驗證了整個 AI 圖像生成領域作為主要設計平台策略性資產的地位,並設定了獨立 AI 工具如何被納入更大創意生態系統的範本。
Liquid AI代表了對「Transformer是唯一重要的架構」這個假設最嚴肅的資金支持挑戰。他們透過建立基於生物啟發連續時間動力學的生產等級基礎模型,正在測試AI產業對注意力機制的全面押注是否過早。即使LFMs無法徹底取代Transformer,其在邊緣部署與長序列處理上的效率優勢,仍可能在機器人、行動AI與嵌入式系統等市場中開闢關鍵利基——這些市場裡運行一個700億參數的Transformer根本不可行。
Luma AI 讓 AI 視頻生成平民化,就像 Stable Diffusion 讓圖像生成平民化 — 透過讓所有人都能透過瀏覽器免費、快速且輕鬆使用。他們從 3D 採集新創公司演進為領先的視頻生成公司,再加上在空間理解方面獨特的技術深度,使他們成為少數真正能彌合 AI 視頻、3D 內容與未來沉浸式媒體格式之間差距的公司之一。
傳送請求與收到第一個回應之間的延遲。在 AI 領域,這通常以「首次 Token 產生時間」(Time to First Token,TTFT)— 模型開始串流回答之前需要多長時間來衡量。受模型大小、伺服器負載、網絡距離和提示長度影響。
一種透過大量文本訓練的神經網絡,用以理解和生成人類語言。「大型」指的是參數數量(十億級)與訓練數據規模(兆級別的 token 數量)。Claude、GPT、Gemini、Llama 和 Mistral 都屬於 LLM。
LLMs 是您所使用的每一項 AI 聊天、程式碼助手和文字生成器的技術基礎。了解它們的本質(統計模式匹配器,而非有感知能力的生物)能幫助您更有效地使用它們,並認識其限制。
讓AI模型能夠保留並回憶超越單次對話資訊的機制。這包括上下文記憶(使用上下文視窗)、外部記憶(RAG、向量資料庫)、持續對話記憶(記住用戶在不同會話中的偏好),以及工作記憶(在多步驟代理任務中維持狀態)。記憶正是讓AI感覺像協作者而非無狀態工具的關鍵。
在MCP出現之前,每項AI工具整合都是客製化的。MCP代表只要開發一次的工具,就能與任何相容的AI搭配使用。目前已支援Claude、Cursor等工具。這就是AI從聊天機器人轉變為真正助手的方式。
用來讓AI模型更快、更小、更便宜或更準確的一系列廣泛技術。這包括訓練優化(混合精度、梯度檢查點、數據並行)、推論優化(量化、剪枝、蒸餾、預測解碼)和服務優化(批次處理、緩存、負載平衡)。優化技術讓你能在筆電上運行14B參數的模型。
強化學習是 AI 學習如何行動的方式,而不僅僅是預測—它是能夠回答問題的模型與能夠達成目標的智能體之間的橋樑。任何需要規劃、策略制定或長期最佳化的 AI 系統,皆有強化學習的血脈。
AI模型能夠逐步思考、分解複雜問題,並得出邏輯嚴謹的結論。現代推理模型(如OpenAI的o1/o3與DeepSeek-R1)在回答前會經過訓練以生成明確的推理過程,大幅提升了在數學、程式設計與邏輯任務上的表現。這與單純的模式匹配不同——推理模型可以解決從未見過的問題。
Reka證明了一支規模小、專注於研究且具備適當資歷的團隊,即使沒有數十億資金,也能打造出尖端級別的多模態模型 — 並顯示原生多模態架構從頭開始訓練,其表現可超越大多數較大實驗室所採用的接駁式方法。他們從成立到被Snowflake收購的快速發展軌跡,也揭示了企業數據平台如今對AI人才產生的強大吸引力,暗示多模態AI的未來可能將在數據基礎設施公司內實現,而非獨立研究實驗室中。
先驅的AI視頻生成公司。共同創建了最初的Stable Diffusion架構,之後轉向視頻領域,其Gen系列模型確立了AI電影製作工具的最新技術水準。
Runway 是將 AI 視頻生成從研究興趣轉化為電影製作工具的公司,以持續推出模型的速度,即使資金雄厚的競爭對手進入這個領域,仍能保持在技術前沿。他們以創意工具為先的基因——源自藝術家,而不僅僅是工程師——使他們對專業工作流程有深入理解,這一點純粹的研究機構難以複製。他們選擇投注於建立一個綜合性平台,而非僅僅開發一個模型,這或許會成為正確的長遠戰略。
刻意嘗試讓AI模型失敗、行為不當或產生有害輸出的實踐方式。紅隊會探測潛在漏洞:越獄、偏見、錯誤資訊生成、隱私洩漏等。此名稱源自軍事推演中「紅隊」扮演敵對方的傳統。
你無法解決你不知道的問題。紅隊測試(red teaming)是供應商發現其模型會在你要求它「寫一個關於鎖匠的故事」時,解釋如何開鎖的方法。這是在每次重大模型發布前進行的關鍵安全工作。
StepFun證明了中國的人工智慧生態系統可以從零開始孕育出真正的競爭對手,而不僅僅依賴現有的科技巨頭。他們的Step模型在國際基準測試中持續表現超出其實力,而他們快速拓展至多模態與視頻生成領域,也顯示出組織良好的新創公司即使資源相對有限,也能涵蓋廣泛的能力範疇。對全球人工智慧市場而言,StepFun代表了那種讓中國獨立AI新創生態無法被忽視的公司——技術實力雄厚、具備國際化導向,且前進速度足夠迅速,讓規模更大的競爭對手不敢掉以輕心。
專門設計自訂晶片(RDUs)用於 AI 工作負載的人工智慧硬體公司。他們的 SambaNova Cloud 提供目前最快的推理速度,與 Groq 在「speed-first」方法上競爭。
SambaNova 的重要性在於 NVIDIA 應該不是 AI 計算領域中唯一的玩家,而且需要有人證明專為 AI 設計的晶片能夠在現實市場中競爭,而不僅僅停留在研究論文裡。他們的 RDU 架構證明了當你專門為神經網絡工作負載設計矽晶片時,可以實現有意義的效能提升,而他們的雲端推理服務則讓開發者一窺後 GPU 時代 AI 基礎設施的樣貌。無論 SambaNova 本身是否會成為主導的替代方案,它與 Groq、Cerebras 以及雲端供應商的客製化晶片所帶來的競爭壓力,對一個無法負擔永久硬體單一文化的產業來說,都是健康的。
印度的人工智慧公司正在開發特別針對印度語言多樣性進行最佳化的模型。他們的模型能夠流暢處理印地語、泰米爾語、泰盧固語、孟加拉語等其他印度語言,達到全球模型一直難以應對的流暢度。
Sarvam AI 是對全球 AI 產業大多忽略的一個問題最可信的解答:究竟誰在為實際上被全球五分之一人口使用的語言建立基礎模型?Sarvam 深植於印度 AI 研究社群、政府合作,並擁有專為印度語言多樣性設計的產品架構,代表著一個商業機會與戰略要務。他們的成功或失敗將標誌 AI 革命是否真正實現全球化,還是僅僅停留在以英語為首、強行附加翻譯的現象。
讓任何人都能透過文字提示創作完整的歌曲——人聲、樂器、製作——的AI音樂生成公司。數個月內從無人知曉成長至數百萬用戶,迫使音樂產業正面應對AI創造力的挑戰。
Transformers 的替代方案,透過維持壓縮的「狀態」來處理序列,而非對所有 token 使用注意力機制。Mamba 是最著名的 SSM 架構。SSMs 的序列長度擴展為線性(與注意力機制的二次方相比),使其在處理非常長的上下文時可能更加高效。
在對話開始時給予模型的一個特殊指示,用以設定其行為、性格和規則。與用戶訊息不同,系統提示語應具備持久性和權威性 — 它定義了此會話中模型的身分。「你是一個有助益的程式編寫助手。請始終使用 TypeScript。」
系統提示是不進行微調即可自訂 AI 行為的主要工具。企業就是藉由此方式讓 Claude 做為客服專員、程式碼審查員或醫療資訊助理 — 相同模型,不同系統提示。
微信背後的中國科技巨擘,也是全球最大的遊戲公司之一,並逐漸成為生成式AI領域的重要力量。其Hunyuan模型驅動著騰訊龐大的生態系統中的各項功能,服務超過十億用戶。
騰訊在AI領域之所以重要,原因與其在其他領域之所以重要相同:規模與分發能力。憑藉微信達成13億用戶,以及橫跨所有主要平台的遊戲帝國,騰訊能以比地球上幾乎任何公司都更快的速度,將AI功能部署到更多人手中。其Hunyuan模型,尤其是HunyuanVideo已證明,企業集團的AI實驗室可以產出真正具競爭力的作品,而不僅僅是可用的內部工具。對全球AI生態系統而言,騰訊開放源碼釋出的視頻與語言模型提高了自由可用技術的基準,而其基礎設施投資確保了中國的人工智慧能力,即使面對晶片出口限制,仍保持強大。
Twelve Labs 正在建立讓全球視頻內容變得可被機器讀取的基礎設施。在視頻在數位溝通中佔據主導地位,但卻仍無法被 AI 搜索的時代,他們專為此設計的 embedding 與生成模型解決了一個連最大的前沿實驗室也僅 superficially 解決的問題。如果視頻是網際網路的主導媒介,那麼能夠在大規模生產環境中破解視頻理解的人,將會擁有類似 Google Search 對於文字所擁有的戰略地位。
Tripo 代表了讓 AI 生成的 3D 內容實際應用於生產環境的最前沿技術。雖然大多數 AI 3D 生成技術所產生的資產仍需要大量手動清理,Tripo 則是一直專注於網格品質、正確的拓撲結構,以及與實際工作流程的整合 — 那些不那麼吸引眼球的工程,正是區分研究展示與專業人士願意付費使用的工具的關鍵。當空間運算與即時 3D 內容的需求急劇增加時,率先解決生產級生成問題的公司將能佔據龐大的市場份額。
一個控制模型輸出隨機性或確定性的參數。溫度值為 0 時,模型會始終選擇機率最高的下一個 token(確定性、專注)。溫度值為 1+ 時,模型會更願意選擇機率較低的 token(創造性、不可預測)。大多數 API 的預設值約為 0.7。
AI模型處理文字的基本單位。一個 token 通常是單字或單字片段 — 「understanding」可能是單個 token,而「un」+「der」+「standing」則可能是三個。平均來說,一個 token 大約相當於英文單字的 3/4。模型會以 token 為單位進行讀取、運算與計費。
Transformer 是讓現今 AI 風潮成為可能的架構。GPT、Claude、Gemini、Llama、Mistral — 它們的實際運作方式都是基於 Transformer。了解這種架構有助於理解為什麼模型會有這些能力與限制。
Upstage 展示了要建立世界級語言模型並不需要百億參數。Solar 10.7B 在開放測試中表現卓越,挑戰了當前「規模就是一切」的主流觀點,並證明創新的訓練技巧可以彌補原始規模的不足。除了模型本身,Upstage 的 Document AI 作品解決了 AI 生態系統中最實用的缺口之一 — 將混亂的現實世界文件轉換為結構化數據 — 他們在首爾的成功證明,有意義的人工智慧創新正在遠離主導頭條新聞的矽谷與北京走廊之外蓬勃發展。
語音是最自然的人類介面,而 AI 終於讓它變得可程式化。語音 AI 支援從客服機器人到有聲書敘述,再到即時會議語音轉文字等各項應用。語音克隆的倫理影響 — 同意、身分、詐騙 — 使這成為 AI 領域中最敏感的領域之一。
Vidu 展示了中國人工智慧實驗室在 Sora 發佈後數個月內即可達到西方視頻生成品質,重塑了人們對 AI 視頻技術前沿實際存在於何處的假設。他們對物理一致性和多鏡頭一致性的專注推動了整個領域的發展,迫使競爭對手優先考慮寫實性而非視覺效果。對於更廣泛的 AI 視頻市場而言,Vidu 的積極定價策略與 API 可用性也幫助降低了開發成本,並提高了全球開發人員的使用門檻。
GPU 上的記憶體,與系統記憶體 (RAM) 無關。AI 模型必須符合 VRAM 容量才能在 GPU 上運行。一個 70 億參數模型在 16 位元精準度下需要約 14GB 的 VRAM。消費級 GPU 有 8-24GB;資料中心 GPU(A100、H100)有 40-80GB。VRAM 通常是本地 AI 的瓶頸。
全球最大的消費電子公司之一,現正自行開發AI模型。MiLM驅動小米手機、智慧家居設備與電動車等生態系統中的各項功能 — 為未來十億用戶的AI解決方案。
小米代表了AI如何觸及下一個十億用戶最具說服力的案例——不是透過獨立的聊天機器人應用程式或開發者API,而是無形地嵌入人們已經擁有的設備中。擁有數億台活躍設備,涵蓋手機、穿戴裝置、家用電器,甚至現在的電動車,小米可以以純AI公司無法匹敵的規模與親密度部署AI。他們以生態系統為先的策略,預示了AI將成為環境基礎設施,而非你主動選擇使用的產品,而他們在新興市場的主導地位,也意味著這個未來將觸及那些前沿AI實驗室鮮少考慮的人群。
智譜AI縮小了中國學術研究與商業AI之間的差距,推出開放源碼模型—尤其是在視頻生成領域的CogVideoX—已在全球範圍內獲得實際應用。他們的GLM 架構與清華大學的背景賦予他們深厚的技術信譽,使他們成為少數幾個其研究成果在國際上被廣泛引用並作為基礎進行開發的中國AI公司。
零樣本學習是指讓模型在沒有任何範例的情況下執行任務—僅僅根據指令。少量示例則是在實際請求前,在提示中提供少量的輸入-輸出範例。例如:「這裡有3個如何格式化此數據的範例……現在請處理這個。」模型僅從上下文中學習模式,無需進行訓練。
少樣本提示是教導模型新格式或行為最快的方式。需要一致的 JSON 輸出嗎?展示三個範例。需要特定的寫作風格嗎?提供範例。這是一種免費、即時且出人意料強大的方法。