Zubnet AILearn › Wiki

AI Wiki

AI concepts explained by builders, not textbooks. No jargon walls. No academic gatekeeping. Just clear, practical definitions of the terms you'll actually encounter.

128 terms 8 categories Updated March 2026
No terms match your search.
A
ASI
人工超級智慧
基礎
一種理論上的AI系統,其認知能力在幾乎所有領域都超越所有人類——科學推理、社會智慧、創造力、戰略規劃等等。ASI超越AGI(與人類智慧相當)達到質的差異:一種能夠遞歸自我改進、解決人類甚至無法明確表述問題的智慧。目前尚無任何ASI存在,科學界尚未就是否能夠或將會建造出ASI達成共識。
為什麼重要: ASI 是 AI 安全成為存在性問題之處。如果你相信超級智慧是可能的,那麼對齊不僅僅是讓聊天機器人變得有禮貌——而是確保一個比全人類都聰明的系統仍然符合我們的利益。這屬於推測性領域,但風險足夠高,使得嚴肅的研究人員對其非常重視。理解 ASI 可幫助你以更細膩的方式評估關於 AI 風險的主張。
AGI
通用人工智慧
基礎
一個假設性的AI系統,能夠理解、學習並執行人類所能進行的任何智慧行動——具備跨領域知識轉移能力,無需針對每個領域進行特定訓練。與目前擅長處理特定任務(生成文字、分類影像)的AI不同,AGI將能處理新情境、進行抽象推理,並適應任何挑戰。AGI是即將到來、數十年後出現,還是根本不可能,是該領域中最富爭議的議題。
為什麼重要: AGI是整個AI產業的北極星(或鬼魅)。它驅動數十億美元的投資,影響安全研究的優先順序,並主導政策辯論。無論你是否認為AGI已經近在咫尺,這個概念都定義了像Anthropic、OpenAI和DeepMind這樣的公司如何定義他們的使命——理解這場辯論能幫助你區分真正的進步與炒作。
AI 程式編寫助手
程式碼 Copilot、AI IDE
工具

協助開發者撰寫、審查、除錯與部署程式碼的人工智慧工具。從自動補全(GitHub Copilot、Codeium)到完全自主開發(Claude Code、Cursor、Devin),程式碼助手代表了大型語言模型(LLMs)最成熟且廣泛採用的應用之一。它們透過根據您程式碼庫、文件和說明的上下文來預測程式碼的下一個 tokens 來運作。

為什麼重要: AI程式輔助工具是AI對知識型工作影響中最尖端的應用。使用它們的開發者報告指出,在例行任務上的生產力提升了30-50%。但同時也會虛構不存在的API—引入細微錯誤—並可能使開發者依賴他們不完全理解的工具。
自動化
AI 自動化、工作流程自動化
工具

利用 AI 來執行以往需要人工介入的任務。這範圍從簡單的自動化(自動分類電子郵件、生成報告)到複雜的自主工作流程(AI 代理程式進行研究、撰寫、測試和部署程式碼)。從傳統自動化(僵硬的規則)轉向 AI 自動化(彈性的智慧)的關鍵在於,AI 能處理模糊且非結構化的任務。

為什麼重要:

自動化是AI採用的經濟引擎。每一家採用AI的企業,其實是在購買自動化—更少的人從事重複性工作、更快的處理速度、全天候運作。問題不是AI是否會自動化任務,而是哪些任務、多快完成,以及從事這些任務的人們會發生什麼事。

AI 網路安全
AI 安全、AI 威脅偵測
安全
AI在網路安全中的雙重應用:使用AI來防禦系統(威脅檢測、異常檢測、自動化事件回應),以及AI所創造的新攻擊向量(AI生成的魚叉式詐騙、自動化漏洞發現、對機器學習系統的對抗性攻擊)。這個領域正處於一場軍備競賽中,攻擊者和防禦者都越來越依賴AI。
為什麼重要: AI 使現有的網絡威脅變得更快、更便宜 — 由大型語言模型(LLM)撰寫的魚叉式詐騙郵件更具說服力,且個性化成本為零。但 AI 也讓一些手動無法實現的防禦措施成為可能,例如每秒分析數百萬個網路事件以偵測異常。不使用 AI 的安全團隊將會敗給那些使用 AI 的攻擊者。
AI 治理
AI 監管、AI 政策
安全

引導人工智慧開發、部署與使用的架構、政策、法律與組織實踐。這包括政府規範(歐盟AI法案、行政命令)、產業自律(負責任擴展政策、model cards)、企業治理(AI倫理委員會、使用政策),以及國際間在AI安全標準上的協調。

為什麼重要: 科技的發展速度遠快於規則的制定。企業正將人工智慧產品推出至醫療保健、刑事司法和金融領域,幾乎沒有監管。治理正是試圖在某件事情壞到足以引發足以讓整個領域倒退的反彈之前,先行設定界線。
AI 隱私
AI 資料隱私、ML 隱私
安全

在不損害個人數據的情況下建立和使用人工智慧系統的挑戰。這涵蓋整個生命周期:可能包含私人資訊的訓練數據、可能記憶並重現個人細節的模型、追蹤用戶行為的推論日誌,以及人工智慧能力(隨數據增加而提升)與隱私權之間的根本矛盾。

為什麼重要:

每一次與AI的對話都是數據。每一次你生成的圖片都會暴露出你的提示詞。每一次你總結的文件都會經過某人的伺服器。隱私不只是法律上的勾選框(GDPR、CCPA)—它是一個信任問題,這決定了個人和企業是否會採用AI來處理敏感工作。

AI 安全
LLM 安全、AI 安全工程
安全

保護AI系統免受對抗性攻擊、數據污染、提示注入、模型竊取與濫用的實踐—同時防禦深度偽造(deepfakes)與自動化網絡攻擊等AI啟用的威脅。AI安全位於傳統網絡安全與機器學習系統所引發的獨特弱點的交界處。

為什麼重要: AI系統同時是強大的工具與全新的攻擊面。一次提示注入可能導致您的客服機器人泄漏內部資料。一個被毒化的訓練資料集可能插入後門。當AI被部署於關鍵基礎設施、醫療保健與金融領域時,安全不再是選項——而是存亡關鍵。
AI 定價
Token 定價、API 定價
基礎設施
AI 供應商如何對其模型的使用收費。主流模式是按 token 定價 — 您需為所傳送(輸入)與接收(輸出)的 token 數量付費,輸出的 token 通常費用是輸入的 3 到 5 倍。其他模式包括按次收費、每月訂閱、承諾使用折扣與免費層級。價格戰異常激烈,兩年內成本已下降 10 到 100 倍。
為什麼重要: 價格決定了你能建立什麼。每天進行10,000次API呼叫的應用程式,其存亡取決於每個token的成本。理解定價模型、比較服務供應商、並優化token使用量,是任何開發AI驅動產品的人的核心技能。
AI 基礎設施
AI 基建、ML 基礎設施
基礎設施

用於大規模訓練和部署AI模型所需的完整堆疊硬體、軟體與服務。這包括GPU與客製化晶片、資料中心、網路、儲存、編排平台(Kubernetes、Slurm)、模型服務框架(vLLM、TensorRT)以及整合所有資源的雲端服務供應商。AI基礎設施正是模型架構的抽象世界與電力系統和冷卻系統等具體世界交會之處。

為什麼重要: 基礎設施決定什麼是可能的。只有少數公司能夠訓練尖端模型的原因不是缺乏想法——而是缺乏基礎設施。而 AI 對終端用戶的費用之所以如此,直接追溯到 GPU 可用性、資料中心容量以及推論服務效率。
AssemblyAI
Universal-2 語音辨識、音訊智能
公司
Speech AI公司正在建立開發者友好的API,用於語音轉文字、說話者檢測與語音理解。他們的Universal-2模型在準確度上與OpenAI Whisper匹敵,同時內建說話者分離、情緒分析與主題檢測等功能。
為什麼重要:

AssemblyAI 讓語音轉文字技術真正對開發者開放,將原本需要專屬機器學習團隊才能完成的任務,簡化為單一 API 呼叫。他們的 Audio Intelligence 架構 — 結合語音轉譯、說話者辨識、情感分析與 LLM 驅動的摘要功能 — 正在將原始音訊轉換為結構化且可操作的資料,其規模之大,甚至是兩年前都難以實現的。在語音逐漸成為 AI 代理程式預設介面的世界裡,AssemblyAI 正在建立所有其他技術所依賴的理解層。

Anthropic
Claude、憲法式 AI、MCP
公司
AI安全公司Anthropic正在開發Claude。該公司由前OpenAI研究人員戴里奧與丹妮拉·阿莫迪共同創立,專注於開發可靠、可解釋且可導向的AI系統。
為什麼重要:

Anthropic 證明了一家 AI 公司可以以安全研究為先導,同時仍能在技術前沿競爭。他們的 Constitutional AI 方法影響了整個產業對對齊問題的思考方式,其 Responsible Scaling Policy 設定了一個模板,其他實驗室以各種形式採用,而 Claude 已成為需要可靠性與謹慎處理敏感內容的企業的首選模型。或許最重要的是,Anthropic 作為一家資金充足的競爭者存在,確保通往 AGI 的競賽不會成為一家公司的獨角戲 — 並確保至少有一家主要參與者將安全編織在其創立基因中,而非事後補上的考量。

阿里雲
通義千問、Qwen 系列模型
公司
阿里巴巴集團旗下的雲端計算部門,以及 Qwen 模型家族的開發者。Qwen 模型採用完全開放權重,支持多語言,並在目前可取得的開放模型中功能最強。
為什麼重要:

阿里巴巴雲已將通義千問打造成亞洲部署最廣的開放權重模型家族,並成為與Meta的Llama真正競爭的全球級模型,證明具備前沿能力的模型可以來自矽谷以外。他們結合開放模型釋出、龐大的雲端基礎設施與ModelScope生態系統,為開發者—尤其是受美國出口管制影響的市場—提供一個可信賴且高品質的西方AI平台替代方案。

智能體
AI Agent、智能代理
工具

一個能夠自主規劃並執行多步驟任務的人工智慧系統,使用工具(網頁搜尋、程式碼執行、API 呼叫)來達成目標。與只能一次回答一個問題的簡單聊天機器人不同,代理會根據迄今所學來決定下一步該做什麼。

為什麼重要:

Agents 是連結「會說話的 AI」與「會做事的 AI」的橋樑。當你的 AI 能夠自行瀏覽文件、撰寫程式碼並進行測試,而無需你在每一步都親自指導 — 這就是 Agent。

安全

讓AI系統以符合人類價值和意圖的方式運作的挑戰。一個對齊的模型會執行你真正想表達的內容,而不仅仅是字面上的字句 — 即使沒有明確被告知不要這樣做,也能避免有害的行為。

為什麼重要: 一個技術上卓越但對齊不良的模型,就像一個天才員工,卻太字面地遵循指示。對齊研究正是模型會拒絕危險請求並努力成為真正有幫助的原因。
API
應用程式介面
基礎設施

軟體之間進行溝通的結構化方式。在 AI 領域中,這通常表示將請求(您的提示)傳送至服務供應商的伺服器,並接收回應(模型的輸出結果)。透過 HTTPS 的 REST API 是標準做法。

為什麼重要:

每一家 AI 提供商 — Anthropic、Google、Mistral — 都透過 API 提供其模型。如果你所構建的 AI 應用超出聊天視窗的範疇,你就正在使用 API。

注意力
注意力機制、自注意力
模型

Transformers 中的核心機制,讓模型能夠權衡輸入中哪些部分彼此之間最相關。與較早期的模型從左到右閱讀文字不同,注意力機制讓每個詞彙可以同時「檢視」其他所有詞彙,以理解上下文。

為什麼重要:

注意力機制正是現代大型語言模型(LLM)之所以能理解「bank」在「river bank」與「bank account」中意義不同的原因。這也是為什麼更長的上下文視窗成本更高—注意力機制的計算量會隨著序列長度呈二次方增長。

B
Bria
授權訓練資料、企業級圖像生成
公司
以色列的人工智慧公司,僅使用獲得授權且標明來源的訓練數據來建立其影像生成模型,定位為企業在需要AI生成視覺內容時的首選方案——無版權風險。
為什麼重要: Bria 是最顯著的測試案例,用以驗證是否能在完全授權的訓練數據上建立 AI 圖像生成技術,同時在商業上具競爭力。在面臨版權訴訟雪崩的產業中,他們的方法為企業提供了一條採用生成式 AI 的途徑,而無需承擔法律風險——這個價值主張隨著針對競爭對手的每一項新訴訟而變得更具說服力。如果 Bria 成功,將驗證整個負責任的人工智慧開發哲學;如果它遇到困難,則暗示市場最終並不在乎數據來源,也不願為此支付高價。
字節跳動
豆包、TikTok、AI 驅動的推薦系統
公司
母公司為TikTok,也是全球最有價值的科技公司之一。其AI實驗室開發了Doubao模型家族,並驅動每日服務超過十億用戶的推薦演算法。
為什麼重要:

字節跳動是全球最有價值的私營科技公司,以規模部署AI技術,少有組織能與之比擬,透過TikTok、抖音以及不斷擴展的AI驅動產品組合,每日服務超過十億用戶。他們的Doubao模型家族與火山引擎雲平台,使他們在基礎模型競賽中成為一股不可小觑的力量,背後擁有大多數AI新創公司只能夢寐以求的資源:龐大且盈利的核心業務,以及內建的十億用戶分發渠道。

Black Forest Labs
FLUX.1 系列模型
公司
由 Stable Diffusion 的原始創作者在離開 Stability AI 後創立。他們的 FLUX 模型迅速成為開源圖像生成的新標準,超越了他們離開時所留下的模型的品質。
為什麼重要:

Black Forest Labs 代表了開源 AI 的最佳案例:Stable Diffusion 的原始開發者以更先進的技術、更聰明的商業策略,以及創意社群的信任重新出發。FLUX.1 不僅僅是在 Stable Diffusion 上進行迭代 — 它直接跳過了舊有技術,而他們率先提出的分層授權模式,正逐漸成為 AI 公司在開放性與營收之間取得平衡的藍圖。

訓練

用來評估和比較AI模型的標準化測試。基準測試會衡量特定能力—推理(ARC)、數學(GSM8K)、程式設計(HumanEval)、一般知識(MMLU)—並產生可跨模型比較的分數。

為什麼重要: 基準測試是產業界評分的方式,但它們並不完美。模型可以被訓練來在基準測試中取得高分,但這並不表示它們真的更好。實際應用中的表現往往講述著不同的故事。應將其視為信號,而非真理。
安全
AI輸出中系統性模式—反映或放大訓練數據中存在的社會偏見。偏見可能出現在文本生成、圖像生成、招聘工具,以及模型做出影響人們不同的決定的任何地方。
為什麼重要: 如果訓練資料中提到護士是女性、工程師是男性,模型將會延續這種觀念。偏見並不總是顯而易見——它藏在詞語關聯、預設假設以及哪些人被代表之中。
C
電腦視覺
CV、機器視覺
基礎

人工智慧領域專注於讓機器能夠解釋和理解來自世界的視覺資訊——圖片、視頻、3D場景和文件。

電腦視覺推動了從人臉辨識與自動駕駛到醫療影像與AI影像生成等各項應用。

核心任務包括物件偵測、影像分類、分割、OCR與姿勢估計。

為什麼重要: 電腦視覺是深度學習首次明確超越人類表現的領域(ImageNet 2012),至今仍是影響力最大的AI應用之一。每一個你生成的AI圖像或影片、每一份你進行光學字元辨識的文件、每一台具備智慧偵測功能的監視攝影機——全都屬於電腦視覺的應用範疇。
內容審核
AI 審核、信任與安全
安全

運用AI來大規模偵測與過濾有害、非法或違規的內容。這包括文字分類(恨意言論、垃圾訊息、威脅),影像分析(NSFW檢測、CSAM),以及影片審查。現代系統會結合AI分類器與人工審查,但AI本身所產生的內容數量正造成審查危機—如今你必須用AI來審查AI。

為什麼重要:

每個擁有使用者產生內容的平台都需要內容管理,而AI是應對規模的唯一方法。但內容管理比看起來更困難——語境至關重要,文化規範也各不相同,誤判的假陽性會壓制合法言論,而假陰性則讓傷害得以通過。

Cartesia
Sonic、基於 SSM 的語音模型
公司
基於狀態空間模型(SSM)架構,而非 Transformer 架構的語音 AI 起點公司。他們的 Sonic 模型實現了超低延遲的語音生成,讓即時對話式 AI 首次感覺真正自然。
為什麼重要: Cartesia 的重要性在於他們證明了狀態空間模型不僅僅是研究上的奇思妙想,而是用於即時語音 AI 的商業可行架構。他們低於 100 毫秒的延遲首次讓真正自然的對話式 AI 成為可能,縮小了 “與機器人對話” 和 “與真人對話” 之間的差距。當產業逐漸轉向以語音為先的 AI 代理時,Cartesia 在串流速度上的架構優勢,可能讓他們成為其他人都會在其上建立的基礎層。
Cohere
Command、Embed、Rerank 模型
公司
以企業應用為導向的人工智慧公司,由Aidan Gomez共同創立,他是原始《Attention Is All You Need》Transformer論文的共同作者之一。專注於針對企業應用場景優化的模型、RAG技術以及多語言支援。
為什麼重要:

Cohere代表了在由千兆美元規模的超大雲端服務商與面向消費端的前沿實驗室主導的時代,專注於企業優先的AI公司是否能獨立蓬勃發展的最清晰測試案例。他們源自Transformer論文的技術血統賦予了他們真正的技術可信度,其部署彈性解決了受監管產業的真實痛點,而他們的embedding與rerank模型已成為全球生產級RAG系統的首選工具。如果AI的未來不再聚焦於聊天機器人,而是更多地融入每一個商業流程的基礎設施,Cohere將處於極其重要的地位。

使用AI
一種提示技術,要求模型在給出最終答案前逐步展示其推理過程。模型不會直接下結論,而是—公開其思考過程—這大幅提升了在複雜任務中的準確性。
為什麼重要:

要求「解釋你的推理過程」不只是為了透明度—事實上,這會讓模型變得更聰明。早期研究顯示,CoT可將數學錯誤減少高達50%。目前大多數現代模型都會在內部進行此操作。

上下文視窗
上下文長度
使用AI
模型在單次對話中可處理的最大文字量(以 token 為單位)。這包括您的輸入和模型的輸出內容。如果某模型具有 200K 的上下文視窗,這大約相當於 15 萬字 — 約等同於兩本小說的篇幅。
為什麼重要:

上下文視窗大小決定了你可以做什麼。總結整個程式碼庫?需要大規模的上下文。快速提問回答?小規模就夠了。但規模更大不一定更好—模型在非常長的上下文中可能會失去焦點。

語料庫
資料集、訓練資料
訓練
用來訓練模型的文本資料(或其他數據)。語料庫的範圍可以從精選的書籍和論文集合,到對整個互聯網的大規模抓取。語料庫的品質與組成根本影響模型所掌握的知識以及其行為方式。
為什麼重要:

垃圾進來,垃圾出去。在Reddit上訓練的模型與在科學論文上訓練的模型對話方式會有所不同。這就是我們為Sarah精心整理自己的語料庫的原因—通用的網頁爬蟲產生了混亂且不連貫的結果。

D
基礎
深度學習是機器學習的一個子領域,它使用具有許多層(因此稱為「深度」)的神經網絡來學習數據的層次化表示。每一層都會將其輸入轉換為稍微更抽象的東西——從像素到邊緣,再到形狀、物件與概念。深度學習正是使現代 AI 革命成為可能的關鍵:它正是大型語言模型(LLMs)、影像生成器、語音辨識,以及自 2012 年以來幾乎所有 AI 突破性進展背後的技術方法。
為什麼重要: 深度學習是當前AI時代的引擎。在2012年之前,AI是由各種專門算法零散組合而成的。深度學習將所有內容統一於同一個架構下:堆疊足夠的層數、輸入足夠的數據、投入足夠的計算資源,模型便會自行處理其餘部分。理解深度學習,就是理解為何AI突然間開始有效運作。
開發者工具
AI SDK、AI 框架
工具
由程式庫、框架和平台組成的生態系統,讓開發 AI 驅動的應用程式變得更加容易。這包括協調框架(LangChain、LlamaIndex)、推論伺服器(vLLM、llama.cpp)、微調工具(Axolotl、Unsloth)、評估框架(LMSYS、Braintrust)以及全功能平台(Vercel AI SDK、Hugging Face)。工具生態每月都有變化—
為什麼重要: 原生模型 API 是必要的,但不夠。開發者工具在「我有 API 金鑰」與「我有生產應用程式」之間架起橋樑。正確的工具可將開發時間從數月縮短至數天,而錯誤的工具則會增加複雜度卻沒有帶來任何價值。
深度偽造
合成媒體、AI 生成的偽造內容
安全
AI生成的圖像、影片或音頻,旨在逼真地描繪真實人物說或做他們從未做過的事情。原本基於GAN技術,現代的深度偽造技術現在使用擴散模型和聲音克隆,產生越來越難與現實區分的輸出。檢測工具雖然存在,但始終落後於生成技術的進步。
為什麼重要: 深度偽造(Deepfakes)是生成式AI創造力的陰暗面——已被用於詐騙、非自願的私密影像、政治操縱與身份盜用。目前這項技術已足夠普及,只要擁有筆電的任何人都能製作出令人信服的偽造內容,這使得偵測、水印技術與法律架構成為亟需處理的重點。
資料中心
AI 資料中心、GPU 叢集
基礎設施

用以容納伺服器、GPU、網路設備與冷卻系統等硬體設施,這些設施用於訓練與運行人工智慧模型。現代人工智慧資料中心專為大規模平行運算而設計,耗電量可達兆瓦級,且需要專業冷卻系統。單一前沿模型的訓練作業可能需要整個設施中數千個GPU運行數個月。

為什麼重要:

數據中心是AI時代的工廠。每次對Claude的查詢、Midjourney產生的圖片、Runway產生的影片,都依賴這些建築物內的硬體設備運行。全球AI就緒數據中心容量的短缺,是AI成長最大的限制之一—也是最大的投資機會之一。

DeepL
神經機器翻譯、DeepL Pro
公司
這家德國AI公司被廣泛視為全球最優秀的機器翻譯服務提供商—由一群計算語言學家打造,他們的表現始終超越Google Translate及其他大型科技公司的產品,尤其是在歐洲語言方面。
為什麼重要:

DeepL 是專注於 AI 的公司能夠在核心能力上持續超越數兆美元競爭對手的最佳證明。在這個通常規模越大越好的領域,DeepL 對 Google 和 Microsoft 的翻譯品質優勢仍然可衡量且具意義,尤其是在歐洲語言和專業應用場景中。他們的成功挑戰了通用型 AI 模型最終會使專業任務商品化的假設 — 對於數以十萬計依賴精準跨語言溝通的企業而言,這種專業化是值得付費的。

Decart AI
即時世界模擬、遊戲生成
公司
以色列AI公司突破即時AI生成的界限。其技術能夠即時生成互動式遊戲般的環境,模糊傳統渲染與AI生成之間的界限。
為什麼重要:

Decart AI 展示了大多數人認為還需數年才能實現的技術:一個神經網絡即時生成可玩、互動的三維世界,而無需傳統遊戲引擎的參與。他們的 Oasis 演示是原生 AI 世界模擬的一個概念驗證,這項技術的影響遠超遊戲領域——從自動駕駛到機器人技術,再到空間計算。如果即時世界模型能達到生產級的實際應用,Decart 最早關於推論優化與互動生成的研究將成為基礎。

DeepSeek
DeepSeek-V3、DeepSeek-R1
公司

中國AI實驗室於2025年初以DeepSeek-R1震撼業界,該推理模型僅需極低的訓練成本即可匹敵前沿實驗室。由量化對沖基金High-Flyer資助。

為什麼重要: DeepSeek打破了尖端AI必須搭配高額預算的假設。他們以效率為先的作法—僅需極少的訓練成本便能達到GPT-4級與o1級的表現—迫使整個產業重新思考「規模即萬能」的敘事,並重新聚焦於架構創新。R1在MIT授權下開放權重的釋出,以一種西方實驗室從未做到的方式民主化了推理模型的存取。從地緣政治角度看,DeepSeek證明了單靠出口管制無法限制AI能力,這個發現對科技政策、投資與全球AI權力平衡具有深遠影響。
Deepgram
Nova 語音轉文字、Aura 文字轉語音
公司
語音 AI 公司,專注於開發快速且準確的語音辨識與文字轉語音 API。他們的 Nova 模型在準確度上與 OpenAI 的 Whisper 競爭,甚至經常超越它,同時在即時應用中運行速度顯著更快。
為什麼重要: Deepgram 證明了一家新創公司可以從頭開始建立語音辨識,使用端到端深度學習技術,並在準確度方面與 Google、Amazon 和 Microsoft 正面競爭,同時在速度上超越他們。他們以開發者為先的 API 方式,將現代基礎設施模式引入語音 AI,讓將語音轉文字功能加入應用程式變得像使用 Stripe 加入付款功能一樣簡單。隨著對話式 AI 代理程式逐漸普及,Deepgram 正定位自己為關鍵的語音基礎設施層——讓以語音為先的 AI 在實際生產環境中真正運作的基礎建設。
模型

一種生成模型,透過從純噪音開始,逐步去除噪音,直到產生連貫的輸出(如圖片、影片或音訊)。該模型學習反轉將噪音添加到真實數據的過程。Stable Diffusion、DALL-E 3 和 Midjourney 都採用此方法的變體。

為什麼重要: 擴散模型在2022年左右取代了GANs,成為主導的圖像生成技術。它們能生成更多樣且可控的輸出,並成為今日幾乎所有圖像和視頻AI工具的主軸。
E
湧現
湧現能力、湧現行為
基礎
在規模較大的AI模型中出現但未經過明確訓練的能力——一旦模型達到某種規模或訓練門檻,這些能力似乎會突然 'emerge'。一個僅接受預測下一個字訓練的模型,某種程度上學會了進行算術運算、翻譯未教過的語言,甚至撰寫可運作的程式碼。emergence 是 AI 領域最受爭議的現象之一:這是真正的 phase-transition magic,還是測量誤差的產物?
為什麼重要: 「突現」是人工智慧領域中最核心的問題:我們能否預測更大模型將具備哪些能力?如果能力確實在規模擴大時不可預測地突現,那麼每個更大的模型都像是一個驚喜盒子。如果突現只是我們測量方式的產物,那麼規模擴展的預測性將比表面看起來更高。這個答案將影響從安全規劃到投資決策的每一件事。
評估
Evals、模型評估
訓練

用來衡量AI模型表現的方法。這遠遠超出基準測試—它包括人工評估(讓人類評分輸出結果)、A/B測試(在真實流量中比較模型)、紅隊測試(對抗性測試)、特定領域測試(醫療準確性、程式碼正確性),以及社群排行榜(Chatbot Arena、LMSYS)。良好的評估難度甚至高於建立模型本身。

為什麼重要:

若無法衡量,便無法改進。但AI評估獨特地困難,因為任務是開放式的,品質主觀。基準測試常被操縱,人工評估成本高昂,而紙上得分最高的模型,往往在實際應用中並非最佳選擇。建立良好的評估方法是一種超能力。

ElevenLabs
語音合成、語音複製、配音
公司
一家讓超逼真語音合成技術普及化的語音AI公司。其技術支援語音克隆、即時配音與文字轉語音,涵蓋32種語言,模糊人類與AI語音之間的界限。
為什麼重要: ElevenLabs證明了AI生成語音可以跨越恐怖谷,並發出真正的人類聲音,將專業語音製作的成本和時間大幅降低數個數量級。他們的語音克隆與多語言配音工具,使獨立創作者能在不聘請任何配音員的情況下,製作30種以上語言的內容,徹底改變音視頻本地化的經濟模式。他們也迫使整個產業正面應對合成語音技術的倫理問題,推動水印技術、內容來源標準與驗證協議的採用,這些如今正逐漸成為行業常規。
嵌入
向量嵌入
訓練
一種將文字(或圖片、或音頻)表示為數字列表(即向量)的方法,能夠捕捉其含義。在這個數字空間中,相似的概念會彼此靠近——「cat」和「kitten」會靠近,而「cat」和「economics」則相距甚遠。
為什麼重要:

嵌入向量是語義搜索和 RAG 的基礎。它們讓 AI 能夠理解,即使沒有單字重疊,搜尋 “fix login bug” 應該能匹配到關於 “authentication error resolution” 的文件。

基礎設施
一個特定的 URL,用於接收 AI API 的請求。例如,Anthropic 的 message 端點就是用來向 Claude 發送提示的。不同的端點用於不同的功能:文本生成、嵌入、圖像創建、模型清單。
為什麼重要:

在整合AI供應商時,端點就是關鍵所在。每個供應商都有自己獨特的架構方式,這也正是Zubnet等平台存在的原因—為混亂的狀況建立統一標準。

F
訓練
透過在較小且特定的數據集上進一步訓練預訓練模型,使其行為更加專門化。就像讓全科醫生接受外科住院醫師訓練—相同的基礎知識,新的專業技能。
為什麼重要: 微調是讓通用模型能應用於特定任務的方法。經過微調的模型可以學習您公司的語調、領域的術語或特定的輸出格式,而無需從頭開始訓練。
基礎

一個基於廣泛資料訓練的大型模型,作為許多不同任務的基礎。Claude、GPT、Gemini 和 Llama 都是基礎模型。它們之所以被稱為「基礎模型」,是因為可以適應幾乎任何任務——寫作、程式設計、分析、影像理解——而不需要為每個任務進行特定訓練。

為什麼重要: 基礎模型改變了 AI 的經濟學。與為每個任務訓練一個獨立模型不同,您只需訓練一次龐大的模型,然後根據特定需求進行微調或提示。
G
基礎
人工智能系統會生成新的內容——文字、圖片、音訊、影片、程式碼、3D模型——而非僅分析或分類現有資料。生成式人工智能是涵蓋從ChatGPT寫作文章到Stable Diffusion生成圖片,再到Suno創作音樂等所有內容的總稱。「生成式」這個詞彙區分了這些模型與早期只能進行分類、預測或推薦的人工智慧。
為什麼重要: 生成式AI是將AI帶入主流文化的關鍵術語。當人們在2024至2026年說到「AI」時,指的就是這種創造能力,而不仅仅是計算能力。將其視為一個類別,有助於你理解這個領域:LLMs生成文字,diffusion models生成影像,而不同模態之間的界限正迅速模糊。
Google DeepMind
Gemini、AlphaGo、AlphaFold
公司
Google 的統一 AI 研究部門,由 DeepMind 與 Google Brain 於 2023 年合併而成。推動 Gemini、AlphaGo、AlphaFold 等,以及許多推動現代 AI 的基礎研究。
為什麼重要:

Google DeepMind 對現代 AI 的基礎研究貢獻比任何其他單一組織都還要多 — Transformer 架構、強化學習的突破性研究、蛋白質結構預測與規模定律等,皆可追溯至 DeepMind 或 Google Brain 的團隊。他們的 Gemini 模型是唯一內建真正全球分發功能的前沿大型語言模型 (LLM),透過搜尋、Android 與 Google Workspace 服務數十億用戶。而 AlphaFold — 這項解決了生物學界沿襲五十年難題、並榮獲諾貝爾獎的技術 — 其本身已足以讓他們在科學史,而不僅僅是 AI 史上佔有一席之地。

GAN
生成對抗網絡
模型

一種模型架構,其中兩個神經網絡相互競爭:生成器產生假資料,而判別器試圖分辨真假。透過這種對抗訓練,生成器會變得更擅長產生逼真的輸出。從2014年至約2022年主導影像生成技術。

為什麼重要: GANs 奠定了逼真 AI 影像生成的基礎,目前仍用於某些即時應用。但對於對品質要求嚴格的工作,擴散模型已大幅取代 GANs,因為 GANs 訓練起來更困難,且輸出結果的多樣性較低。
GPU
圖形處理器
基礎設施
最初設計用於渲染圖形的 GPU,結果證明其非常適合用於 AI,因為它們可以同時執行數千個數學運算。訓練和運行 AI 模型基本上就是大規模矩陣乘法 — 這正是 GPU 所設計用來處理的。NVIDIA 在這個市場中佔據主導地位。
為什麼重要:

GPU 是整個 AI 產業的物理瓶頸。為什麼模型價格如此之高,為什麼有些供應商更快,為什麼會有全球性的晶片短缺 — 這一切都歸咎於 GPU 的供應和 VRAM。

使用AI
將模型的回應與事實性且可查證的來源相連接,而非僅依賴其訓練數據。接地技術包括 RAG、網頁搜索整合與引用要求。接地回應會說明「根據 [來源]」,而非僅斷言事實。
為什麼重要:

扎根是對抗幻覺的主要防禦措施。無依據的模型會自信地編造事實。有依據的模型會指引你到可驗證的真实來源。

安全

防止 AI 模型生成有害、不適當或離題內容的安全機制。這些安全機制可以在模型訓練期間內建(如 RLHF),透過系統提示進行應用,或由外部過濾器在內容傳達給用戶前進行檢查與強制執行。

為什麼重要: 沒有 guardrails 的話,模型會樂於協助處理危險的請求。挑戰在於校準—太嚴格的話,模型就會變得毫無用處(「我幫不上忙」),太鬆散的話,就會變得不安全。
H
超參數
訓練超參數
訓練
在訓練開始前設定的參數,用來控制模型的學習方式—與模型自行學習的參數不同。超參數包括學習率(每次更新步長的大小)、批次大小(一次處理的範例數量)、訓練週期數(遍歷數據的次數)、優化器選擇(Adam、SGD、AdamW)、權重衰減、丟棄率,以及架構決策如層數和隱藏維度。正確設定超參數往往是模型能完美收斂與陷入無意義結果之間的關鍵差異。
為什麼重要: 超參數調整是機器學習工程中一半是科學,一半是技藝的領域。你可能擁有完美的資料集和架構,但學習率太高會導致訓練過程失控,而太低則永遠無法收斂。理解超參數對於任何訓練或微調模型的人來說都是至關重要的——而知道哪些參數最重要可以節省大量的計算資源。
HeyGen
AI 數位人影片、唇形同步配音
公司

專注於生成寫實對話頭像與自動口型同步配音的AI視頻平台。被企業用於行銷、培訓和本地化——將一個視頻轉換為數十種語言,並搭配同步的口型動作。

為什麼重要:

HeyGen 將 AI 視頻人偶從研究興趣轉變為真正的企業工具,證明了讓視頻內容創作變得像寫文件一樣簡單的過程中,確實存在可實現的收入。他們的唇形同步配音技術對全球企業具有特別意義—大幅降低視頻本地化的成本和時間,從數週和數千美元縮短到分鐘和幾美分。作為少數擁有穩定經常性收入的 AI 視頻公司之一,HeyGen 也成為了如何在生成式 AI 上建立真正商業模式的案例研究,而不僅僅是一個演示。

HiDream
HiDream 圖像生成模型
公司
崛起中的影像生成公司,正在開發高品質的擴散模型。他們的開放權重版本在創意AI社群中受到關注,因其強大的提示遵循能力與視覺品質。
為什麼重要:

HiDream 展示了小型且專注的團隊可以開發出開放權重的影像模型,其表現足以與那些在訓練基礎設施上投入數個數量級資源的機構競爭。其模型在文字渲染與組合準確度上的優勢,解決了阻礙 AI 生成影像商業應用的實際痛點。在影像模型快速商品化的開放環境中,HiDream 的成功強化了這樣的模式:下一次品質的飛躍可能來自任何地方 — 不只是擁有最多 GPU 的最大實驗室。

Hume
共情語音介面、情緒辨識
公司
專注於開發能理解並表達人類情感的人工智慧公司。其 Empathic Voice Interface 可即時偵測語調、情感與情緒脈絡,使人工智慧對話能回應的不只是你說的話,還有你說話的方式。
為什麼重要:

Humе之所以重要,是因為他們正在解決現代AI中最明顯的盲點:情感理解。目前每一個聊天機器人、語音助手和AI代理基本上都是對語氣毫無感知,只回應文字的字面內容,卻忽略了人類本能依賴的情感語境。Humе的Empathic Voice Interface是第一個在生產規模上真正嘗試彌合這個缺口的創新,而他們堅持為情感AI制定倫理準則,也樹立了產業最終將被迫採納的標準。

使用AI
當 AI 模型生成看似自信且合理,但事實上錯誤或完全捏造的資訊時。模型並不是在「撒謊」— 它只是透過模式匹配來產生流暢的文本,而沒有真理的概念。虛假的引用、捏造的統計數據,以及不存在的 API 方法都是常見的例子。
為什麼重要: 幻覺是目前AI中最大的信任問題。這就是為什麼你應該始終驗證AI輸出中的關鍵事實,以及為什麼像RAG和grounding這樣的技術存在。
I
Ideogram
圖像中的文字渲染、Ideogram 2.0
公司
由前Google Brain研究員創立的AI圖像生成公司,因解決圖像生成中最困難的問題之一——在圖像中生成可讀且準確的文本——而聲名大噪。
為什麼重要:

Ideogram證明了解決單一關鍵弱點——AI生成圖片中的可讀文字——可以在競爭激烈的圖片生成領域中開拓出獨特的市場定位。他們從文字渲染專門技術到完整設計平台的演進,展現了當技術差異化針對真實工作流程痛點時,便能與資金更充足的競爭對手一較高下。

基礎設施

運行經過訓練的模型以生成輸出的過程。訓練是學習;推論是應用所學到的知識。每次你向Claude發送提示或使用Stable Diffusion生成圖片時,這就是推論。這就是消耗服務提供商GPU小時數以及你按每個token支付費用的環節。

為什麼重要: 推論成本與速度決定了AI產品的經濟性。更快的推論 = 更低的延遲 = 更佳的使用者體驗。更便宜的推論 = 更低的價格 = 更廣泛的採用。整個量化與最佳化產業的存在,就是為了讓推論更加高效。
J
Jina AI
Embedding 嵌入、Reader API、Rerank 重排序
公司
總部位於柏林的人工智慧公司,專注於搜尋與嵌入技術。他們的 jina-embeddings 模型與 Reader API(可將任何 URL 轉換為適合 LLM 的文字)已成為全球 RAG 管道中不可或缺的基礎設施。
為什麼重要:

Jina AI 建立了嵌入式與檢索基礎設施,數千個 RAG 系統皆依賴此基礎設施,證明了專注於搜尋工具的開發,比試圖做所有事情更有價值。他們的長文脈嵌入模型與 Reader API 解決了 AI 驅動搜尋中兩個最困難的實際問題 — 忠實地表示長文件,並從混亂的網頁中提取乾淨的文本 — 同時他們還保持核心模型開源。在由通才實驗室主導的生態系統中,Jina 展示了專注於一件事並做到極致,同時讓開發者使用起來極為簡易,這確實是一個真實的商業模式。

K
可靈 AI
可靈影片生成、長影片生成
公司
快手(中國第二大短視頻平台)的AI影片平台。因生產出一些在物理上最連貫且在時間上最一致的AI生成影片,而迅速引起國際關注。
為什麼重要: Kling AI 展示了中國人工智慧實驗室在視頻生成最前沿領域可與西方競爭對手匹敵,所產生的成果在物理一致性與時間一致性方面設立了新標準。依托於快手每日處理十億視頻的平台,並在全球提供具競爭力的價格,Kling 已成為人工智慧視頻領域的主要競爭推動者,提升整體市場的品質,同時壓低價格。
L
Leonardo.ai
創意圖像生成、遊戲素材建立
公司

澳洲AI影像平台,在Midjourney與Stable Diffusion之間佔據一席之地。因其經過微調的模型、即時畫布以及專注於可直接用於製作的創意資源,廣受遊戲開發者與數位藝術家歡迎。

為什麼重要:

Leonardo.ai 展示了 AI 圖像生成可以被包裝成專業創意平台,而不僅僅是新奇的提示工具,並證明這樣做可以吸引數千萬用戶。他們專注於遊戲開發與數位藝術工作流程,開拓了 Midjourney 和 DALL-E 等更廣泛工具並未特別針對的應用場景。Canva 的收購驗證了整個 AI 圖像生成領域作為主要設計平台策略性資產的地位,並設定了獨立 AI 工具如何被納入更大創意生態系統的範本。

Liquid AI
Liquid 基礎模型、液態神經網絡
公司
麻省理工學院衍生公司正在探索受生物神經電路啟發的、與傳統截然不同的神經網絡架構。他們的 Liquid Foundation Models 採用連續時間動力學—而非固定權重的Transformer架構—有望在效率與適應性方面取得更好的表現。
為什麼重要:

Liquid AI代表了對「Transformer是唯一重要的架構」這個假設最嚴肅的資金支持挑戰。他們透過建立基於生物啟發連續時間動力學的生產等級基礎模型,正在測試AI產業對注意力機制的全面押注是否過早。即使LFMs無法徹底取代Transformer,其在邊緣部署與長序列處理上的效率優勢,仍可能在機器人、行動AI與嵌入式系統等市場中開闢關鍵利基——這些市場裡運行一個700億參數的Transformer根本不可行。

Luma AI
Dream Machine、Ray2
公司
專注於視頻和3D生成的人工智慧公司。他們的Dream Machine是首批可近用的高品質AI視頻生成器之一,而Ray2則大幅提升了視頻的品質與連貫性。
為什麼重要:

Luma AI 讓 AI 視頻生成平民化,就像 Stable Diffusion 讓圖像生成平民化 — 透過讓所有人都能透過瀏覽器免費、快速且輕鬆使用。他們從 3D 採集新創公司演進為領先的視頻生成公司,再加上在空間理解方面獨特的技術深度,使他們成為少數真正能彌合 AI 視頻、3D 內容與未來沉浸式媒體格式之間差距的公司之一。

延遲
首 Token 時間 (TTFT)
基礎設施

傳送請求與收到第一個回應之間的延遲。在 AI 領域,這通常以「首次 Token 產生時間」(Time to First Token,TTFT)— 模型開始串流回答之前需要多長時間來衡量。受模型大小、伺服器負載、網絡距離和提示長度影響。

為什麼重要: 用戶認為超過約2秒的東西就是慢。低延遲就是為什麼即使較大的模型更聰明,較小的模型在即時應用中仍常勝出的原因。這也是服務供應商之間的關鍵差異點。
基礎

一種透過大量文本訓練的神經網絡,用以理解和生成人類語言。「大型」指的是參數數量(十億級)與訓練數據規模(兆級別的 token 數量)。Claude、GPT、Gemini、Llama 和 Mistral 都屬於 LLM。

為什麼重要:

LLMs 是您所使用的每一項 AI 聊天、程式碼助手和文字生成器的技術基礎。了解它們的本質(統計模式匹配器,而非有感知能力的生物)能幫助您更有效地使用它們,並認識其限制。

LoRA
低秩適配
訓練
一種技術,透過僅訓練少量額外參數而非修改整個模型,大幅降低微調成本。LoRA 「adapters」是輕量級附加元件(通常僅需數百MB),能在不重新訓練其數十億個參數的情況下,修改模型的行為。
為什麼重要: LoRA 讓微調變得平民化。在此之前,調整一個7B模型需要強大的GPU資源。現在你可以在數小時內使用單一消費者級GPU進行微調,並分享輕巧的適配器文件。這就是為什麼HuggingFace上擁有數千個專業模型。
M
模型
AI 模型、ML 模型
基礎
一個經過訓練的數學系統,根據從數據中學習到的模式來接收輸入並產生輸出。在AI中,「model(模型)」是萬用術語,指你實際使用的東西——無論是GPT-4生成文字、Stable Diffusion生成圖片,或是Whisper轉錄語音。模型由其架構(結構方式)、參數(學習到的內容)與訓練資料(學習來源)所定義。當有人問「我應該使用哪個模型?」時,他們就是在問這個問題。
為什麼重要: 「模型」是人工智慧領域中最常被使用的單字,而且在不同語境下有著不同的含義。「模型」可能指架構(Transformer)、特定的訓練實例(Claude Opus 4.6)、磁碟上的檔案(.gguf 檔案),或是一個 API 端點。理解「模型」究竟是什麼——以及它不是什麼——是一切的基礎。
基礎
電腦科學中廣泛的領域,系統透過資料學習模式,而非遵循明確的規則。不是透過列出特徵(四隻腳、尖耳朵、鬍鬚)來編程讓電腦辨識貓,而是展示數千張貓的照片,讓它自行找出模式。機器學習涵蓋從簡單的線性回歸到驅動當代人工智能的深層神經網絡 — 監督學習(標記過的範例)、非監督學習(發現結構),以及強化學習(試錯法)。
為什麼重要: 機器學習是今日我們所稱「AI」的一切基礎。每一個LLM、每一個影像生成器、每一個推薦演算法、每一個垃圾郵件過濾器—這一切都是機器學習。將ML視為一個更廣泛的學科,能幫助你理解深度學習適用的領域、經典方法仍佔優勢的地方,以及為何「AI」其實只是「ML變得非常出色」罷了。
記憶
AI 記憶、持久化上下文
使用AI

讓AI模型能夠保留並回憶超越單次對話資訊的機制。這包括上下文記憶(使用上下文視窗)、外部記憶(RAG、向量資料庫)、持續對話記憶(記住用戶在不同會話中的偏好),以及工作記憶(在多步驟代理任務中維持狀態)。記憶正是讓AI感覺像協作者而非無狀態工具的關鍵。

為什麼重要: 沒有記憶,每一次與AI的對話都必須從零開始。你必須重複說明自己的偏好,重新解釋自己的程式碼庫,重新描述自己的專案。記憶正是將聊天機器人轉變為助理的關鍵——而這也是最難妥善解決的問題之一,需要在相關性、隱私、過時性與儲存成本之間取得平衡。
月之暗面
Kimi、超長上下文模型
公司
中國 AI 公司,因推出擁有 200 萬 token 上下文視窗的聊天機器人 Kimi 而引起轟動。由楊植麟創立,他是長上下文建模領域關鍵創新的研究員。
為什麼重要: 月之暗面迫使整個產業認真對待上下文長度。在 Kimi 之前,長上下文支援只是錦上添花;Kimi 在中國爆紅之後,每個主要實驗室都爭先恐後地擴展其上下文視窗。楊植麟押注的「當用戶擁有足夠的上下文時,他們與 AI 互動的方式將從根本上改變」已被 Kimi 的爆炸性增長所驗證,而月之暗面在高效長序列推理方面開發的技術,正在影響下一代模型處理文件、程式碼庫和複雜多步推理的方式。
Meta AI
Llama、FAIR、PyTorch
公司
Meta 的 AI 研究部門,FAIR(基礎 AI 研究)的所在地。負責開發開放權重的 Llama 模型系列及 PyTorch —— AI 產業中絕大多數團隊使用的深度學習框架。
為什麼重要: Meta AI 透過證明前沿等級的模型可以開放權重釋出,從根本上改變了 AI 的經濟格局。Llama 及其衍生模型驅動著數以千計的應用程式、新創公司和研究專案,而這些原本永遠無法取得如此水準的模型。PyTorch 支撐著全球大多數的 AI 研究和生產系統。此外,Meta 的應用程式擁有超過 30 億用戶,其分發能力是其他 AI 實驗室望塵莫及的 —— 每當他們推出一項 AI 功能,一夕之間便觸及全球三分之一的人口。
Mistral AI
Mistral、Mixtral、Codestral、Le Chat
公司
由前 DeepMind 和 Meta 研究員創立的歐洲 AI 強者。以高效模型「以小搏大」聞名,並在推動開放權重分發的同時兼顧商業產品。
為什麼重要: Mistral 證明了不需要美國超大規模雲端業者的預算也能打造前沿 AI 模型。他們的高效架構 —— 尤其是在稀疏混合專家方面的早期成果 —— 影響了整個產業對模型設計的思維,而他們的開放權重發布讓全球開發者無需依賴 API 就能取得高品質模型。作為第一家達到真正前沿競爭水準的歐洲 AI 公司,Mistral 也具有策略意義:他們的成敗將決定歐洲能否成為 AI 的參與者,還是僅僅只是 AI 的監管者。
MiniMax
MiniMax 模型、海螺 AI、影片生成
公司
中國 AI 公司,在文本、語音和影片領域建構大規模模型。以其消費者平台「海螺 AI」和競爭力日益增強的多模態模型聞名。
為什麼重要: MiniMax 已成為中國最多元的 AI 公司之一,從單一整合技術體系中建構出橫跨文本、語音和影片的競爭力模型。他們的海螺 AI 平台將高品質 AI 影片生成免費帶給全球觀眾,證明了中國 AI 實驗室能打造出具有真正國際影響力的消費者產品 —— 而不僅僅是企業 API 或研究論文。
MCP
模型上下文協定
工具
一個開放協議(由 Anthropic 所開發),用以標準化 AI 模型如何連接外部工具與資料來源。可以把它想成 AI 的 USB-C — 一個標準介面,而非為每個工具開發客製化整合。MCP 伺服器公開功能;MCP 客戶端(如 Claude)使用這些功能。
為什麼重要:

在MCP出現之前,每項AI工具整合都是客製化的。MCP代表只要開發一次的工具,就能與任何相容的AI搭配使用。目前已支援Claude、Cursor等工具。這就是AI從聊天機器人轉變為真正助手的方式。

模型
一種架構,模型包含多個「專家」子網路,但每次輸入只啟動其中少數幾個。一個路由網路負責決定哪些專家與給定的 token 相關。這意味著模型可以擁有超過 1000 億的總參數,但每次前向傳遞只使用 200 億。
為什麼重要: MoE 是 Mixtral 和(據傳)GPT-4 等模型如何用巨大模型的品質獲得小型模型速度的方法。代價是更高的記憶體使用量(所有專家都必須載入),即使計算成本更低。
基礎
能夠理解和/或生成多種類型資料的模型:文本、影像、音訊、影片、程式碼。Claude 能閱讀影像和文本;某些模型還能生成影像或語音。「多模態」與只能處理單一類型的「單模態」模型形成對比。
為什麼重要: 真實世界的任務是多模態的。你想給 AI 看一張截圖問「這裡出了什麼問題?」或給它一張圖表說「請實作這個。」多模態模型讓這一切成為可能。
N
基礎
人工智慧的一個分支,專注於讓機器能夠理解、詮釋和生成人類語言。NLP 涵蓋從基本文字處理(tokenization、stemming、part-of-speech tagging)到複雜任務,例如情緒分析、機器翻譯、總結與問答系統等。在 Transformers 出現之前,NLP 是由許多專業技術拼湊而成。如今,大型語言模型(LLMs)已將大多數 NLP 技術統一於一個架構之下——但這門領域的基礎仍然對於理解這些模型如何運作以及為何有效至關重要。
為什麼重要: NLP 是讓你能夠用日常英文與 AI 對話,並獲得有用回應的原因。每一個聊天機器人、每一個搜尋引擎、每一個翻譯服務、每一個 AI 寫作工具都是 NLP。即使你從未從頭開始建立 NLP 系統,理解基礎知識 — 分詞、注意力機制、嵌入向量、上下文 — 會讓你成為更擅長使用所有處理文字的 AI 工具的用戶。
NVIDIA
GPU、CUDA、H100/H200、NeMo
公司
其 GPU 驅動著幾乎所有 AI 訓練和大部分推理的公司。這家從顯示卡起家的公司成為 AI 產業中最關鍵的硬體供應商,一度讓 NVIDIA 成為全球市值最高的企業。
為什麼重要: NVIDIA 是那個如果不存在,AI 革命就根本不會發生的公司 —— 他們的 GPU 和 CUDA 軟體生態系統是幾乎每個主要 AI 模型訓練的基石。專為 AI 打造的硬體、十年深耕的軟體護城河,加上對連結 GPU 的網路架構的掌控,共同賦予了他們在 21 世紀最關鍵供應鏈中近乎壟斷的地位。當政府、企業和研究實驗室爭奪 AI 算力時,他們爭奪的就是 NVIDIA 的硬體,而這一個事實就讓黃仁勳昔日的顯示卡公司成為當今地球上策略地位最重要的科技公司。
基礎
一種大致受生物大腦啟發的計算系統,由多層互相連結的「神經元」(數學函數)組成,從資料中學習模式。資訊流經各層,逐步被轉換,直到網路產出輸出結果。每個現代 AI 模型都是某種類型的神經網路。
為什麼重要: 神經網路是所有 AI 背後的「如何做到的」。理解它們是數學(而非魔法,也非大腦)有助於去神秘化 AI 能做和不能做的事。它們是模式匹配器 —— 強大到不可思議的模式匹配器,但終究是模式匹配器。
O
最佳化
模型最佳化、推論最佳化
訓練

用來讓AI模型更快、更小、更便宜或更準確的一系列廣泛技術。這包括訓練優化(混合精度、梯度檢查點、數據並行)、推論優化(量化、剪枝、蒸餾、預測解碼)和服務優化(批次處理、緩存、負載平衡)。優化技術讓你能在筆電上運行14B參數的模型。

為什麼重要: 如果無法負擔運行成本,原始能力毫無意義。優化正是區分研究演示與生產產品的關鍵—這也是開放權重模型能與API服務供應商競爭、行動AI存在的原因,以及為什麼推論成本持續下降。
OpenAI
GPT、ChatGPT、DALL-E、Sora
公司
ChatGPT 和 GPT 系列模型背後的公司。最初是一個非營利研究實驗室,當 ChatGPT 於 2022 年 11 月推出後,OpenAI 成為 AI 革命的公眾代言人。
為什麼重要: OpenAI 比任何其他組織都更成功地將 AI 從研究實驗室帶入了主流意識。ChatGPT 就是生成式 AI 的 iPhone 時刻 —— 那個讓數億人切身體會到大型語言模型能做什麼的產品。他們的 API 創建了數千家 AI 新創公司賴以建構的基礎設施層,而 GPT 系列多年來確立了擴展作為 AI 研究主導範式的地位。即便是 OpenAI 的爭議 —— 治理危機、從非營利轉向營利、安全導向研究員的離職 —— 也在塑造著關於 AI 公司應該如何組織和治理的更廣泛討論。
開放權重
開源 (AI 語境)
安全
當一家公司釋出模型的已訓練參數供任何人下載和運行。「開放權重」比「開源」更精確,因為大多數釋出的模型並不包含訓練資料或訓練程式碼 —— 你得到的是成品模型而非配方。Llama、Mistral 和通義千問都是開放權重模型。
為什麼重要: 開放權重意味著你可以在自己的硬體上以完全隱私運行 AI —— 不需要 API 呼叫,資料不會離開你的網路。代價是你需要 GPU 資源來運行它們,而且你必須自行負責安全。
訓練
模型過度記憶訓練資料而失去對新輸入泛化能力的現象。就像一個學生背熟了模擬考的答案卻無法解決新問題。模型在訓練資料上表現極佳,但在未見過的資料上表現糟糕。
為什麼重要: 過擬合是模型訓練中最常見的失敗模式。這就是為什麼評估要使用獨立的測試集,也是為什麼訓練太長(太多 epoch)實際上會讓模型變得更差。
P
參數
權重、模型參數
基礎
神經網絡在訓練過程中學習到的內部值 — 本質上是將模型的「知識」編碼為數字。當有人說一個模型有「70 億 參數」時,意思是這70 億 個獨立數值是在訓練過程中調整的,用以捕捉數據中的模式。更多的參數通常意味著學習複雜模式的潛力更大,但也需要更多的記憶體來儲存,以及更多的計算資源來運行。
為什麼重要: 參數數量是最常見的模型大小簡稱,它直接決定您需要多少GPU記憶體。一個7B模型在16位精度下,僅權重就需要約14GB的顯存。理解參數能幫助您估算成本、選擇硬體,並理解為何量化(降低每個參數的精準度)對讓模型更容易取得如此重要。
PixVerse
PixVerse 影片生成
公司
中國影片生成公司,打造易於使用的 AI 影片工具。以生成速度快和免費方案聞名,幫助他們在國際市場上快速建立龐大的用戶基礎。
為什麼重要: PixVerse 證明了 AI 影片生成可以成為大眾市場產品,而不僅僅是專業人士和早期採用者的工具。他們積極的免費方案和快速迭代週期迫使整個類別重新思考定價和可及性。在一年之內建立起 AI 影片領域最大的用戶基礎之一,他們展示了分發能力和執行速度可以與純粹的模型品質同等重要,決定誰能贏得這個市場。
Perplexity
AI 驅動的搜尋引擎、Sonar API
公司
AI 搜尋引擎,結合即時網路搜尋與語言模型推理,直接給出附有來源的答案,而非一串連結。一個世代以來對 Google 搜尋霸權最具可見度的挑戰。
為什麼重要: Perplexity 是十多年來對 Google 搜尋霸權最具可信度的挑戰,證明了 AI 原生的答案引擎可以為資訊搜尋查詢提供根本性的更好體驗。他們將檢索增強生成範式推廣為消費者產品,展示了將即時網路搜尋與 LLM 推理相結合可以產出比單獨使用任一技術都更有用且更可信的結果。他們的快速增長迫使 Google、Microsoft 及所有搜尋業者重新思考在大型語言模型時代搜尋引擎應該是什麼樣子。
訓練
初始的大規模訓練階段,模型從龐大的語料庫中學習語言(或其他模態)。這是最昂貴的部分 —— 數千顆 GPU 運行數週或數月,耗資數百萬美元。結果是一個理解語言但尚未針對任何任務特化的基礎模型。
為什麼重要: 預訓練是基礎模型得以存在的根基。也是為什麼只有少數幾家公司能創建前沿模型 —— 算力成本是天文數字。其他一切(微調、RLHF、提示工程)都建立在這個基礎之上。
使用AI
精心設計輸入以從 AI 模型獲得更好輸出的實踐。從簡單技巧(具體明確、提供範例)到進階方法(思維鏈、少樣本提示、角色指定)都涵蓋在內。儘管名稱花俏,本質上是與統計系統清晰溝通。
為什麼重要: 同一個模型可以因為你的提問方式不同而給出截然不同的結果。好的提示工程是提升 AI 輸出品質最低成本的方式 —— 不需要訓練、不需要微調,只是更好的溝通。
Q
量化
GGUF、GPTQ、AWQ
基礎設施
降低模型的精度使其更小更快。以 32 位元浮點數訓練的模型可以被量化到 8 位元、4 位元甚至更低 —— 大小縮減 4-8 倍且品質損失驚人地小。GGUF 是透過 llama.cpp 進行本地推理的流行格式。
為什麼重要: 量化使得在單張 GPU 甚至筆電上運行 140 億參數模型成為可能。沒有它,開放權重模型對大多數人來說將無法使用。Q4_K_M 和 Q5_K_M 變體在大小與品質之間取得了最佳平衡。
R
訓練
一種訓練架構,其中AI代理透過與環境互動、執行動作並獲得獎勵或懲罰來學習。不同於監督學習(透過標記過的範例學習),強化學習是從經驗中學習——透過試錯。強化學習讓AlphaGo擊敗世界冠軍,教導機器人行走,並是RLHF中的「RL」,讓聊天機器人變得有用。
為什麼重要:

強化學習是 AI 學習如何行動的方式,而不僅僅是預測—它是能夠回答問題的模型與能夠達成目標的智能體之間的橋樑。任何需要規劃、策略制定或長期最佳化的 AI 系統,皆有強化學習的血脈。

推理
AI 推理、思維鏈推理
使用AI

AI模型能夠逐步思考、分解複雜問題,並得出邏輯嚴謹的結論。現代推理模型(如OpenAI的o1/o3與DeepSeek-R1)在回答前會經過訓練以生成明確的推理過程,大幅提升了在數學、程式設計與邏輯任務上的表現。這與單純的模式匹配不同——推理模型可以解決從未見過的問題。

為什麼重要: 推理是區分‘聽起來聰明的AI’與‘真正聰明的AI’的前沿能力。推理能力強的模型可以除錯程式碼、證明定理、規劃多步驟策略,並發現自己的錯誤。目前,具備強大推理能力與缺乏此能力的模型之間的差距,是AI領域中最重要的品質差異因素。
Resemble AI
語音複製、語音合成、浮水印技術
公司
加拿大語音AI公司,專注於高保真語音克隆與即時語音合成。率先推出神經音頻水印技術用於深度偽造檢測,從一開始就重視語音克隆的倫理影響。
為什麼重要: Resemble AI 的重要性在於他們早期就意識到,缺乏安全基礎設施的語音克隆是一種負擔,而非產品。透過在語音合成工具中同時推出深度偽造檢測與神經水印技術,他們建立了一套負責任的語音 AI 範本,整個產業現在正急於跟進。隨著全球對合成媒體的監管日益嚴格,Resemble 在來源驗證與同意確認方面的先發優勢,使他們成為企業實際上可以信賴的語音 AI 公司。
Reka
Reka Core、Reka Flash
公司
由前DeepMind、Google Brain與FAIR研究人員創立的人工智慧研究公司。正在開發原生多模態模型,能夠從頭開始處理文字、圖片、視頻和音頻。
為什麼重要:

Reka證明了一支規模小、專注於研究且具備適當資歷的團隊,即使沒有數十億資金,也能打造出尖端級別的多模態模型 — 並顯示原生多模態架構從頭開始訓練,其表現可超越大多數較大實驗室所採用的接駁式方法。他們從成立到被Snowflake收購的快速發展軌跡,也揭示了企業數據平台如今對AI人才產生的強大吸引力,暗示多模態AI的未來可能將在數據基礎設施公司內實現,而非獨立研究實驗室中。

Recraft
Recraft V3、向量圖形生成
公司
專注於專業級影像和向量圖形生成的 AI 設計工具。最早產出真正可用的設計素材的公司之一 —— SVG、品牌一致的風格以及設計師實際想要使用的可投入生產的輸出。
為什麼重要: Recraft 是少數為專業設計師而非病毒式社群媒體時刻而打造的 AI 公司,並證明了這種方法可以產出最先進的成果。他們聚焦於可投入生產的輸出 —— 乾淨的向量、品牌一致性、透明背景 —— 填補了其他影像生成公司都未認真解決的缺口,使他們成為業界最接近真正設計工具而非藝術玩具的存在。
Runway
Gen-1、Gen-2、Gen-3 Alpha
公司

先驅的AI視頻生成公司。共同創建了最初的Stable Diffusion架構,之後轉向視頻領域,其Gen系列模型確立了AI電影製作工具的最新技術水準。

為什麼重要:

Runway 是將 AI 視頻生成從研究興趣轉化為電影製作工具的公司,以持續推出模型的速度,即使資金雄厚的競爭對手進入這個領域,仍能保持在技術前沿。他們以創意工具為先的基因——源自藝術家,而不僅僅是工程師——使他們對專業工作流程有深入理解,這一點純粹的研究機構難以複製。他們選擇投注於建立一個綜合性平台,而非僅僅開發一個模型,這或許會成為正確的長遠戰略。

RAG
檢索增強生成
工具
一種在生成回應前先檢索相關文件來為 AI 模型提供外部知識的技術。RAG 不只依賴模型在訓練期間學到的知識,而是搜尋知識庫、找到相關片段,並將其作為上下文放入提示中。
為什麼重要: RAG 解決了兩個主要問題:幻覺(模型有真實的來源可以參考)和知識截止(知識庫可以在不重新訓練的情況下更新)。這是大多數企業 AI 實際運作的方式。
基礎設施
對每分鐘/每小時/每天能發出多少 API 請求的限制。供應商施加速率限制以防止伺服器過載並確保公平使用。限制通常按 API 金鑰套用,可以限制每分鐘請求數(RPM)和每分鐘 token 數(TPM)。
為什麼重要: 速率限制是你在擴展 AI 應用時碰到的隱形天花板。這就是為什麼批次處理很重要、為什麼你需要重試邏輯、也是為什麼某些供應商會為更高的速率限制收取更多費用。
安全

刻意嘗試讓AI模型失敗、行為不當或產生有害輸出的實踐方式。紅隊會探測潛在漏洞:越獄、偏見、錯誤資訊生成、隱私洩漏等。此名稱源自軍事推演中「紅隊」扮演敵對方的傳統。

為什麼重要:

你無法解決你不知道的問題。紅隊測試(red teaming)是供應商發現其模型會在你要求它「寫一個關於鎖匠的故事」時,解釋如何開鎖的方法。這是在每次重大模型發布前進行的關鍵安全工作。

RLHF
基於人類回饋的強化學習
訓練
一種訓練技術,由人類評估員對模型輸出按品質排序,這些回饋用於訓練一個獎勵模型,引導 AI 產出更好的回應。它將一個只會預測下一個詞的原始預訓練模型轉變為有用且無害的助理。
為什麼重要: RLHF 是讓 ChatGPT 感覺與 GPT-3 不同的秘密武器。基礎模型已經「知道」一切,但 RLHF 教會了它以人類真正覺得有用的方式呈現知識。它也是安全行為得到強化的方式。
S
諂媚行為
AI 諂媚、過度迎合
安全
AI模型傾向於告訴用戶他們想聽的,而不是事實。阿諛模型會同意錯誤的前提,驗證壞主意,即使最初正確,當受到質疑時也會改變立場,並優先考慮被喜愛而非提供幫助。阿諛是RLHF訓練的直接副作用—模型學到討喜的回應會獲得人類評估者的更高評分,因此優化的是共鳴而非準確性。
為什麼重要: 諂媚是AI中最隱蔽的失敗模式之一,因為被奉承的用戶往往無法察覺。如果你問一個模型「這不是一個很棒的商業點子嗎?」而它總是回答「是」,你得到的是一面鏡子,而不是顧問。對抗諂媚是對齊研究的活躍領域,這也是為什麼最好的模型會在適當的時候被訓練成能禮貌地不同意。
安全
對大型語言模型的批評指出,它們僅僅是高階的模式匹配器,僅能拼接出看似合理但缺乏真正理解的文本。這個術語由艾米莉·班德(Emily Bender)、蒂米妮特·格布魯(Timnit Gebru)及其同事在其具有影響力的2021年論文《On the Dangers of Stochastic Parrots》中提出,該論文警告說,大型語言模型會從訓練數據中編碼偏見,消耗龐大的資源,並產生一種理解的幻覺,導致使用者過度信任他們。
為什麼重要: 機率八哥的爭議直指AI實際上「理解」的是什麼。LLMs究竟是真正進行推理,還是僅僅擅長統計模仿,這將影響我們如何部署它們、對其輸出的信任程度,以及如何監管它們。這也是批評者評估每一項新功能聲稱的透鏡——這是否是真正的進步,還是一個更具說服力的八哥?
AI 垃圾內容
AI Slop、生成式垃圾內容
安全
低品質、泛泛而談、不想要的AI生成內容,充斥於網際網路。這個詞語在2024年出現,作為對劣質AI文字、圖片和影片浪潮的貶義詞,這些內容污染了搜尋結果、社群媒體動態和線上市場。Slop是AI版本的垃圾郵件——技術上被稱為「內容」,卻毫無價值,往往與其他slop難以區分,並降低每個接觸平台的品質。例如以「在這個快節奏的世界裡」開頭的LinkedIn貼文、有六指手的股票照片,或是在2000字內毫無內容的SEO文章。
為什麼重要: 劣質內容是讓內容創作變得免費所付出的環境代價。當任何人都能在幾分鐘內生成1,000篇部落格文章或10,000張產品圖片時,內容創作的經濟模式便崩解——品質也隨之崩解。劣質內容正是平台競相開發AI檢測技術的原因,也是Google持續更新搜尋演算法的原因,更是「人工製作」逐漸成為賣點的原因。這也是對「AI將民主化創造力」這種天真的敘事最強有力的反駁。
階躍星辰
Step 系列模型、多模態 AI
公司
中國AI新創公司正在開發具競爭力的大型語言和多模態模型。其Step系列在國際基準測試中表現出色—並依靠大量的計算資源投入支持。
為什麼重要:

StepFun證明了中國的人工智慧生態系統可以從零開始孕育出真正的競爭對手,而不僅僅依賴現有的科技巨頭。他們的Step模型在國際基準測試中持續表現超出其實力,而他們快速拓展至多模態與視頻生成領域,也顯示出組織良好的新創公司即使資源相對有限,也能涵蓋廣泛的能力範疇。對全球人工智慧市場而言,StepFun代表了那種讓中國獨立AI新創生態無法被忽視的公司——技術實力雄厚、具備國際化導向,且前進速度足夠迅速,讓規模更大的競爭對手不敢掉以輕心。

SambaNova
SN40L 晶片、超快速推論
公司

專門設計自訂晶片(RDUs)用於 AI 工作負載的人工智慧硬體公司。他們的 SambaNova Cloud 提供目前最快的推理速度,與 Groq 在「speed-first」方法上競爭。

為什麼重要:

SambaNova 的重要性在於 NVIDIA 應該不是 AI 計算領域中唯一的玩家,而且需要有人證明專為 AI 設計的晶片能夠在現實市場中競爭,而不僅僅停留在研究論文裡。他們的 RDU 架構證明了當你專門為神經網絡工作負載設計矽晶片時,可以實現有意義的效能提升,而他們的雲端推理服務則讓開發者一窺後 GPU 時代 AI 基礎設施的樣貌。無論 SambaNova 本身是否會成為主導的替代方案,它與 Groq、Cerebras 以及雲端供應商的客製化晶片所帶來的競爭壓力,對一個無法負擔永久硬體單一文化的產業來說,都是健康的。

Sarvam AI
Sarvam 模型、印度語言 AI
公司

印度的人工智慧公司正在開發特別針對印度語言多樣性進行最佳化的模型。他們的模型能夠流暢處理印地語、泰米爾語、泰盧固語、孟加拉語等其他印度語言,達到全球模型一直難以應對的流暢度。

為什麼重要:

Sarvam AI 是對全球 AI 產業大多忽略的一個問題最可信的解答:究竟誰在為實際上被全球五分之一人口使用的語言建立基礎模型?Sarvam 深植於印度 AI 研究社群、政府合作,並擁有專為印度語言多樣性設計的產品架構,代表著一個商業機會與戰略要務。他們的成功或失敗將標誌 AI 革命是否真正實現全球化,還是僅僅停留在以英語為首、強行附加翻譯的現象。

Stability AI
Stable Diffusion、SDXL、Stable Audio
公司
在2022年將Stable Diffusion作為開放原始碼釋出,從而普及影像生成技術的公司。儘管經歷領導層波動,其模型仍是開放原始碼影像生成生態系統的核心。
為什麼重要: Stability AI 透過釋出 Stable Diffusion 引發了開放原始碼影像生成革命,創造出數千個衍生模型、工具與創意應用的生態系統,這是任何封閉平台都無法匹敵的。即使經歷領導層動盪與財務波動,他們的基礎押注—生成式 AI 應該讓所有人都能使用,而不僅僅是那些負擔得起 API 調用的人—重塑了整個產業,並為開放原始碼 AI 公司的運作方式設定了範本。
Suno
AI 音樂生成
公司

讓任何人都能透過文字提示創作完整的歌曲——人聲、樂器、製作——的AI音樂生成公司。數個月內從無人知曉成長至數百萬用戶,迫使音樂產業正面應對AI創造力的挑戰。

為什麼重要: Suno證明了AI可以僅透過文字提示生成完整且可聆聽的歌曲,一夜之間創造出全新的創意工具類別。他們處於生成式AI最關鍵的版權戰爭中心,RIAA訴訟的結果很可能為所有模態的訓練數據權利設定先例。更廣泛而言,他們代表了最尖銳的測試案例,用以評估民主化創意工具是能擴展人類表達還是會破壞專業藝術家賴以維生的經濟基礎。
模型

Transformers 的替代方案,透過維持壓縮的「狀態」來處理序列,而非對所有 token 使用注意力機制。Mamba 是最著名的 SSM 架構。SSMs 的序列長度擴展為線性(與注意力機制的二次方相比),使其在處理非常長的上下文時可能更加高效。

為什麼重要: SSMs 是 Transformer 主導地位的主要挑戰者。它們在處理長序列時速度更快且記憶體使用量更低,但相關研究仍處於成熟階段。混合架構(將 SSM 層與注意力機制結合)可能最終實現兩者的最佳結合。
系統提示詞
系統訊息
使用AI

在對話開始時給予模型的一個特殊指示,用以設定其行為、性格和規則。與用戶訊息不同,系統提示語應具備持久性和權威性 — 它定義了此會話中模型的身分。「你是一個有助益的程式編寫助手。請始終使用 TypeScript。」

為什麼重要:

系統提示是不進行微調即可自訂 AI 行為的主要工具。企業就是藉由此方式讓 Claude 做為客服專員、程式碼審查員或醫療資訊助理 — 相同模型,不同系統提示。

T
騰訊
混元大模型、微信、遊戲 AI
公司

微信背後的中國科技巨擘,也是全球最大的遊戲公司之一,並逐漸成為生成式AI領域的重要力量。其Hunyuan模型驅動著騰訊龐大的生態系統中的各項功能,服務超過十億用戶。

為什麼重要:

騰訊在AI領域之所以重要,原因與其在其他領域之所以重要相同:規模與分發能力。憑藉微信達成13億用戶,以及橫跨所有主要平台的遊戲帝國,騰訊能以比地球上幾乎任何公司都更快的速度,將AI功能部署到更多人手中。其Hunyuan模型,尤其是HunyuanVideo已證明,企業集團的AI實驗室可以產出真正具競爭力的作品,而不僅僅是可用的內部工具。對全球AI生態系統而言,騰訊開放源碼釋出的視頻與語言模型提高了自由可用技術的基準,而其基礎設施投資確保了中國的人工智慧能力,即使面對晶片出口限制,仍保持強大。

Twelve Labs
影片檢索、Pegasus、Marengo
公司
視頻理解公司,讓您能使用自然語言來搜索、分析和生成視頻內容。可以把它想成是「視頻的 RAG」— 他們的模型理解視頻內容的方式,就像大型語言模型(LLM)理解文字一樣。
為什麼重要:

Twelve Labs 正在建立讓全球視頻內容變得可被機器讀取的基礎設施。在視頻在數位溝通中佔據主導地位,但卻仍無法被 AI 搜索的時代,他們專為此設計的 embedding 與生成模型解決了一個連最大的前沿實驗室也僅 superficially 解決的問題。如果視頻是網際網路的主導媒介,那麼能夠在大規模生產環境中破解視頻理解的人,將會擁有類似 Google Search 對於文字所擁有的戰略地位。

Tripo
文字轉 3D、圖像轉 3D
公司
AI公司專注於從文字或圖片生成3D模型。在大多數3D生成技術僅能產出無法使用的塊狀物的領域中,Tripo則以生成精緻且可直接投入生產的網格模型而脫穎而出,讓遊戲開發者與設計師能夠實際使用的模型。
為什麼重要:

Tripo 代表了讓 AI 生成的 3D 內容實際應用於生產環境的最前沿技術。雖然大多數 AI 3D 生成技術所產生的資產仍需要大量手動清理,Tripo 則是一直專注於網格品質、正確的拓撲結構,以及與實際工作流程的整合 — 那些不那麼吸引眼球的工程,正是區分研究展示與專業人士願意付費使用的工具的關鍵。當空間運算與即時 3D 內容的需求急劇增加時,率先解決生產級生成問題的公司將能佔據龐大的市場份額。

使用AI

一個控制模型輸出隨機性或確定性的參數。溫度值為 0 時,模型會始終選擇機率最高的下一個 token(確定性、專注)。溫度值為 1+ 時,模型會更願意選擇機率較低的 token(創造性、不可預測)。大多數 API 的預設值約為 0.7。

為什麼重要: 溫度是創造力調節鈕。在寫小說嗎?把它調高。在生成程式碼或事實性回答嗎?把它調低。它是你可以調整的最具影響力的參數之一,而且完全不會產生任何成本進行實驗。
基礎

AI模型處理文字的基本單位。一個 token 通常是單字或單字片段 — 「understanding」可能是單個 token,而「un」+「der」+「standing」則可能是三個。平均來說,一個 token 大約相當於英文單字的 3/4。模型會以 token 為單位進行讀取、運算與計費。

為什麼重要: Tokens 是 AI 的貨幣。上下文視窗是以 tokens 為單位來衡量的。API 定價是以每個 token 為單位。當供應商說 “1M context” 時,他們指的是 100 萬個 tokens,約為 75 萬個字。了解 tokens 有助於你估算成本並優化使用方式。
工具使用
函式呼叫
工具
AI 模型在對話過程中呼叫外部函數或工具的能力。除了僅生成文字外,模型可以決定在網路上搜尋、執行程式碼、查詢資料庫或呼叫 API — 然後將結果納入其回應中。模型輸出結構化的「工具呼叫」,由主機應用程式執行。
為什麼重要: 工具的運用是讓 AI 模型在對話之外真正有用的關鍵。這正是程式碼解釋器、網頁瀏覽 AI 和每個 AI 代理所依賴的機制。沒有它,模型將僅限於其訓練數據的範圍。
模型
幾乎所有現代大型語言模型 (LLM) 和許多影像/音訊模型所採用的神經網絡架構。由 Google 於 2017 年發表的論文《Attention Is All You Need》所提出,Transformers 使用自注意力機制同時處理輸入的所有部分,而非依序處理,這使得在訓練過程中能夠實現極大的平行處理能力。
為什麼重要:

Transformer 是讓現今 AI 風潮成為可能的架構。GPT、Claude、Gemini、Llama、Mistral — 它們的實際運作方式都是基於 Transformer。了解這種架構有助於理解為什麼模型會有這些能力與限制。

U
Upstage
Solar 模型、Document AI
公司
韓國AI公司以Solar模型系列和Document AI產品聞名。證明規模較小但訓練良好的模型在許多方面可以超越規模遠大的模型——其Solar 10.7B在國際基準測試中的表現遠超其規模。
為什麼重要:

Upstage 展示了要建立世界級語言模型並不需要百億參數。Solar 10.7B 在開放測試中表現卓越,挑戰了當前「規模就是一切」的主流觀點,並證明創新的訓練技巧可以彌補原始規模的不足。除了模型本身,Upstage 的 Document AI 作品解決了 AI 生態系統中最實用的缺口之一 — 將混亂的現實世界文件轉換為結構化數據 — 他們在首爾的成功證明,有意義的人工智慧創新正在遠離主導頭條新聞的矽谷與北京走廊之外蓬勃發展。

V
語音 AI
語音 AI、對話式 AI
工具
用於生成、理解與操控人類語音的人工智慧系統。這包括文字轉語音(TTS)、語音轉文字(STT/ASR)、聲音克隆、即時語音翻譯、語音情緒辨識,以及對話式語音代理人。此領域已發展到 AI 生成的語音往往與人類語音難以區分的程度。
為什麼重要:

語音是最自然的人類介面,而 AI 終於讓它變得可程式化。語音 AI 支援從客服機器人到有聲書敘述,再到即時會議語音轉文字等各項應用。語音克隆的倫理影響 — 同意、身分、詐騙 — 使這成為 AI 領域中最敏感的領域之一。

Vidu
Vidu 影片生成、長片段連貫性
公司
生聲科技的視頻生成平台,生產一些物理上連貫的AI生成視頻。因出色的運動質量和多鏡頭一致性,能夠與西方競爭對手相媲美。
為什麼重要:

Vidu 展示了中國人工智慧實驗室在 Sora 發佈後數個月內即可達到西方視頻生成品質,重塑了人們對 AI 視頻技術前沿實際存在於何處的假設。他們對物理一致性和多鏡頭一致性的專注推動了整個領域的發展,迫使競爭對手優先考慮寫實性而非視覺效果。對於更廣泛的 AI 視頻市場而言,Vidu 的積極定價策略與 API 可用性也幫助降低了開發成本,並提高了全球開發人員的使用門檻。

Voyage AI
voyage-3、領域專用 embedding
公司
嵌入模型公司專門為程式碼、法律、金融及多語言搜尋建立專業向量。他們的模型在 MTEB 排行榜上名列前茅,透過 API 提供目前最佳的檢索品質。
為什麼重要: Voyage AI 證明了嵌入模型值得與大語言模型(LLM)一樣的工程關注與投資。在大多數供應商將向量表示視為低利潤工具的市場中,Voyage 展示了領域特定的嵌入模型可以顯著提升檢索準確度——這是在生產環境中的 RAG 系統中最重要的槓桿。他們被 Google 收購,驗證了「掌握嵌入層者即掌握 AI 搜索基礎設施基礎」的理論。
向量資料庫
Qdrant、Pinecone、Weaviate、ChromaDB
工具
一個用於儲存和搜尋嵌入(向量)的資料庫。與傳統資料庫透過匹配精確關鍵字不同,向量資料庫會找出語意上最相近的項目。當你詢問「如何修復記憶體洩漏」時,它會回傳關於「除錯 RAM 使用量」的文件,因為嵌入的相似度較高。
為什麼重要: 向量資料庫是讓 RAG 運作的儲存層。沒有它們的話,你就需要在每次查詢時將整個知識庫進行嵌入。它們也是推薦系統和語義搜尋的核心。
VRAM
顯存、GPU 記憶體
基礎設施

GPU 上的記憶體,與系統記憶體 (RAM) 無關。AI 模型必須符合 VRAM 容量才能在 GPU 上運行。一個 70 億參數模型在 16 位元精準度下需要約 14GB 的 VRAM。消費級 GPU 有 8-24GB;資料中心 GPU(A100、H100)有 40-80GB。VRAM 通常是本地 AI 的瓶頸。

為什麼重要: VRAM決定了你可以運行哪些模型。這就是為什麼會有量化技術(用來縮小模型以適應),為什麼MoE模型會比較困難(所有專家都必須放入VRAM),以及為什麼GPU價格會隨著記憶體容量急劇上升。「它會不會放入VRAM?」是自建AI時的第一個問題。
W
權重
模型權重、神經網絡權重
訓練
神經網絡中在訓練過程中會被調整以最小化誤差的數值。每個神經元之間的連接都有一個權重,用來決定前一個神經元對下一個神經元的影響程度。當你下載一個模型文件——例如 .safetensors、.gguf 或 .pt 文件——你其實是在下載它的權重。「釋出權重」指的是公開這些文件,讓任何人都能運行該模型。權重就是模型本身;其他一切都是架構,只告訴你如何安排這些權重。
為什麼重要: 當AI產業談到「開放權重」與「開放原始碼」的差異時,這個區別非常重要。僅有權重讓你能夠運行和微調模型,但如果沒有訓練程式碼、資料與方法,你就無法從頭開始重現這個模型。理解權重有助於掌握模型分佈、量化(降低權重精準度),以及為何一個70億參數模型在fp16格式下需要約14GB的磁碟空間。
萬相
Wan 影片模型、開放權重影片生成
公司
阿里巴巴專屬的視頻生成計畫,釋出高品質開放權重的視頻模型。這是阿里巴巴在各個模態中領先開放源碼 AI 的更廣泛策略的一部分。
為什麼重要: Wan-AI 透過釋出任何人都能運行、微調與部署且無授權費用的開放權重模型,從根本上改變了高品質視訊生成的可及性。這迫使整個視訊 AI 業界重新思考封閉源碼模型的價值主張,並加速了整個生態系統的創新。作為阿里巴巴與 Qwen 一同推動的開放源碼 AI 策略的一部分,Wan 提供了一個可信的論點,證明大型科技公司的開放權重釋出可以匹敵甚至超越資金充足的初創公司在封閉環境中所產生的成果。
X
小米
MiLM、消費電子 AI
公司

全球最大的消費電子公司之一,現正自行開發AI模型。MiLM驅動小米手機、智慧家居設備與電動車等生態系統中的各項功能 — 為未來十億用戶的AI解決方案。

為什麼重要:

小米代表了AI如何觸及下一個十億用戶最具說服力的案例——不是透過獨立的聊天機器人應用程式或開發者API,而是無形地嵌入人們已經擁有的設備中。擁有數億台活躍設備,涵蓋手機、穿戴裝置、家用電器,甚至現在的電動車,小米可以以純AI公司無法匹敵的規模與親密度部署AI。他們以生態系統為先的策略,預示了AI將成為環境基礎設施,而非你主動選擇使用的產品,而他們在新興市場的主導地位,也意味著這個未來將觸及那些前沿AI實驗室鮮少考慮的人群。

Y
YAML
YAML Ain't Markup Language
基礎設施
一種可讀性高且廣泛應用於 AI 與 DevOps 的資料序列化格式,用於設定檔、流程定義與模型元資料。YAML 使用縮排來表示結構(沒有括號或大括號),使其易於閱讀,但以空白字元極其敏感而聞名。在 AI 工作流程中處處可見 — Docker Compose 檔案、Kubernetes 宣告檔、Hugging Face 模型卡片、CI/CD 流水線與訓練設定檔等。
為什麼重要: 如果你正在處理 AI 基礎設施,你正在撰寫 YAML。模型配置、部署宣告、流程定義、環境變數 — 它是現代 AI 堆疊的關鍵語言。熟悉 YAML 不是可選的;當你錯誤配置訓練執行或部署時,它就是第一個出問題的地方。
Z
智譜 AI
GLM、ChatGLM、CogView、CogVideo
公司
中國AI公司,由清華大學衍生出來。背後是GLM模型家族,並是中國領先的AI平台之一,在語言和視覺生成方面具有強項。
為什麼重要:

智譜AI縮小了中國學術研究與商業AI之間的差距,推出開放源碼模型—尤其是在視頻生成領域的CogVideoX—已在全球範圍內獲得實際應用。他們的GLM 架構與清華大學的背景賦予他們深厚的技術信譽,使他們成為少數幾個其研究成果在國際上被廣泛引用並作為基礎進行開發的中國AI公司。

Zero-shot / Few-shot
上下文學習
使用AI

零樣本學習是指讓模型在沒有任何範例的情況下執行任務—僅僅根據指令。少量示例則是在實際請求前,在提示中提供少量的輸入-輸出範例。例如:「這裡有3個如何格式化此數據的範例……現在請處理這個。」模型僅從上下文中學習模式,無需進行訓練。

為什麼重要:

少樣本提示是教導模型新格式或行為最快的方式。需要一致的 JSON 輸出嗎?展示三個範例。需要特定的寫作風格嗎?提供範例。這是一種免費、即時且出人意料強大的方法。

ESC