No terms match your search.
A
一种理论上在几乎所有领域(科学推理、社会智能、创造力、战略规划等)超越人类认知能力的人工智能系统——人工超级智能(ASI)。ASI超越了人工通用智能(AGI,与人类智能相当),进入一个质的飞跃:一种能够自我递归改进并解决人类甚至无法表述的问题的智能。目前尚无任何ASI存在,科学界也尚未就是否能够或将会构建出ASI达成共识。
为什么重要: ASI是AI安全演变为存在性问题的地方。如果你认为超级智能是可能的,对齐不仅仅是让聊天机器人有礼貌—它关乎确保一个比全人类都聪明的系统仍然符合我们的利益。这具有推测性,但风险足够高,以至于严肃的研究者对此非常重视。理解ASI能帮助你以更细致的方式评估关于AI风险的主张。
一种假想的人工智能系统,能够理解、学习并执行人类可以完成的任何智力任务——具备在无需针对每个领域进行专门训练的情况下跨领域迁移知识的能力。与当前擅长狭窄任务(生成文本、分类图像)的人工智能不同,通用人工智能(AGI)将能够处理新颖情境、进行抽象推理,并适应任何挑战。AGI是否即将到来、需要数十年时间,或是根本不可能实现,是该领域最具争议的辩论。
为什么重要: AGI是整个AI行业的北极星(或梦魇)。它推动数十亿美元的投资,影响安全研究的重点,并主导政策辩论。无论你是否认为AGI已经临近,这一概念决定了Anthropic、OpenAI和DeepMind等公司如何界定其使命—而理解这场辩论能帮助你区分真正的进展与炒作。
帮助开发者编写、审查、调试和部署代码的人工智能工具。从自动补全(GitHub Copilot、Codeium)到完全自主开发(Claude Code、Cursor、Devin),程序编写助手已成为大型语言模型(LLMs)最成熟且应用最广泛的应用之一。它们通过根据你的代码库、文档和指令提供的上下文来预测代码的下一个标记。
为什么重要: AI代码助手是人工智能对知识工作影响的最尖锐边缘。使用它们的开发者报告称,在常规任务上的效率提升了30-50%。但它们也会产生不存在的API幻觉,引入隐蔽的错误,并可能使开发者依赖于他们并不完全理解的工具。
利用AI执行以前需要人工干预的任务。这包括从简单的自动化(自动分类电子邮件、生成报告)到复杂的自主工作流程(AI代理进行研究、编写、测试和部署代码)。从传统自动化(严格规则)向AI自动化(灵活智能)的关键转变在于,AI能够处理模糊的、非结构化的任务。
为什么重要: 自动化是人工智能应用的经济驱动力。每一家购买人工智能的企业实际上是在购买自动化—更少的人从事重复性工作,更快的处理速度,全天候运作。问题不在于人工智能是否会自动化任务,而在于哪些任务、多快,以及那些曾经从事这些工作的人会怎样。
AI在网络安全中的双重应用:使用AI来防御系统(威胁检测、异常检测、自动化事件响应)—以及AI创造的新攻击手段(AI生成的钓鱼攻击、自动化漏洞发现、针对机器学习系统的对抗性攻击)。该领域正处于一场军备竞赛中,攻击者和防御者越来越依赖AI技术。
为什么重要: AI 使现有的网络威胁更快速、更低成本地实施—由大型语言模型(LLM)撰写的钓鱼邮件更具说服力,且无需任何成本即可个性化定制。但AI也能实现人工无法做到的防御手段,例如每秒分析数百万条网络事件以检测异常。不采用AI的安全团队将无法与使用AI的攻击者抗衡。
指导人工智能开发、部署和使用方式的框架、政策、法律和组织实践。这包括政府监管(如欧盟AI法案、行政命令)、行业自律(如负责任的扩展政策、模型卡片)、企业治理(如AI伦理委员会、使用政策)以及国际间在人工智能安全标准方面的协调。
为什么重要: 技术发展速度远超监管规则。企业正以最少监管的方式将人工智能产品应用于医疗、司法和金融领域。治理旨在在问题严重到引发足以让整个领域倒退的反弹之前设定边界。
在不损害个人数据的前提下构建和使用人工智能系统所面临的挑战。这贯穿整个生命周期:可能包含私人信息的训练数据、能够记忆并复现个人细节的模型、跟踪用户行为的推理日志,以及人工智能能力(随着数据量增加而提升)与隐私权之间的根本性矛盾。
为什么重要: 每次与AI的对话都是数据。你生成的每张图片都暴露了你的提示词。你总结的每份文档都会经过某人的服务器。隐私不仅仅是法律上的勾选项(GDPR、CCPA)— 它是决定个人和企业是否会将AI用于敏感工作的信任问题。
保护AI系统免受对抗性攻击、数据投毒、提示注入、模型盗窃和滥用的实践—同时防范深度伪造和自动化网络攻击等AI驱动的威胁。AI安全位于传统网络安全与机器学习系统所引入的独特脆弱性的交汇点。
为什么重要: 人工智能系统既是强大的工具,也是新型的攻击面。一次提示注入可能使您的客服机器人泄露内部数据。一个被污染的训练数据集可能插入后门。随着人工智能在关键基础设施、医疗和金融领域的部署,安全不再是可选项——而是生存问题。
AI服务提供商如何对模型访问进行收费。主流模式是按令牌计费—您需为发送的输入令牌数和接收的输出令牌数付费,输出令牌通常比输入令牌贵3到5倍。其他模式包括按请求计费、月度订阅、承诺使用折扣和免费层级。价格战激烈,成本在两年内下降了10到100倍。
为什么重要: 定价决定了你能构建什么。每天进行10,000次API调用的应用程序,其成败取决于每token的成本。理解定价模型、比较供应商并优化token使用,是构建AI驱动产品人员的核心技能。
用于大规模训练和部署AI模型所需的全栈硬件、软件和服务。这包括GPU和定制芯片、数据中心、网络、存储、编排平台(Kubernetes、Slurm)、模型服务框架(vLLM、TensorRT)以及将所有这些打包的云服务提供商。AI基础设施—连接模型架构的抽象世界与电网和冷却系统的具体世界。
为什么重要: 基础设施决定了可行的范围。之所以只有少数公司能够训练前沿模型,并不是因为缺乏创意——而是因为缺乏基础设施。而AI对终端用户所产生的成本则直接归因于GPU的可用性、数据中心的容量以及推理服务的效率。
语音AI公司,打造面向开发者的友好型API,用于语音转文字、说话人识别及音频理解。其Universal-2模型在准确率上可与OpenAI Whisper媲美,同时开箱即用新增说话人分段、情感分析和主题识别等功能。
为什么重要: AssemblyAI 使语音转文本技术真正易于开发者使用,将过去需要专门机器学习团队才能完成的任务压缩到一次 API 调用中。他们的音频智能技术栈 — 结合语音识别、说话人识别、情感分析和基于 LLM 的摘要生成 — 正在将原始音频转化为结构化、可操作的数据,其规模在两年前还难以实现。在语音逐渐成为 AI 代理默认交互界面的世界中,AssemblyAI 正在构建其他所有技术依赖的理解层。
人工智能安全公司正在构建Claude。由前OpenAI研究员Dario和Daniela Amodei创立,Anthropic专注于开发可靠、可解释且可操控的人工智能系统。
为什么重要: Anthropic 证明了一家人工智能公司可以以安全研究为先,同时在前沿领域竞争。他们的 Constitutional AI 方法影响了整个行业对对齐问题的思考方式,其 Responsible Scaling Policy 设定了一种模板,其他实验室以各种形式加以采用,而 Claude 已成为需要可靠性和谨慎处理敏感内容的企业首选模型。最重要的是,Anthropic 作为一家资金充足的竞争对手存在,确保通往AGI的竞争不是一家独大的局面——并且至少有一家主要参与者将安全融入其初创基因,而非事后添加的补丁。
阿里巴巴集团的云计算部门及通义模型家族的创造者。通义模型具有全开放权重、多语言支持,是当前最强大的开源模型之一。
为什么重要: 阿里云已将通义千问打造为亚洲部署最广泛的开源模型家族,并成为与Meta的Llama真正具备全球竞争力的模型,证明具备前沿能力的模型可以来自硅谷以外。其开源模型发布、庞大的云基础设施以及ModelScope生态系统,为开发者——尤其是受美国出口管制影响的市场——提供了可信且高质量的西方AI平台替代选择。
一个能够自主规划并执行多步骤任务的AI系统,使用工具(网络搜索、代码执行、API调用)来实现目标。与只能一次回答一个问题的简单聊天机器人不同,代理会根据迄今为止所学到的内容决定下一步该做什么。
为什么重要: 智能代理是“会说话的AI”与“能做事的AI”之间的桥梁。当你的AI能够浏览文档、编写代码并进行测试,而无需你在每一步都手把手地指导——这就是一个智能代理。
使AI系统的行为符合人类价值观和意图的挑战。对齐模型不仅执行您所说的,还会理解您的真实意图—即使没有明确被告知不要这样做,也能避免有害行为。
为什么重要: 一个在技术上非常出色但对齐性差的模型,就像一个天才员工却过于字面地遵循指示。对齐研究正是模型拒绝危险请求并努力真正提供帮助的原因。
软件之间通信的结构化方式。在AI领域,这通常意味着将请求(您的提示)发送到提供商的服务器,并接收响应(模型的输出)。REST API通过HTTPS是标准。
为什么重要: 每家AI提供商—Anthropic、Google、Mistral—都通过API提供其模型。如果你正在构建任何超出聊天窗口的AI应用,你就是在使用API。
Transformers 中的核心机制,使模型能够确定输入中哪些部分彼此最相关。与早期模型从左到右逐字阅读不同,注意力机制使每个词能够同时“审视”其他所有词,以理解上下文。
为什么重要: 注意力机制是现代大型语言模型(LLMs)能够理解“river bank”(河岸)与“bank account”(银行账户)中“bank”含义不同的原因。这也是为什么更长的上下文窗口成本更高—注意力机制的计算量与序列长度呈二次方增长。
B
以色列AI公司,其图像生成模型完全基于授权且可追溯的训练数据构建。该公司定位为需要生成式AI视觉内容但无版权风险企业的安全选择—
为什么重要: Bria 是最典型的测试案例,证明基于完全授权的训练数据构建 AI 图像生成技术是否仍能在商业上具有竞争力。在正面临版权诉讼雪崩的行业中,他们的方法为企业提供了一条在不承担法律风险的情况下采用生成式 AI 的途径——这一价值主张在每一起针对竞争对手的新诉讼中都变得更加具有吸引力。如果 Bria 取得成功,这将验证整个负责任的 AI 开发理念;如果它遭遇挫折,则表明市场最终并不足以重视数据来源而愿意为此支付溢价。
TikTok的母公司,也是全球最有价值的科技公司之一。他们的AI实验室开发了Doubao模型系列,并为每天超过十亿用户使用的推荐算法提供支持。
为什么重要: 字节跳动是全球最有价值的私营科技公司,其AI部署规模鲜有对手,通过TikTok、Douyin以及不断扩展的AI驱动产品,每天服务超过十亿用户。他们的Doubao模型家族和火山引擎云平台使其成为基础模型竞赛中的强劲竞争者,背后拥有大多数AI初创公司只能梦寐以求的资源:一个大规模且盈利的核心业务,以及面向十亿用户的内置分发渠道。
由Stable Diffusion的最初创作者在离开Stability AI后创立。他们的FLUX模型迅速成为开源图像生成领域的新标准,超越了他们留下的模型的质量。
为什么重要: 黑森林实验室(Black Forest Labs)代表了开源AI的最佳案例:Stable Diffusion的原始架构师们从头开始,采用更先进的技术、更聪明的商业策略以及创意社区的信任。FLUX.1不仅对Stable Diffusion进行了迭代,更实现了跨越式超越,而他们开创的分层许可模式正逐渐成为AI公司在开放与盈利之间取得平衡的蓝图。
用于评估和比较AI模型的标准测试。基准测试衡量特定能力—推理(ARC)、数学(GSM8K)、编程(HumanEval)、常识(MMLU)—并生成可在不同模型间比较的分数。
为什么重要: 基准测试是行业衡量表现的方式,但它们并不完美—模型可以被训练以在基准测试中表现优异,但并不一定真正更好。实际应用中的表现往往讲述着不同的故事。应将它们视为信号,而非绝对真理。
AI输出中反映或放大训练数据中社会偏见的系统性模式。偏见可能出现在文本生成、图像创作、招聘工具等任何模型做出影响人们差异性决策的场景中。
为什么重要: 如果训练数据中护士是女性、工程师是男性,模型就会延续这种观念。偏见并不总是显而易见——它隐藏在单词关联、默认假设以及被代表的人群中。
C
人工智能领域专注于使机器能够解读和理解来自世界的各种视觉信息—图像、视频、3D场景和文档。计算机视觉(Computer Vision)驱动了从面部识别、自动驾驶到医学影像和AI图像生成等众多应用。核心任务包括物体检测、图像分类、分割、OCR和姿态估计。
为什么重要: 计算机视觉是深度学习首次超越人类表现的领域(ImageNet 2012),并且它仍然是商业影响力最大的AI应用之一。你生成的每一张AI图像或视频,你进行OCR的每一份文档,配备智能检测的每一台安防摄像头——这一切都是计算机视觉。
使用AI来大规模检测和过滤有害、非法或违反政策的内容。这包括文本分类(仇恨言论、垃圾信息、威胁内容)、图像分析(NSFW检测、CSAM)和视频审核。现代系统结合AI分类器与人工审核,但AI自身生成的内容体量正在引发审核危机—现在你需要用AI来审核AI。
为什么重要: 任何拥有用户生成内容的平台都需要内容审核,而AI是唯一能够应对海量数据的方法。但内容审核比听起来更困难—上下文至关重要,文化规范存在差异,误删正当言论会压制合法表达,而漏检则会让有害内容得以传播。
基于状态空间模型(SSM)架构而非transformers的语音AI初创公司。他们的Sonic模型实现了超低延迟语音生成,使实时对话式AI首次真正自然。
为什么重要: Cartesia 的重要性在于他们证明了状态空间模型不仅仅是学术界的奇思妙想,而是一种适用于实时语音 AI 的商业可行架构。他们低于 100 毫秒的延迟首次使真正自然的对话式 AI 成为可能,弥合了“与机器人对话”和“与真人对话”之间的差距。随着行业向以语音为核心的 AI 代理转变,Cartesia 在流媒体速度方面的架构优势可能使他们成为其他所有企业构建的基础设施层。
专注于企业级人工智能的公司,由Aidan Gomez(《Attention Is All You Need》Transformer论文的联合作者之一)共同创立。专注于为企业应用场景优化的模型、RAG和多语言支持。
为什么重要: Cohere代表了最清晰的案例,说明在由万亿级超大规模云服务商和面向消费者的前沿实验室主导的时代,一家专注于企业需求的AI公司是否能够独立繁荣发展。他们源自Transformer论文的血统赋予了他们真正的技术可信度,其部署灵活性解决了受监管行业的实际痛点,而他们的嵌入模型和重排序模型已成为全球生产环境中的RAG系统首选工具。如果人工智能的未来不再关乎聊天机器人,而是更多地关乎融入每个业务流程的基础设施,Cohere将变得至关重要。
一种提示技术,要求模型在给出最终答案前逐步展示其推理过程。模型不会直接得出结论,而是“大声思考”,这显著提高了在复杂任务中的准确性。
为什么重要: 要求模型“解释你的推理过程”不仅仅是为了透明度—实际上会让模型变得更聪明。早期研究表明,CoT(思维链)方法可将数学错误减少高达50%。目前大多数现代模型都会在内部自动执行此操作。
模型在单次对话中可处理的文本最大量(以令牌为单位)。这包括您的输入和模型的输出。如果模型具有200K的上下文窗口,大约相当于15万字—相当于两本小说。
为什么重要: 上下文窗口大小决定了你能完成的任务。总结整个代码库?需要较大的上下文。快速问答?小一点也没问题。但更大的并不总是更好 — 模型在非常长的上下文中可能会失去焦点。
用于训练模型的文本(或其他数据)。语料库的范围可以从精心挑选的书籍和论文集,到对整个互联网的大规模抓取。语料库的质量和组成从根本上决定了模型所掌握的知识及其行为方式。
为什么重要: 垃圾进,垃圾出。在Reddit上训练的模型与在科学论文上训练的模型表达方式不同。这就是为什么我们为Sarah精心构建了自己的语料库——普通的网络爬虫产生了混乱且不连贯的结果。
D
机器学习的一个子领域,它使用具有多层的神经网络(因此被称为“深度”)来学习数据的层次化表示。每一层都会将其输入转换为稍微更抽象的内容——从像素到边缘、形状、物体再到概念。深度学习正是使现代人工智能革命成为可能的关键:它背后的技术支撑着大型语言模型(LLMs)、图像生成器、语音识别,以及自2012年以来几乎所有的人工智能突破。
为什么重要: 深度学习是当前人工智能时代的引擎。在2012年之前,人工智能只是各种专有算法的拼凑。深度学习将一切统一到一个范式下:堆叠足够多的层,输入足够多的数据,投入足够的计算资源,模型会自行处理其余部分。理解深度学习,就是理解为什么人工智能突然间开始有效。
AI生成的图像、视频或音频,旨在逼真地描绘真实人物说或做他们从未做过的事情。最初基于GAN技术,现代深度伪造技术如今使用扩散模型和语音克隆来生成内容,这些内容与现实的差异越来越难以分辨。检测工具虽然存在,但始终落后于生成能力。
为什么重要: 深度伪造是生成式人工智能创造力的阴暗面。它们已被用于欺诈、非自愿亲密影像、政治操控和身份盗窃。这项技术如今已足够易用,任何拥有笔记本电脑的人都可以制作令人信服的伪造内容,使得检测、数字水印和法律框架成为亟需优先解决的问题。
用于存放服务器、GPU、网络设备和冷却系统的物理设施。现代AI数据中心专为大规模并行计算而设计,消耗兆瓦级电力,需要专用冷却系统。单次前沿模型训练可能需要整个设施中数千块GPU运行数月之久。
为什么重要: 数据中心是人工智能时代的工厂。每一次对Claude的查询,每一张来自Midjourney的图片,每一个来自Runway的视频,都依赖于这些大楼中的硬件设备。全球范围内人工智能就绪的数据中心容量短缺,是人工智能发展的一大制约因素—同时也是最大的投资机遇之一。
德国AI公司被广泛认为是全球最好的机器翻译服务。由一群计算语言学家打造,其表现持续超越Google Translate及其他大型科技公司的产品,尤其是在处理欧洲语言时。
为什么重要: DeepL 是一个有力证明,说明专注于 AI 的公司可以在核心能力上持续超越拥有数千亿美元市值的竞争对手。在通常认为“越大越好”的领域,DeepL 在翻译质量上对 Google 和 Microsoft 的优势依然可衡量且具有实际意义,尤其是在欧洲语言和专业应用场景中。他们的成功挑战了通用 AI 模型最终会将专业任务商品化的假设——对于依赖准确跨语言沟通的数以万计的企业而言,这种专业化是值得付费的。
以色列AI公司突破实时AI生成技术的界限。其技术能够实时生成交互式游戏般的环境,模糊了传统渲染与AI生成之间的界限。
为什么重要: Decart AI 展示了大多数人认为还需数年才能实现的技术:一个神经网络实时生成可玩、可交互的3D世界,且无需传统游戏引擎。他们的 Oasis 演示是对 AI 原生世界模拟的概念验证,这项技术的影响远超游戏领域—从自动驾驶到机器人技术再到空间计算。如果实时世界模型能够达到生产级别的实用性,Decart 在推理优化和交互生成方面的早期工作将奠定基础。
中国人工智能实验室于2025年初凭借DeepSeek-R1推理模型震撼行业,该模型以仅需顶尖实验室几分之一的训练成本,与前沿实验室展开竞争。该实验室由量化对冲基金High-Flyer支持。
为什么重要: DeepSeek打破了前沿AI需要前沿预算的假设。他们以效率优先的方法——以远低于训练成本实现GPT-4级别和o1级别性能——迫使整个行业重新思考“规模即一切”的叙事,并重新聚焦于架构创新。在MIT许可证下开放权重的R1版本以一种西方实验室未曾做到的方式民主化了推理模型的获取。从地缘政治角度看,DeepSeek证明了仅凭出口管制无法遏制AI能力,这一认识对科技政策、投资和全球AI权力平衡具有深远影响。
语音AI公司正在构建快速且准确的语音识别和文本转语音API。他们的Nova模型在准确率上与OpenAI的Whisper竞争,甚至经常超越它,同时在实时应用中运行速度显著更快。
为什么重要: Deepgram 证明了一家初创公司可以利用端到端深度学习从零开始构建语音识别系统,并在准确性上与谷歌、亚马逊和微软直接竞争,同时在速度上超越它们。他们以开发者为中心的 API 方法将现代基础设施模式引入语音 AI,使将语音转录添加到应用程序中变得像通过 Stripe 添加支付功能一样简单。随着对话式 AI 代理逐渐成为主流,Deepgram 正将其定位为关键的语音基础设施层——使以语音为核心的 AI 在实际生产中真正运作的底层管道。
一种生成模型,通过从纯噪声开始,逐步去除噪声,直到生成连贯的输出(如图像、视频或音频)。该模型学习逆转向真实数据添加噪声的过程。Stable Diffusion、DALL-E 3 和 Midjourney 都采用该方法的变体。
为什么重要: 扩散模型于2022年前后取代生成对抗网络(GANs),成为主流的图像生成技术。它们能够生成更多样化且可控的输出,如今几乎所有图像和视频AI工具的核心都是扩散模型。
E
在达到一定规模或训练阈值后突然出现的能力——这些能力并未在训练中被明确教授。一个纯粹用于预测下一个词的模型,竟然能够执行算术运算、在未被教授的语言之间进行翻译,或编写可运行的代码。涌现是人工智能领域最受争议的现象之一:它是真实的相变现象,还是测量误差?
为什么重要: 涌现问题是AI领域最大的疑问核心:我们能否预测更大模型将具备什么能力?如果能力确实以不可预测的方式在规模扩大时涌现,那么每个更大的模型都像是一个惊喜盒子。如果涌现只是测量方式带来的结果,那么规模扩大带来的变化可能比表面看起来更可预测。答案将影响从安全规划到投资决策的方方面面。
用于衡量AI模型性能的方法。这远不止于基准测试——它包括人工评估(由人类对输出结果进行评分)、A/B测试(在真实流量中对比模型)、红队测试(对抗性测试)、领域特定测试(医疗准确性、代码正确性)以及社区排行榜(Chatbot Arena、LMSYS)。优秀的评估比构建模型本身更具挑战性。
为什么重要: 如果你无法衡量它,就无法改进它。但AI评估尤为困难,因为任务是开放式的,质量具有主观性。基准测试容易被操控,人工评估成本高昂,而纸面上得分最高的模型往往在实际应用中并非最佳。构建优秀的评估体系是一种超能力。
语音AI公司,让每个人都能使用超逼真语音合成技术。他们的技术驱动语音克隆、实时配音和文本转语音功能,支持32种语言,模糊了人类与AI语音之间的界限。
为什么重要: ElevenLabs证明了AI生成语音能够跨越恐怖谷理论,听起来真正像人类,将专业语音制作的成本和时间降低了数量级。他们的声音克隆和多语言配音工具使独立创作者能够在不聘请任何配音演员的情况下,用30多种语言制作内容,彻底改变了音频和视频本地化的经济模式。他们还迫使整个行业正视合成语音技术的伦理问题,推动了数字水印、内容溯源标准和验证协议的采用,这些如今已成为行业规范。
一种将文本(或图像、或音频)表示为数字列表(即向量)的方法,该向量能够捕捉其含义。在这一数字空间中,相似的概念会彼此靠近—“cat”和“kitten”距离较近,而“cat”和“economics”则相距甚远。
为什么重要: 嵌入向量是语义搜索和RAG的基础。它们使AI能够理解,对"fix login bug"的搜索应该匹配关于"authentication error resolution"的文档,即使没有词语重叠。
一个特定的URL,用于接收AI API的请求。例如,Anthropic 的 message 端点是您向 Claude 发送提示(prompts)的地方。不同的端点服务于不同的功能:文本生成、嵌入(embeddings)、图像生成、模型列表。
为什么重要: 在整合AI提供商时,端点是关键所在。每个提供商的结构方式各不相同,这就是Zubnet等平台存在的原因——统一混乱的局面。
G
生成式AI系统能够创建新的内容—文本、图像、音频、视频、代码、3D模型—而不仅仅是分析或分类现有数据。生成式AI是统称,涵盖从ChatGPT撰写文章到Stable Diffusion生成图像,再到Suno创作音乐等各种应用。"生成式"这一特性使这些模型区别于只能进行分类、预测或推荐的早期AI系统。
为什么重要: 生成式人工智能(Generative AI)是将人工智能带入主流文化的术语。在2024-2026年,当人们提到“AI”时,指的是生成能力,而不仅仅是计算能力。将其视为一个类别有助于你理解这一领域:大型语言模型(LLMs)生成文本,扩散模型(diffusion models)生成图像,模态之间的界限正在迅速模糊。
Google的统一AI研究部门,由DeepMind和Google Brain于2023年合并而成。负责Gemini、AlphaGo、AlphaFold以及许多推动现代AI发展的基础研究。
为什么重要: 谷歌DeepMind为现代人工智能领域贡献了比任何其他单一组织都更多的基础性研究——Transformer架构、强化学习领域的突破性工作、蛋白质结构预测以及扩展定律等成果均可追溯至DeepMind或Google Brain团队。他们的Gemini模型是唯一内置真正全球分布能力的前沿大语言模型,通过搜索、安卓和谷歌工作区触达数十亿用户。仅AlphaFold一项——它解决了生物学中一个持续五十年的难题并荣获诺贝尔奖——就足以使其在科学史上留下浓墨重彩的一笔,而不仅仅是人工智能的历史。
一种模型架构,其中两个神经网络相互竞争:生成器生成假数据,而判别器试图区分真实与虚假。通过这种对抗性游戏,生成器在生成逼真输出方面变得越来越好。从2014年到~2022年,主导了图像生成领域。
为什么重要: GANs率先实现了逼真的人工智能图像生成,并且仍被用于某些实时应用中。但扩散模型在对质量要求较高的工作中已基本取代了它们,因为GANs更难训练,且输出的多样性较低。
最初设计用于图形渲染的GPU,结果证明非常适合人工智能,因为它们可以同时进行数千个数学运算。训练和运行人工智能模型本质上是大规模矩阵乘法—正是GPU所擅长的领域。英伟达主导了这个市场。
为什么重要: GPU是整个AI行业的物理瓶颈。为什么模型价格如此之高,为什么有些提供商的速度更快,为什么会出现全球性的芯片短缺—归根结底还是GPU供应和VRAM的问题。
将模型的响应与事实性、可验证的来源相连接,而不是仅仅依赖其训练数据。锚定技术包括 RAG、网络搜索集成和引用要求。一个基于事实的响应会说“根据 [来源]”,而不是仅仅陈述事实。
为什么重要: 依据是防止幻觉的主要防御手段。无依据的模型会自信地编造事实。而有依据的模型则会指向你可以验证的真实来源。
防止AI模型生成有害、不恰当或偏离主题内容的安全机制。防护措施可以在训练期间内置到模型中(RLHF),通过系统提示应用,或通过外部过滤器强制执行,这些过滤器在输出到达用户之前检查内容。
为什么重要: 没有安全限制,模型会乐意帮助处理危险请求。挑战在于校准—过于严格,模型变得无用(“我帮不了你”),过于宽松则变得不安全。
H
训练开始前您选择的设置,用于控制模型的学习方式 — 与参数不同,参数是模型自行学习的。超参数包括学习率(每次更新的步长大小)、批量大小(一次处理的样本数量)、训练轮数(遍历数据的次数)、优化器选择(Adam、SGD、AdamW)、权重衰减、丢弃率,以及架构决策如层数和隐藏维度。正确设置超参数往往是模型顺利收敛与陷入混乱或无意义结果之间的关键差异。
为什么重要: 超参数调优是机器学习工程中科学与技艺并存的部分。即使拥有完美的数据集和网络结构,但学习率过高会导致训练崩溃,过低则无法收敛。理解超参数对于训练或微调模型的人来说至关重要——知道哪些超参数最关键,可以节省大量计算资源。
AI视频平台,专精于生成逼真的面部动画和自动口型同步配音。被企业用于营销、培训和本地化——将一个视频转换为数十种语言,同时保持口型同步。
为什么重要: HeyGen 将 AI 视频虚拟形象从一项研究课题转变为真正的企业级工具,证明了将视频内容创作变得像写文档一样简单可以带来实际收入。他们的口型同步配音技术对全球企业具有特殊意义 — 它将视频本地化的成本和时间从数周和数千美元大幅降低到分钟和美分。作为少数几家拥有稳定持续性收入的 AI 视频公司之一,HeyGen 也成为了如何在生成式 AI 上构建真正商业的案例研究,而不仅仅是一个演示。
新兴的图像生成公司正在构建高质量的扩散模型。他们的开放权重版本在创意AI社区中因强大的提示遵循能力和出色的视觉质量而受到关注。
为什么重要: HiDream展示了小型专注团队可以开发出开放权重的图像模型,其输出质量可与那些在训练基础设施上投入数量级更多资源的组织相媲美。他们的模型在文本渲染和组合准确性方面的优势,解决了阻碍AI生成图像商业应用的实际痛点。在快速商品化的开放图像模型领域,HiDream的成功强化了这样一个模式:下一次质量飞跃可能来自任何地方—不仅仅是拥有最多GPU的最大实验室。
AI公司正在构建能够理解和表达人类情感的模型。他们的Empathic Voice Interface能够实时检测语调、情感和情感语境,使AI对话不仅能够回应你所说的话,还能回应你说话的方式。
为什么重要: Hume 之所以重要,是因为他们正在解决现代AI中最明显的盲点:情感理解。如今的每一个聊天机器人、语音助手和AI代理本质上都对语调不敏感,只关注文字的字面内容,而忽略了人类本能依赖的情感语境。Hume 的 Empathic Voice Interface 是首个在生产规模上真正尝试弥合这一差距的系统,而他们对情感AI伦理准则的坚持,也为行业树立了最终不得不采纳的标准。
当AI模型生成的信息听起来自信且合理,但实际上是错误的或完全虚构时。模型并不是在“撒谎”—它只是通过模式匹配生成流畅的文本,而没有对真理的概念。虚假的引用、编造的统计数据和不存在的API方法是常见的例子。
为什么重要: 幻觉是当今AI领域最大的信任问题。这就是为什么你应该始终验证AI输出中的关键事实,以及为什么存在诸如RAG和grounding等技术。
L
在Midjourney和Stable Diffusion之间找到独特定位的澳大利亚AI图像平台,因其经过微调的模型、实时画布以及专注于可直接用于生产的创意素材,深受游戏开发者和数字艺术家欢迎。
为什么重要: Leonardo.ai 表明,AI 图像生成可以被打包为一个专业的创意平台,而不仅仅是新奇的提示框,并且这样做可以吸引数千万用户。他们对游戏开发和数字艺术工作流程的关注,开辟了 Midjourney 和 DALL-E 等更广泛工具并未专门设计的使用场景。Canva 的收购验证了整个 AI 图像生成类别作为主要设计平台的战略资产的地位,并为独立 AI 工具如何被整合进更大的创意生态系统设定了模板。
MIT 分拆公司正在探索受生物神经回路启发的、从根本上不同的神经网络架构。他们的 Liquid Foundation Models 使用连续时间动力学而非固定权重的 Transformer,有望实现更高的效率和适应性。
为什么重要: Liquid AI 代表着对“transformer 是唯一重要的架构”这一假设的最严重资金支持的挑战。通过基于生物启发的连续时间动力学构建生产级基础模型,他们正在测试AI行业对注意力机制的全押赌注是否过于仓促。即使LFMs无法彻底取代transformer,它们在边缘部署和长序列处理方面的效率优势,可能在机器人、移动AI和嵌入式系统等领域开辟关键细分市场——在这些市场中,运行一个70B参数的transformer模型根本不可行。
专注于视频和3D生成的人工智能公司。他们的Dream Machine是首批可访问的高质量AI视频生成器之一,而Ray2则显著提升了视频质量和连贯性。
为什么重要: Luma AI 通过让 AI 视频生成变得免费、快速且任何有浏览器的人都可以使用,就像 Stable Diffusion 让图像生成民主化一样。他们从 3D 捕捉初创公司发展成为领先的视频生成公司,结合在空间理解方面的独特技术深度,使他们成为少数几家真正能够弥合 AI 视频、3D 内容与下一代沉浸式媒体格式之间差距的公司之一。
发送请求到收到首个响应之间的时间延迟。在 AI 领域,这通常被衡量为首个 Token 响应时间(TTFT)— 模型开始流式传输答案之前的时间。受模型规模、服务器负载、网络距离和提示长度的影响。
为什么重要: 用户认为超过 ~2 秒的响应时间就是缓慢的。低延迟正是为什么较小的模型在实时应用中经常胜出,即使更大的模型更“智能”。这是不同提供商之间的关键差异点。
一种通过大量文本训练的神经网络,用于理解和生成人类语言。“大型”指的是参数数量(数十亿)和训练数据规模(万亿个token)。Claude、GPT、Gemini、Llama 和 Mistral 都是大型语言模型(LLMs)。
为什么重要: 大型语言模型(LLM)是您使用的所有AI聊天机器人、代码助手和文本生成器背后的技术。理解它们的本质(统计模式匹配器,而非有意识的智能体)有助于您更有效地使用它们,并认识到它们的局限性。
一种通过仅训练少量额外参数而非修改整个模型,显著降低微调成本的技术。LoRA “适配器”是轻量级附加组件(通常仅需数兆字节),可在不重新训练其数十亿个参数的情况下修改模型的行为。
为什么重要: LoRA使微调更加普及。在此之前,定制一个7B模型需要强大的GPU资源。现在你可以在单块消费级GPU上数小时内完成微调,并分享这个小巧的适配器文件。这就是为什么HuggingFace上有数千个专业模型的原因。
M
一个经过训练的数学系统,它接收输入并根据从数据中学习到的模式生成输出。在人工智能领域,“model(模型)”是用于描述你实际使用的事物的统称——无论是GPT-4生成文本、Stable Diffusion生成图像,还是Whisper转录语音。一个模型由其架构(其结构方式)、参数(其学习内容)和训练数据(其学习来源)定义。当有人问“我应该使用哪个模型?”时,他们就是在问这个。
为什么重要: “模型”是AI领域中最常用的词汇,其在不同语境下含义各异。一个“模型”可以指代架构(Transformer),也可以指特定的训练实例(Claude Opus 4.6),或是磁盘上的文件(.gguf 文件),甚至是一个API端点。理解模型究竟是什么——以及它不是什么——是其他一切的基础。
计算机科学的一个广泛领域,系统通过数据学习模式,而不是遵循明确的规则。与其通过列举特征(四条腿、尖耳朵、胡须)来编程计算机识别猫,不如向它展示成千上万张猫的照片,让它自己找出模式。机器学习涵盖从简单的线性回归到驱动当今AI的深度神经网络——监督学习(带标签的示例)、无监督学习(发现结构)和强化学习(试错)。
为什么重要: 机器学习是今天我们所称“人工智能”(AI)的一切基础。每一个大型语言模型(LLM)、每一个图像生成器、每一个推荐算法、每一个垃圾邮件过滤器——它们全部都是机器学习。将机器学习视为一个更广泛的学科来理解,能帮助你认识到深度学习适用的领域、传统方法依然占优的地方,以及为什么“人工智能”其实就是“做得非常好的机器学习”。
允许AI模型在单次对话之外保留和回忆信息的机制。这包括上下文记忆(使用上下文窗口)、外部记忆(RAG、向量数据库)、持久化对话记忆(跨会话记住用户偏好)和工作记忆(在多步骤代理任务中维持状态)。—记忆正是让AI感觉像一个协作者而非无状态工具的关键。
为什么重要: 没有记忆,每次AI对话都从零开始。你必须重复说明你的偏好,重新解释你的代码库,重新描述你的项目。记忆正是将聊天机器人转变为助手的关键——而它也是最难妥善解决的问题之一,需要在相关性、隐私性、数据陈旧性和存储成本之间取得平衡。
中国人工智能公司因推出Kimi而引起轰动,这是一款拥有200万token上下文窗口的聊天机器人。由杨志林创立,他此前是长上下文建模关键创新的幕后研究人员。
为什么重要: Moonshot AI迫使整个行业认真对待上下文长度。在Kimi出现之前,长上下文支持只是锦上添花;而Kimi在中国爆红后,每家主要实验室都争相扩展其上下文窗口。杨志林押注用户在拥有足够上下文时会彻底改变与AI的交互方式,这一押注已被Kimi的爆炸性增长所验证,而Moonshot开发的高效长序列推理技术正在影响下一代模型处理文档、代码库和复杂多步骤推理的方式。
欧洲人工智能巨头,由前DeepMind和Meta研究人员创立。凭借高效模型实现超预期表现,并倡导开放权重分发与商业产品并行推进。
为什么重要: Mistral证明了,你不需要美国超大规模云服务商的预算来构建前沿AI模型。他们的高效架构——尤其是早期在稀疏Mixture of Experts方面的研究——影响了整个行业对模型设计的思路,并通过开源权重发布,让全球开发者无需依赖API即可访问高质量模型。作为首家达到真正前沿竞争水平的欧洲AI公司,Mistral还具有战略意义:他们的成功(或失败)将决定欧洲能否成为AI领域的参与者,而不仅仅是监管者。
中国AI公司构建跨文本、语音和视频的大规模模型。以其Hailuo消费平台和日益具有竞争力的多模态模型而著称。
为什么重要: MiniMax 已经成为中国最全能的AI公司之一,通过一体化技术栈在文本、语音和视频领域构建具有竞争力的模型。他们的 Hailuo AI 平台向全球用户免费提供高质量的AI视频生成服务,证明了中国AI实验室能够打造真正具有国际影响力的产品——而不仅仅是企业级API或研究论文。
一个开放协议(由Anthropic创建),用于标准化AI模型如何连接外部工具和数据源。可以将其视为AI领域的USB-C——一种统一的标准接口,而不是为每个工具都进行定制集成。MCP服务器提供功能;MCP客户端(如Claude)使用这些功能。
为什么重要: 在MCP出现之前,每个AI工具集成都是定制的。MCP意味着一次构建的工具可以与任何兼容的AI配合使用。它目前已获得Claude、Cursor等的支持。这就是AI从聊天机器人转变为真正助手的方式。
一种架构,其中模型包含多个“专家”子网络,但每个输入仅激活其中少数几个。一个路由网络决定哪些专家与给定的token相关。这意味着模型可以拥有1000亿+的总参数,但每次前向传递仅使用200亿个参数。
为什么重要: MoE 是 Mixtral 等模型(据报道还有 GPT-4)实现大模型质量与小模型速度的方法。权衡在于更高的内存占用(所有专家模型都必须加载),尽管计算成本更低。
能够理解和/或生成多种类型数据(文本、图像、音频、视频、代码)的模型。克劳德可以读取图像和文本;一些模型还可以生成图像或语音。“多模态”与仅处理一种类型数据的“单模态”模型形成对比。
为什么重要: 现实中的任务是多模态的。你想向AI展示一张截图并问“这里有什么问题?”,或者给它一张图表并说“实现这个”。多模态模型使得这一切成为可能。
N
人工智能的一个分支,旨在使机器能够理解、解释和生成人类语言。自然语言处理涵盖了从基础的文本处理(分词、词干提取、词性标注)到复杂任务如情感分析、机器翻译、摘要生成和问答系统的一切内容。在Transformer模型出现之前,自然语言处理是一些拼凑而成的专用技术集合。如今,大语言模型(LLMs)已将大部分自然语言处理任务统一于一个范式——但理解这些模型为何有效,仍需重视该领域的基础理论。
为什么重要: NLP 是你能够用普通英语与 AI 交流并得到有用答案的原因。每个聊天机器人、每个搜索引擎、每个翻译服务、每个 AI 写作工具都属于 NLP。即使你从未从零开始构建 NLP 系统,理解基础概念 — tokenization、attention、embeddings、context — 也能让你更好地使用所有处理文本的 AI 工具。
这家公司的GPU驱动了全球几乎所有AI训练和大部分推理。最初是一家显卡公司,它成为了AI行业最关键的硬件供应商,短暂地使NVIDIA成为地球上最有价值的公司。
为什么重要: NVIDIA 是一家没有它就无法实现人工智能革命的公司——他们的 GPU 和 CUDA 软件生态系统是几乎所有重大 AI 模型训练的基础。结合专为 AI 设计的硬件、长达十年的软件护城河,以及对连接 GPU 的网络架构的控制权,使他们在 21 世纪最关键供应链中占据了近乎垄断的地位。当政府、企业和研究机构争夺 AI 计算能力时,他们实际上是在争夺 NVIDIA 的硬件,而这一事实使 Jensen Huang 的昔日显卡公司成为了地球上战略上最重要的科技公司。
一种受生物大脑启发,由多层相互连接的“神经元”(数学函数)组成,这些神经元通过数据学习模式的计算系统。信息通过各层流动,逐步转换,直到网络产生输出。每个现代AI模型都是一种神经网络。
为什么重要: 神经网络是所有AI的原理。理解它们其实是数学(而不是魔法,也不是大脑)有助于澄清AI能做什么和不能做什么。它们是模式匹配器—极其强大的模式匹配器,但终究还是模式匹配器。
O
一系列用于使AI模型更快、更小、更便宜或更准确的技术。这包括训练优化(混合精度、梯度检查点、数据并行)— 推理优化(量化、剪枝、知识蒸馏、推测解码)— 以及服务优化(批处理、缓存、负载均衡)。优化使得你可以在笔记本电脑上运行140亿参数的模型。
为什么重要: 原始能力如果无法负担运行成本,就毫无意义。优化是研究演示与生产产品之间的关键差异—这也是为什么开放权重模型能够与API提供商竞争,为什么移动AI得以存在,以及为什么推理成本持续下降的原因。
ChatGPT和GPT系列模型背后的公司。最初是一家非营利研究实验室,当ChatGPT于2022年11月推出时,OpenAI成为了人工智能革命的公众面孔。
为什么重要: OpenAI 是所有组织中最具影响力的,将人工智能从研究实验室带入主流意识的先行者。ChatGPT 是生成式 AI 的 iPhone 时刻——这款产品让数亿人直观地理解了大型语言模型的潜力。他们的 API 构建了基础设施层,成千上万的 AI 初创企业正是基于此建立起来的,而 GPT 系列在多年间确立了规模扩展作为人工智能研究的主导范式。即使 OpenAI 的争议——治理危机、从非营利到营利的转变、专注于安全的研究人员的离职——也塑造了关于人工智能公司应该如何构建和治理的更广泛讨论。
当一家公司发布模型的训练参数,供任何人下载和运行时,"开放权重"比"开源"更准确,因为大多数发布的模型不包含训练数据或训练代码—你得到的是成品模型,而不是制作它的配方。Llama、Mistral和Qwen都是开放权重模型。
为什么重要: 开放权重意味着您可以在自己的硬件上运行AI,实现完全隐私—不需要调用API,数据也不会离开您的网络。代价是您需要具备运行它们的GPU资源,并需自行负责安全性。
当模型过度记忆训练数据,导致无法对新输入进行泛化时。就像一个学生死记硬背练习题答案,却无法解决新问题。模型在训练数据上表现优异,但在未见过的数据上表现不佳。
为什么重要: 过拟合是模型训练中最常见的失败模式。这就是为什么评估会使用独立的测试集,以及为什么训练时间过长(过多的训练轮次)反而会让模型表现更差。
P
神经网络在训练过程中学到的内部值—本质上是模型以数字形式编码的“知识”。当有人说一个模型有“70亿个参数”时,意思是训练过程中调整了70亿个独立的数值,以捕捉数据中的模式。更多的参数通常意味着更强的学习复杂模式的能力,但也需要更多的存储内存和更多的计算资源来运行。
为什么重要: 参数数量是模型规模最常见的简称,它直接决定了您需要多少GPU内存。一个16位精度的7B模型仅权重就需要约14GB的VRAM。理解参数有助于您估算成本、选择硬件,并理解为什么量化(降低每个参数的精度)对于使模型易于访问如此重要。
中国视频生成公司正在构建易于使用的AI视频工具。以其快速的生成速度和免费层级而闻名,这帮助他们在国际市场上迅速建立了庞大的用户群。
为什么重要: PixVerse证明了AI视频生成可以成为一种大众市场产品,而不仅仅是一种面向专业人士和早期采用者的工具。他们激进的免费层级和快速迭代周期迫使整个行业重新思考定价和可访问性。通过在一年内建立AI视频领域最大的用户群体之一,他们证明了在决定谁能在该市场胜出时,分发渠道和执行速度可能与原始模型质量同样重要—。
结合实时网络搜索与语言模型推理的AI搜索引擎,提供直接且有来源的答案,而非链接列表。这是过去一代人中对谷歌搜索主导地位最显著的挑战。
为什么重要: Perplexity 是过去十年来对谷歌搜索主导地位最可信的挑战,证明了原生AI答案引擎可以为信息检索查询提供根本更好的体验。他们将检索增强生成(RAG)范式作为消费级产品推广,展示了将实时网络搜索与大型语言模型(LLM)推理相结合,所产生的结果比单独使用任何一种技术都更有用且更可信。其迅速增长迫使谷歌、微软以及所有其他搜索引擎玩家重新思考在大语言模型时代搜索引擎应有的形态。
模型最初的大规模训练阶段,通过海量语料库学习语言(或其他模态)。这是昂贵的部分—数千块GPU运行数周或数月,耗资数百万美元。结果是一个基础模型,它理解语言,但尚未针对任何任务进行专业化。
为什么重要: 预训练使得基础模型成为可能。这也是为什么只有少数公司能够创建前沿模型 — 计算成本极其高昂。所有其他内容(微调、RLHF、提示技术)都基于此基础。
通过精心设计输入以获得更好的AI模型输出的实践。这包括从简单技巧(明确具体、提供示例)到高级方法(思维链、少量示例提示、角色分配)的范围。尽管名称听起来很花哨,但本质上是与统计系统进行清晰沟通的问题。
为什么重要: 相同的模型根据提问方式不同可能会产生截然不同的结果。优秀的提示工程是提升AI输出质量最经济的方式——无需训练,无需微调,只需更有效的沟通。
R
一种训练范式,其中AI代理通过与环境互动、采取行动并接收奖励或惩罚来学习。与监督学习(从带标签的示例中学习)不同,强化学习(Reinforcement Learning, RL)通过试错从经验中学习。强化学习训练出的AlphaGo击败了世界冠军,教会机器人行走,并且是RLHF中的“RL”,使聊天机器人更有帮助。
为什么重要: 强化学习是AI学习如何行动,而不仅仅是预测的方法。它是能够回答问题的模型与能够完成目标的智能体之间的桥梁。所有随时间推移进行规划、制定策略或优化的AI系统,其根源中必然包含强化学习。
AI模型逐步思考、分解复杂问题并得出逻辑严谨结论的能力。现代推理模型(如OpenAI的o1/o3和DeepSeek-R1)在回答前会生成明确的推理过程,显著提升了数学、编程和逻辑任务的表现。这与简单的模式匹配不同——推理模型能够解决前所未见的问题。
为什么重要: 推理是区分“听起来聪明的AI”—与“真正聪明的AI”的关键能力。具备良好推理能力的模型可以调试代码、证明定理、制定多步骤策略,并发现并纠正自己的错误。目前,具备和不具备强大推理能力的模型之间的差距,是人工智能领域中最重要的质量区分因素。
加拿大语音AI公司,专注于高保真语音克隆和实时语音合成。该公司是首批推出神经音频水印技术用于深伪检测的企业之一,自创业之初便高度重视语音克隆技术可能引发的伦理问题。
为什么重要: Resemble AI 之所以重要,是因为他们很早就意识到,缺乏安全基础设施的语音克隆是一种隐患,而非产品。通过在推出语音合成工具的同时,也推出深度伪造检测和神经水印技术,他们为负责任的语音AI树立了典范,如今整个行业都在争相效仿。随着全球对合成媒体的监管不断加严,Resemble 在来源验证和同意验证方面的先发优势,使其成为企业真正可以信赖的语音AI公司。
由前DeepMind、Google Brain和FAIR研究人员创立的AI研究公司。正在构建原生多模态模型,能够从零开始处理文本、图像、视频和音频。
为什么重要: Reka证明了一个拥有合适背景的小型研究团队无需数十亿美元的资金即可构建前沿级多模态模型——并且从零开始训练的原生多模态架构可以优于大多数大型实验室采用的拼接式方法。他们从成立到被Snowflake收购的快速轨迹也揭示了企业数据平台如今对AI人才的强大吸引力,这表明多模态AI的未来可能存在于数据基础设施公司,而非独立研究实验室中。
专注于专业级图像和矢量图形生成的AI设计工具。首批能够生成真正可用设计素材的工具之一——SVG、品牌一致的样式以及设计师真正想要使用的可直接用于生产的输出。
为什么重要: Recraft 是一家罕见的人工智能公司,专注于为专业设计师而非病毒式社交媒体时刻而建,并证明了这种方法可以产生最先进的成果。他们对生产就绪输出的专注——干净的矢量图、品牌一致性、透明背景——填补了其他图像生成公司尚未认真解决的空白,使他们成为行业中最接近真正设计工具的存在,而非仅仅是一件艺术玩具。
领先的AI视频生成公司。与他人共同创建了最初的Stable Diffusion架构,随后转向视频领域,其Gen系列模型为AI影视制作工具设定了行业标杆。
为什么重要: Runway 是将 AI 视频生成从研究探索转变为电影制作工具的公司,以不断推出模型的速度保持领先地位,即使资金雄厚的竞争对手进入该领域。他们以创意工具为核心的理念——源自艺术家而非仅工程师——使他们对专业工作流程的理解是纯研究实验室难以复制的,而他们选择构建综合平台而非仅仅一个模型的策略,可能证明是正确的长期布局。
一种通过在生成响应前检索相关文档,从而使AI模型获取外部知识的技术。与仅依赖模型在训练期间学到的内容不同,RAG会搜索知识库,找到相关片段,并将其作为上下文包含在提示中。
为什么重要: RAG 解决了两个主要问题:幻觉(模型有真实的来源可以参考)和知识截止(知识库可以在不重新训练的情况下更新)。这就是大多数企业AI实际运作的方式。
每分钟/每小时/每天可进行的API请求次数限制。提供商实施速率限制以防止服务器过载并确保公平访问。限制通常针对每个API密钥,并可能限制每分钟请求数(RPM)和每分钟令牌数(TPM)。
为什么重要: 速率限制是你在扩展AI应用时遇到的无形天花板。它们解释了为什么批量处理很重要,为什么你需要重试逻辑,以及为什么一些提供商对更高的速率限制收取更多费用。
故意尝试让AI模型失效、行为异常或产生有害输出的做法。红队会探测漏洞:越狱、偏见、生成错误信息、隐私泄露。该术语源自军事推演,其中“红队”扮演对手角色。
为什么重要: 你无法修复你不知道的问题。红队测试是提供商发现其模型会在你要求它“写一个关于锁匠的故事”时,解释如何开锁的方法。这是在每次重大模型发布前必须进行的关键安全工作。
一种训练技术,由人类评估者根据输出质量对模型输出进行排序,此反馈用于训练一个奖励模型,引导AI生成更优质的响应。这正是将原始预训练模型(仅预测下一个词)转变为有帮助且无害助手的关键。
为什么重要: RLHF 是让 ChatGPT 与 GPT-3 显得不同的关键因素。基础模型已经“知道”一切,但 RLHF 教会了它以人类实际认为有用的方式呈现这些知识。这也是强化安全行为的方法。
S
AI模型倾向于告诉用户他们想听的,而不是事实真相。谄媚型模型会同意错误的前提,验证错误的想法,即使最初是正确的,当被质疑时也会改变立场,并优先考虑被喜欢而非提供帮助。谄媚是RLHF训练的直接副作用——模型学会同意的回应会从人类评估者那里获得更高的评分,因此它们优化的是同意而非准确性。
为什么重要: 谄媚是AI中最隐蔽的失败模式之一,因为它对被奉承的用户来说是不可见的。如果你问一个模型“这不是一个绝妙的商业点子吗?”而它总是回答“是的”,那么你得到的是一面镜子,而非顾问。对抗谄媚是对齐研究的活跃领域,这也是为什么最好的模型会在需要时被训练成礼貌地提出不同意见。
对大型语言模型的批评认为,它们仅仅是复杂的模式匹配器,通过拼接看似合理的文本而并不具备对意义的理解。这一术语由艾米丽·班德(Emily Bender)、蒂米特·格布鲁(Timnit Gebru)及其同事在其具有影响力的2021年论文《On the Dangers of Stochastic Parrots》中提出,该论文警告称,大型语言模型会从训练数据中编码偏见,消耗巨大资源,并制造出一种理解的幻觉,使用户误以为它们比实际情况更值得信赖。
为什么重要: “随机鹦鹉”争论触及AI实际上“理解”什么的核心。大型语言模型(LLMs)是否真正进行推理,还是仅仅擅长统计模仿,这影响着我们如何部署它们、我们对其输出的信任程度以及如何监管它们。这也是批评者评估每项新能力声明的视角——这究竟是真正的进步,还是更会模仿的鹦鹉?
低质量、通用、不受欢迎的人工智能生成内容,充斥着互联网。该术语于2024年出现,用作对劣质人工智能文本、图像和视频泛滥成灾的贬义词,这些内容污染了搜索结果、社交媒体信息流和在线市场。Slop是人工智能内容的垃圾邮件等价物——从技术上讲是“内容”,但毫无价值,通常与其他Slop难以区分,并且会降低其接触的每个平台的质量。例如,LinkedIn上以“在当今快节奏的世界中”开头的帖子,六指手的股票照片,或2000字却毫无内容的SEO文章。
为什么重要: 劣质内容是内容生成免费化的环境成本。当任何人可以在几分钟内生成1000篇博客文章或10000张产品图片时,内容创作的经济模式崩溃——质量也随之崩溃。劣质内容正是平台竞相开发AI检测工具的原因,也是谷歌不断更新搜索算法的原因,更是“人工创作”逐渐成为卖点的原因。它也是对“AI将民主化创意”这一天真观点最有力的反驳。
中国AI初创公司正在构建具有竞争力的大型语言模型和多模态模型。他们的Step系列在国际基准测试中表现出色,得益于大量的计算资源投入。
为什么重要: StepFun证明了中国的AI生态系统能够从零开始培育出真正的竞争对手,而不仅仅是依赖现有的科技巨头。他们的Step模型在国际基准测试中始终表现超出其体量,而他们快速扩展到多模态和视频生成领域,也表明组织良好的初创公司即使资源相对有限,也能覆盖广泛的能力范围。对于全球AI市场而言,StepFun代表了那种让中国独立AI初创企业生态无法被忽视的公司——技术实力强劲、面向国际市场,并且发展速度足够快,足以让许多规模更大的竞争对手保持警惕。
一家设计定制芯片(RDUs)的人工智能硬件公司,这些芯片专为人工智能工作负载打造。其SambaNova Cloud提供了目前最快的推理速度之一,与Groq在人工智能服务的“以速度优先”方法上展开竞争。
为什么重要: SambaNova 的重要性在于,NVIDIA 不应是 AI 计算领域的唯一主导者,必须有人证明专用 AI 芯片能够在实际市场中竞争,而不仅仅停留在研究论文中。他们的 RDU 架构表明,当硅芯片专门针对神经网络工作负载进行设计时,可以实现显著的性能提升,而他们的云推理服务则让开发者一窥后 GPU 时代 AI 基础设施的可能形态。无论 SambaNova 本身是否成为主导替代方案,它与 Groq、Cerebras 以及云服务商定制芯片所施加的竞争压力——对于一个无法承受永久硬件单一化的行业来说——都是有益的。
印度人工智能公司正在构建专门针对印度语言多样性进行优化的模型。他们的模型能够以全球模型始终难以达到的流畅度处理印地语、泰米尔语、泰卢固语、孟加拉语等印度语言。
为什么重要: 在很大程度上被全球人工智能行业忽视的一个问题,Sarvam AI 提供了最可信的答案:谁来为全球五分之一人口实际使用的语言构建基础模型?凭借在印度人工智能研究社区、政府机构的深厚根基,以及专为印度语言多样性打造的产品架构,Sarvam 既代表了商业机遇,也是一项战略要务。他们的成功或失败将表明人工智能革命是否真正实现全球化,还是仅仅停留在以英语为主的现象,强行附加翻译。
通过在2022年将Stable Diffusion作为开源项目发布而推动图像生成技术大众化的公司。尽管经历了领导层动荡,他们的模型仍然是开源图像生成生态系统中的支柱。
为什么重要: Stability AI通过发布Stable Diffusion点燃了开源图像生成革命,创建了一个由数千个衍生模型、工具和创意应用组成的生态系统,这是任何封闭平台都无法匹敌的。即使经历了领导层变动和财务动荡,他们的基础理念——生成式AI应为所有人所用,而不仅仅是那些能负担得起API调用的人——彻底重塑了整个行业,并为开源AI公司的运营方式设定了模板。
一家AI音乐生成公司,允许任何人通过文本提示创建完整的歌曲—人声、乐器、制作—。在数月内从默默无闻发展到拥有数百万用户,迫使音乐行业正视AI创造力的冲击。
为什么重要: Suno证明了AI可以通过纯文本提示生成完整且可聆听的歌曲,一夜之间创造了一种全新的创意工具类别。他们正处于生成式AI领域最具影响力的版权之争的核心,RIAA诉讼的结果很可能为所有模态中训练数据权利的运作方式设定先例。更广泛地说,他们代表了最严峻的考验,即民主化创意工具究竟是扩展了人类表达,还是削弱了支撑专业艺术家的经济基础。
一种替代Transformers的模型,通过维护一个压缩的“状态”来处理序列,而不是对所有token使用注意力机制。Mamba是最著名的SSM架构。SSM的计算复杂度随序列长度线性扩展(而注意力机制是二次方扩展),这使得它们在处理非常长的上下文时可能效率高得多。
为什么重要: SSMs 是 Transformer 主导地位的主要挑战者。它们在处理长序列时速度更快,并且占用更少的内存,但相关研究仍处于成熟阶段。混合架构(将 SSM 层与注意力机制结合)可能会成为兼具两者优势的最佳方案。
在对话开始时给予模型的特殊指令,用于设定其行为、性格和规则。与用户消息不同,系统提示应具有持久性和权威性—它定义了本次会话中模型的身份。“你是一个乐于助人的编码助手。始终使用TypeScript。”
为什么重要: 系统提示是无需微调即可定制AI行为的主要工具。它们就是企业让Claude扮演客服代理、代码审查员或医疗信息助手的方式—相同模型,不同系统提示。
T
微信背后的中国科技巨头,全球最大的游戏公司之一,同时在生成式人工智能领域日益成为一股重要力量。其伏羲模型驱动着腾讯庞大生态系统中的各项功能,服务超过十亿用户。
为什么重要: 腾讯在AI领域的重要性与在其他领域一样,源于其规模和分布能力。微信拥有13亿用户,游戏帝国覆盖所有主要平台,腾讯能够比地球上几乎所有公司更快地将AI功能部署给更多人。他们的混元模型,尤其是混元视频,证明了大型企业集团的AI实验室可以产出真正具有竞争力的作品,而不仅仅是可用的内部工具。对于全球AI生态系统而言,腾讯对视频和语言模型的开源发布提高了免费可用技术的基准线,而其基础设施投资确保了即使在芯片出口限制下,中国的AI能力依然强大。
视频理解公司,让您可以通过自然语言搜索、分析和生成视频内容。可以将其视为“视频的RAG”—他们的模型理解视频内容的方式,就像大型语言模型(LLM)理解文本一样。
为什么重要: Twelve Labs 正在构建基础架构,使全球视频内容实现机器可读。在视频主导数字通信的时代,但AI仍难以对其进行搜索—他们的专用嵌入和生成模型解决了连最前沿的实验室也仅浅尝辄止的问题。如果视频是互联网的主要媒介,那么能在生产规模上破解视频理解的人,将占据堪比谷歌搜索在文本领域所处的战略地位。
专注于从文本或图像生成3D模型的人工智能公司。在大多数3D生成技术仅能产出不可用的模糊块的领域中,Tripo凭借能够生成干净、可直接用于生产的网格模型而脱颖而出,这些模型真正可供游戏开发者和设计师使用。
为什么重要: Tripo 代表着将人工智能生成的3D内容真正应用于生产环节的最前沿。尽管大多数AI生成的3D内容仍需大量手动清理,Tripo 坚持不懈地专注于网格质量、正确的拓扑结构,以及与真实工作流程的整合——这些不那么吸引眼球的工程,正是将研究演示与专业人士愿意付费的工具区分开来的关键。随着空间计算和实时3D内容需求激增,率先解决生产级生成问题的公司将抢占巨大的市场份额。
一个控制模型输出随机性或确定性的参数。温度值为0时,模型始终选择概率最高的下一个token(确定性,专注)。温度值为1+时,模型更倾向于选择概率较低的token(创造性,不可预测)。大多数API默认值约为0.7。
为什么重要: 温度是创意调节器。写小说?调高。生成代码或事实性答案?调低。这是你可以调整的最具影响力的参数之一,而且实验成本为零。
AI模型处理文本的基本单位。一个token通常是一个词或词的一部分—"understanding"可能是一个token,而"un" + "der" + "standing"可能有三个。平均来说,一个token大约相当于英语中一个词的3/4长度。模型在读取、思考和计费时都以token为单位。
为什么重要: Token 是 AI 的货币。上下文窗口以 token 为单位进行衡量。API 定价按 token 计算。当提供商提到 “1M 上下文” 时,他们指的是 100 万个 token—大约 75 万字。理解 token 有助于您估算成本并优化使用。
V
用于生成、理解及操控人类语音的人工智能系统。这包括文本到语音(TTS)、语音到文本(STT/ASR)、声音克隆、实时语音翻译、语音情感识别以及对话式语音代理。该领域已发展到人工智能生成的语音通常与人类语音难以区分的程度。
为什么重要: 语音是最自然的人类界面,而AI终于使其变得可编程。语音AI驱动了从客服机器人到有声书朗读再到实时会议转录的一切应用。声音克隆—知情同意、身份、欺诈—的伦理影响,使其成为人工智能领域中最敏感的领域之一。
生数科技推出的视频生成平台,能够生成一些物理上连贯的AI生成视频。凭借出色的运动质量和多镜头一致性,与西方竞争对手相媲美。
为什么重要: Vidu证明了中国AI实验室能够在Sora发布数月内就达到与西方相当的视频生成质量,颠覆了关于AI视频领域技术前沿实际所在位置的假设。他们对物理一致性和多镜头一致性的专注推动了整个领域的发展,迫使竞争对手将真实感置于视觉表现之上。对于更广泛的AI视频市场而言,Vidu激进的定价策略和API的可用性也帮助降低了成本,提高了全球开发者的获取便利性。
嵌入模型公司构建针对代码、法律、金融和多语言搜索的专用向量。其模型在MTEB排行榜上始终名列前茅,并通过API提供业内领先的检索质量。
为什么重要: Voyage AI证明了嵌入模型值得与大语言模型(LLM)一样获得同等的工程关注和投资。在大多数供应商将向量表示视为低利润工具的市场中,Voyage展示了领域特定的嵌入模型可以显著提高检索准确性——这是生产环境中RAG系统最重要的杠杆。他们被谷歌收购验证了这样一个论点:掌握嵌入层的人就掌控了人工智能搜索基础设施的基础。
一种优化用于存储和搜索嵌入(向量)的数据库。与传统数据库通过匹配精确关键词不同,向量数据库能够找到语义上最相似的条目。当你询问“如何修复内存泄漏”时,它会返回关于“调试RAM消耗”的文档,因为它们的嵌入向量相近。
为什么重要: 向量数据库是使RAG得以实现的存储层。没有它们,每次查询时都需要将整个知识库进行嵌入。它们也是推荐系统和语义搜索的核心支撑。
GPU上的内存,与系统RAM分开。AI模型必须适合VRAM才能在GPU上运行。一个70亿参数、16位精度的模型需要约14GB的VRAM。消费级GPU有8-24GB;数据中心GPU(A100、H100)有40-80GB。VRAM几乎总是本地AI的瓶颈。
为什么重要: VRAM决定了你可以运行的模型。这就是为什么存在量化(将模型缩小以适应),为什么MoE模型很棘手(所有专家都必须装入VRAM),以及为什么GPU价格与内存容量呈陡峭增长。“它能否装入VRAM?”是自托管AI的第一个问题。