总部位于柏林的人工智能公司,专注于搜索和嵌入技术。其jina-embeddings模型和Reader API(可将任何URL转换为适用于LLM的文本)已成为全球RAG流水线中的关键基础设施。
Jina AI 构建了数千个 RAG 系统依赖的嵌入和检索基础设施,证明了专注于搜索工具的价值可以胜过试图面面俱到。他们的长上下文嵌入模型和 Reader API 解决了 AI 驱动搜索中两个最难的实际问题——准确表示长文档以及从杂乱的网页中提取干净文本——同时他们还保持了核心模型的开源。在一个由通用型实验室主导的生态系统中,Jina 展示了专注做好一件事并让开发者极其简单易用,确实可以成为一项真正的商业价值。
Jina AI 由腾讯前TensorFlow团队负责人、曾就职于SAP Research的机器学习工程师肖涵于2020年创立。总部位于德国柏林,公司最初启动了一个雄心勃勃的开源项目:一个神经搜索框架,让开发者能够构建基于深度学习而非关键词匹配的搜索系统。早期的Jina框架在技术上令人印象深刻,但直到公司转向嵌入模型和开发者API时,才真正找到了商业立足点。Jina于2021年获得由Canaan Partners领投的3000万美元A轮融资,并通过在搜索基础设施与LLM时代需求交汇处寻找实用场景,持续稳步增长。
Jina的突破性产品是他们的jina-embeddings模型家族。2023年发布的jina-embeddings-v2模型是首批支持8192-token上下文长度的开源嵌入模型,是当时大多数竞争对手提供的八倍长度。这对于检索增强生成(RAG)系统至关重要,因为在这种系统中,需要在不将文档分割成小片段导致上下文丢失的情况下嵌入长文档。v3模型进一步通过多任务训练,使单个模型能够通过调整推理时的任务参数来处理不同的嵌入场景——检索、分类、聚类。Jina还推出了基于ColBERT的重排序模型(jina-reranker)和交叉编码器模型,当作为初始嵌入搜索后的第二阶段过滤器使用时,显著提升了检索质量。
Jina最聪明的产品举措可能是2024年推出的Reader API。它接受任何URL并返回干净的、适用于大型语言模型的文本提取——无广告、无导航栏、无Cookie弹窗,只有内容本身。开发人员在构建需要读取网页的RAG流水线或AI代理时立即爱上了它,因为网络爬虫在简单情况下容易实现,但在大规模时却极其复杂。Reader API处理JavaScript渲染、付费墙(在法律允许范围内)和复杂页面布局,返回结构化的Markdown格式,可以直接被语言模型处理。结合其嵌入API和重排序器,Jina为RAG系统的“检索”部分提供了完整的工具栈,这在每个AI应用都需要以真实文档为依据输出结果时,是一个明智的立足点。
Jina在开源与商业产品之间走了一条有趣的平衡线。他们的嵌入模型在Hugging Face上以Apache 2.0许可证提供,这推动了大规模采用——jina-embeddings模型已被下载数百万次。商业版则是托管API:使用相同的模型,但由Jina进行管理、优化,并以规模化方式提供,无需自行处理GPU资源分配的麻烦。这与Elastic(开源Elasticsearch,商业Elastic Cloud)和MongoDB采用的策略相同,之所以有效,是因为大多数公司更愿意支付合理的每token费用,而不是自行运营GPU基础设施。Jina还提供分类API和分段器API,用于智能文档分块,完善了其文档处理流水线工具包。
Jina在嵌入API领域与OpenAI的嵌入模型、Cohere的Embed、Google的Gecko以及Voyage AI等竞争。他们的差异化优势包括长上下文支持、多语言性能(特别是得益于柏林总部的多语言训练数据整理,在中文、德语及其他非英语语言上表现尤为突出),以及显著低于主要竞争对手的价格结构。他们并不试图建立基础模型实验室或在聊天功能上竞争——他们的赌注是搜索、检索和文档理解是每个AI应用都需要的基础设施层,而专注于此的公司可以比将嵌入作为附属产品的通用实验室构建更好的工具。这比打造下一个GPT的赌注更小、更不显眼,但可能最终会成为更具防御性的选择。