每一個生成式AI系統,不論其模態為何,在概念層面上都執行類似的工作:學習其訓練資料的統計分布,然後從該分布中抽樣以產生新的輸出。語言模型學習的是詞序列的機率分布——根據網路上所有的文字,下一個詞元最有可能是什麼?影像模型學習的是構成「一張貓的照片」與「日落的油畫」的像素排列分布。輸出並不是從資料庫中檢索而來,而是根據學習到的模式,逐個詞元或逐個像素地構建出來。這就是生成式AI與搜尋引擎或推薦系統真正不同的地方:它產生的是以前不曾存在過的東西,這些東西是由訓練期間吸收的模式組合而成。
文字生成主要由大型語言模型主導。OpenAI的GPT系列、Anthropic的Claude、Google的Gemini,以及Meta的開放權重Llama家族是主要參與者,數十個小型實驗室和開放源碼專案則填補了各種利基市場。影像生成則分為兩派:擴散模型(Stability AI的Stable Diffusion、Midjourney、DALL-E 3)和較新的流匹配方法。視訊生成較晚出現,且仍然較困難——Runway、Pika、Google的Veo,以及OpenAI的Sora代表目前的前沿,但視訊生成成本高昂,且仍難以維持時間上的一致性。聲音生成涵蓋語音合成(ElevenLabs、OpenAI的語音模型)、音樂創作(Suno、Udio)和音效。程式碼生成已成為獨立的類別,GitHub Copilot、Cursor,以及各種由Claude和GPT驅動的程式碼助手正在改變軟體撰寫的方式。3D模型生成是最年輕的模態,Meshy、Tripo以及NVIDIA的研究開始能從文字或影像提示中產生可用的網格和紋理。所有模態的趨勢都相同:品質每六個月大幅改善一次,成本下降,而「AI生成」與「人類創作」之間的差距逐漸縮小。
生成式AI在主流化之前已經存在了數年。GPT-2在2019年就能生成可接受的段落。DALL-E在2021年初生成了粗糙的影像。但2022年的兩次發布改變了一切。Stable Diffusion於2022年8月以開放源碼方式發布,讓影像生成免費地出現在任何人的筆電上——一夜之間,數百萬人開始創作影像,這些影像以前需要專業藝術家或股票照片訂閱才能完成。然後,ChatGPT於2022年11月推出,兩個月內就達到一億用戶。前後對比十分明顯。2022年之前,生成式AI只是NeurIPS會議上討論的研究奇觀。2022年之後,它成為董事會會議、學校政策辯論和晚餐桌上的話題。技術本身雖然逐漸改進,但介面的突破——使其對話化、易於使用、免費——才是引發文化轉變的關鍵。
業務影響不均但確實存在。內容創作是第一個感受到影響的產業:行銷文案、社群媒體貼文、部落格文章、產品描述——這些以前需要作家花數小時完成的任務,現在只需幾秒鐘就能草擬。客服採用聊天機器人和AI助手處理常見問題,僅將困難案例交由人工處理。軟體開發看到了最可衡量的生產力提升,研究顯示開發人員使用AI助手時,程式碼完成速度提高了30–55%。創意工具全面整合生成式AI:Adobe在Photoshop中加入了生成填充功能,Canva嵌入了文字到影像的生成功能,視訊編輯工具開始提供AI驅動的場景生成和編輯功能。模式是一致的——生成式AI最適合作為專業人員的加速器,而不是替代他們。擁有AI工具的優秀作家能產生更多且更快的內容。擁有AI工具的糟糕作家則會更快產生更多糟糕的內容。
生成式AI繼承了網際網路的內容,也繼承了網際網路的問題。版權是最具法律活躍性的關注點:使用版權保護的文本、影像和音樂訓練的模型,正面臨來自《紐約時報》、Getty Images以及數千名從未同意其作品用作訓練資料的個人創作者的訴訟。法律結果將塑造整個領域的經濟結構。職業替代是真實的,但比頭條新聞所暗示的要慢——翻譯、文案寫作、插圖和基礎程式設計都看到對初級人力需求的減少,但「AI取代所有人」的敘事尚未實現。誤導資訊是一個結構性問題:如果生成說服力強的文本和影像的成本幾乎為零,那麼看似合理的假資訊的數量將無限擴增。而品質氾濫——網際網路上充斥的AI生成內容的數量——已經開始降低搜尋結果、社群媒體動態和應用程式商店的品質。這些不是假設性的風險,它們正在發生,而且用於檢測和管理這些風險的工具始終落後於生成內容的工具。