Meta FAIR 於 4 月 29 日發布 NeuralSet,一款 Python 框架,瞄準 neuro-AI 研究裡最痛的工作流之一:把腦資料 —— fMRI、MEG/EEG、spikes —— 與 HuggingFace Transformers 的文字或影片 embedding 一起送進深度學習管線。研究者們認為,現有工具鏈(MNE-Python、EEGLAB、FieldTrip、Brainstorm、Nilearn、fMRIPrep)雖久經考驗,但屬於「前深度學習」時代:假定資料集裝得進 RAM,缺乏把神經時間序列與現代模型高維 embedding 對齊的抽象,迫使每個實驗都得自己拼一條 pipeline。隨著 OpenNeuro 等公開資料集進入 TB 級、新協定越來越多地使用連續語音與影片刺激,這一基礎設施缺口已不僅是不便,而正在成為科學瓶頸。NeuralSet 開源發布,並附論文。
核心設計原則是結構-資料解耦。NeuralSet 把一次實驗的邏輯結構表達為輕量、事件驅動的中繼資料,與對真實訊號那種記憶體與算力都吃緊的抽取徹底分開。框架圍繞五個核心抽象組織 —— Events、Extractors、Segments、Batch Data,以及 Backend 層。一條 Event 是一個輕量 Python dict,包含 type、start、duration 與 timeline(一個連續記錄會話的唯一識別)。Study 物件會把資料集中所有事件彙總進單一的 pandas DataFrame,研究者由此可以用標準 pandas 操作過濾、探索、重組海量資料,而無需把任何原始訊號讀入記憶體。NeuralSet 支援 BIDS 資料集,但不限於 BIDS。EventsTransform 操作可組合 —— 可為詞語標註其句子上下文、可指派交叉驗證切分,也可把長音/影片刺激切成片段 —— 全部都在中繼資料層完成,在任何訊號抽取之前。
三件事值得記住。第一,這正是那種關注度不如模型發布、卻複利更大的研究工程工作:為 neuro-AI 實驗提供統一資料層,去除了一類系統性進展曾被卡住的摩擦。預計採用 NeuralSet 的實驗室會產出更多跨模態論文,因為做一個新實驗的時間成本下降了。第二,這套設計模式 —— 輕中繼資料與重抽取解耦、pandas 原生過濾、惰性 backend —— 與 dataframe-on-parquet 堆疊(Ibis、DuckDB)以及 lazy-loading 深度學習 loader(WebDataset)中行之有效的模式一致。神經科學工具終於追上這一思路,說明學術資料格式與現代 ML 基礎設施的交匯處,還有大量的「補課」工作正在發生。第三,Meta 把這種研究基礎設施工具開源,提醒我們 FAIR 仍在做基礎工作,而不只是發 LLM。
對 builders,三件事。第一,如果你在神經資料與 ML 的交叉處工作 —— BCI 新創、計算精神病學工具、刺激-反應模型研究 —— NeuralSet 就是該評估的框架,而不是現有工具的下一個迭代。光是結構-資料解耦這一點,如果你現在還在把整個資料集塞進 RAM,就值得為之做遷移。第二,五抽象佈局(Events / Extractors / Segments / Batch Data / Backend)可推廣。如果你建構任何把重型媒體資料與模型派生特徵搭配,用於 ML 訓練的工具,NeuralSet 的設計值得作為參考架構來研究。第三,「BIDS 相容 + pandas DataFrame 作為 API」這種組合,標誌著學術標準與工程人體工學正在收斂 —— 當你開新的實驗資料層時,即使不在神經科學領域,也選這種模式。
