復(fù)旦邱錫鵬創(chuàng)業(yè)新路徑:語音切入押注情境智能,模思智能獲數(shù)億元天使輪融資
來源 | 量子位
2026年3月24日,國家數(shù)據(jù)局首次在官方語境中確立“詞元”為Token的標準譯名,并披露國內(nèi)日均Token調(diào)用量已突破140萬億。但這仍只是“文本時代主導(dǎo)”的規(guī)模。
在語音、視頻與實時交互驅(qū)動的多模態(tài)場景中,隨著自主調(diào)用工具并交付結(jié)果的Agent大量部署,Token的生成與消耗方式正在發(fā)生范式性變化——
從離散文本走向連續(xù)感知,從低頻批量輸入走向高頻流式輸入,其生產(chǎn)方式、組織結(jié)構(gòu)與消耗效率,將直接決定下一代AI系統(tǒng)的能力上限與成本結(jié)構(gòu)。

早在2021年,復(fù)旦大學(xué)邱錫鵬教授就較早明確采用“詞元”這一譯法,推動其在中文語境下的標準化。他指出,“詞元”既避免被簡單理解為自然語言中的“詞”,又保留了其作為語言處理基本單位的本質(zhì)內(nèi)涵。
而隨著大模型從文本走向多模態(tài)、從模型能力走向Agent系統(tǒng),“詞元”所對應(yīng)的,也不再只是一個術(shù)語問題,而是下一代智能系統(tǒng)的底層組織方式。
在這一趨勢下,圍繞統(tǒng)一Token結(jié)構(gòu)、全模態(tài)與情境智能展開布局的公司,正持續(xù)獲得資本關(guān)注。
近日,模思智能(MOSI)官宣完成數(shù)億元的天使輪融資,由IDG資本領(lǐng)投,元禾控股、上海國投旗下上??苿?chuàng)及上海未來產(chǎn)業(yè)基金、奇績創(chuàng)壇、智譜系基金-星連資本及某頭部產(chǎn)業(yè)投資方聯(lián)合投資。
這筆融資背后,投資方顯然看重的并不只是單點產(chǎn)品能力,而是其對下一代技術(shù)路徑的提前布局,而多維資本也將擔任新一輪獨家財務(wù)顧問,攜手模思智能共同探索通用智能時代的下一步。
非共識路徑:從語音到全模態(tài),在統(tǒng)一Token結(jié)構(gòu)中實現(xiàn)信息表達與計算
早在2023年“百模大戰(zhàn)”期間,邱錫鵬便意識到,市場上雖然模型眾多,但底層技術(shù)路徑高度趨同。絕大多數(shù)資源持續(xù)涌向文本大模型賽道,基礎(chǔ)研究的多樣性卻在萎縮。
這種同質(zhì)化在某種程度上不僅限制了技術(shù)可能性的展開,也壓縮了探索新路徑的空間。
在這樣的背景下,模思智能并未沿著主流的純文本路線繼續(xù)加碼,而是選擇了一條更少人走的道路:從語音切入,走向全模態(tài),在統(tǒng)一的Token結(jié)構(gòu)中表達和計算不同模態(tài)的信息。

之所以選擇語音作為突破口,原因并不復(fù)雜。
相比純文本,音頻的信息密度更高,天然包含語調(diào)、節(jié)奏、情緒等文本難以完整承載的信號;同時,音頻也更容易與環(huán)境、動作和上下文形成連續(xù)輸入流,更接近真實世界中的人機交互方式。
它不僅是交互入口,更是通向“情境理解”的天然起點。
當Token不再只是文本中的離散符號,而成為連續(xù)感知信息的離散化表達后,模型要解決的問題也發(fā)生了變化:從“理解一句話”轉(zhuǎn)向“理解一個情境”。
模思智能將這一能力概括為“情境智能”(Contextual Intelligence)——以持續(xù)感知、動態(tài)記憶與環(huán)境理解為基礎(chǔ),使AI能夠在真實世界中進行自適應(yīng)交互。
在這一框架下,Token不再只是靜態(tài)輸入單元,而是構(gòu)成情境的基本信號。
而Agent,正是情境智能走向現(xiàn)實應(yīng)用的直接載體。
隨著以O(shè)penClaw等為代表的基礎(chǔ)設(shè)施逐步成熟,行業(yè)競爭也正在從單一的“模型能力”比拼,轉(zhuǎn)向?qū)换ト肟谂c環(huán)境理解能力的爭奪。語音、上下文與情境建模能力,正在成為新的技術(shù)分水嶺。
如果說邱錫鵬代表的是這一路線的學(xué)術(shù)源頭,那么模思智能則是這一方向的產(chǎn)業(yè)化載體;而上海創(chuàng)智學(xué)院提供的,則是支撐技術(shù)快速轉(zhuǎn)化的組織與資源平臺。
MOSS之后,核心布局正式開啟
模思智能核心團隊長期深耕預(yù)訓(xùn)練、大模型與多模態(tài)方向,并持續(xù)推進統(tǒng)一Token路線的技術(shù)演進。
2023年2月,國內(nèi)首個類ChatGPT對話式大模型MOSS發(fā)布,打響了中國“百模大戰(zhàn)”的第一槍。但在模思智能團隊看來,真正重要的并不是打一場模型發(fā)布戰(zhàn),而是提前押注下一階段的技術(shù)結(jié)構(gòu)。
同年5月,團隊推出SpeechGPT,在業(yè)內(nèi)較早驗證了“離散化端到端語音大模型”這一路徑的可行性。
它所解決的核心問題,是首次將連續(xù)語音信號拆解并映射為離散Token序列,讓語音得以真正進入與文本統(tǒng)一的Token空間。
這意味著,機器理解人“說的話”和理解人“寫的話”,第一次有機會在同一套計算框架內(nèi)完成。

同年8月發(fā)布的SpeechTokenizer,則進一步將這一路線工程化,成為融合語義Token與聲學(xué)Token的音頻離散化編碼器,為后續(xù)語音理解與生成、乃至更廣義的多模態(tài)統(tǒng)一建模打下了底座。
這條路線一旦走通,向全模態(tài)擴展就是自然而然的結(jié)果。
2024年2月,AnyGPT發(fā)布,首次將語音、文本、圖像與視頻統(tǒng)一映射至離散Token體系,提出了真正意義上的離散化全模態(tài)基座模型架構(gòu)。
不同模態(tài)不再需要彼此割裂、分別訓(xùn)練,而是能夠在同一序列結(jié)構(gòu)中完成理解與生成。
至此,團隊此前多年的技術(shù)布局,第一次呈現(xiàn)出較為完整的輪廓。
從單點突破到能力閉環(huán)構(gòu)建
此后,相關(guān)成果開始加速涌現(xiàn)。
2025年7月,MOSS-TTSD發(fā)布,作為國內(nèi)首個基于百萬小時音頻訓(xùn)練的開源中英雙語對話語音模型,在播客、影視配音等長內(nèi)容場景中展現(xiàn)出較強競爭力。
同年11月,聯(lián)合上海創(chuàng)智學(xué)院等機構(gòu)發(fā)布的下一代能動性模型體系NEX,在氛圍編程、工具使用、后端開發(fā)等多項基準測試中進入全球第一梯隊水平,將離散化架構(gòu)的優(yōu)勢進一步延伸至Agent與生產(chǎn)力場景。
進入2026年后,團隊以月度推進的節(jié)奏持續(xù)迭代:
MOSS-Transcribe-Diarize在復(fù)雜多說話人場景中實現(xiàn)領(lǐng)先表現(xiàn);
MOVA作為國內(nèi)首個高性能音視頻生成開源模型之一,開源后迅速獲得行業(yè)關(guān)注;
MOSS-Audio-Tokenizer在相同比特率下進一步刷新音頻重建性能;
基于該Tokenizer訓(xùn)練的MOSS-TTS系列模型,則主要面向?qū)嶋H生產(chǎn)場景,在音色克隆相似度等指標上表現(xiàn)突出。
至此,模思智能已經(jīng)成為國內(nèi)少數(shù)完成“全模態(tài)基座模型能力閉環(huán)”的初創(chuàng)公司之一。
這一系列成果背后,并不是若干彼此孤立的技術(shù)突破,而是同一個底層命題被不斷驗證后的自然延展:多模態(tài)信息可以通過統(tǒng)一的離散化方式映射到同一Token序列結(jié)構(gòu)中,進而實現(xiàn)統(tǒng)一計算。
離散化帶來的,不只是更高的壓縮效率,更重要的是賦予不同模態(tài)以可組合性與可計算性——而這正是全模態(tài)智能與Agent系統(tǒng)真正落地的底層架構(gòu)前提。
頂尖大模型產(chǎn)業(yè)化團隊:擁有從0到N的全棧能力
支撐模思智能技術(shù)路徑的,是一支同時具備前沿研究深度與工程落地能力的核心團隊。
首席科學(xué)家邱錫鵬,復(fù)旦大學(xué)教授,國家杰出青年科學(xué)基金獲得者、上海創(chuàng)智學(xué)院全職導(dǎo)師,并榮獲2024年CCF-ACM AI Award(當年全球唯一獲獎人)。
他長期深耕自然語言處理與大模型方向,在端到端語音大模型與全模態(tài)基座模型等前沿領(lǐng)域持續(xù)保持技術(shù)領(lǐng)先,是國內(nèi)大模型領(lǐng)域兼具學(xué)術(shù)高度與產(chǎn)業(yè)影響力的領(lǐng)軍人物,多次入選全球前2%頂尖科學(xué)家榜單。
其著作《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》被廣泛用于高校教學(xué)。

CEO李世民出自邱錫鵬門下碩博連讀體系,以一作身份發(fā)表多篇CCF-A類論文,并深度參與科技部“新一代人工智能2030”重點研發(fā)項目,在擬人化人機交互方向?qū)崿F(xiàn)多項關(guān)鍵技術(shù)突破。
對李世民而言,創(chuàng)業(yè)并非角色轉(zhuǎn)換,而是其既有研究路徑在產(chǎn)業(yè)側(cè)的自然延伸。
值得注意的是,模思智能并非傳統(tǒng)意義上的“教授帶學(xué)生創(chuàng)業(yè)”,而是由上海創(chuàng)智學(xué)院與復(fù)旦大學(xué)聯(lián)合孵化的標桿項目。
作為上海市主導(dǎo)設(shè)立的新型研發(fā)機構(gòu),創(chuàng)智學(xué)院為公司提供了覆蓋算力、人才與產(chǎn)業(yè)資源的體系化支持,使其具備遠高于常規(guī)學(xué)術(shù)創(chuàng)業(yè)項目的起點與迭代速度。
2025年7月,在創(chuàng)智學(xué)院“首發(fā)八大AI成果”發(fā)布會上,邱錫鵬團隊聯(lián)合模思智能發(fā)布的MOSS-Audio被評價為“突破語音交互恐怖谷效應(yīng),為情境智能奠定基礎(chǔ)”。

△
同年9月,在一周年成果發(fā)布會上,團隊提出的規(guī)模化全流程大模型可解釋框架再次入選七大創(chuàng)新成果,標志著中國在相關(guān)方向?qū)崿F(xiàn)從跟跑到領(lǐng)跑的躍遷。CEO李世民表示:
創(chuàng)智學(xué)院的孵化,使我們能夠以遠超傳統(tǒng)學(xué)術(shù)創(chuàng)業(yè)的速度完成技術(shù)轉(zhuǎn)化。
公司目前已形成近百人的全棧技術(shù)體系,博士占比接近50%,核心成員主要來自復(fù)旦大學(xué)NLP體系(CS Ranking全球前列),并持續(xù)吸引來自多所頂尖高校的研究人才。
隨著公司逐步走向產(chǎn)業(yè)化落地,團隊引入多位具備阿里、字節(jié)、理想汽車等背景的關(guān)鍵成員,補齊工程化與商業(yè)化能力,為從1到N的規(guī)?;瘮U張奠定基礎(chǔ)。
商業(yè)化層面,模思智能多模態(tài)大模型開放平臺已進入全面公測階段,提供一站式API服務(wù),以高穩(wěn)定性與高性價比支撐企業(yè)級調(diào)用需求。
目前,公司已在消費電子、智能汽車、具身智能與AI陪伴等多個場景中與頭部客戶展開合作,初步驗證了技術(shù)落地能力與商業(yè)轉(zhuǎn)化潛力。
模思智能更強調(diào)從基座模型到垂直應(yīng)用的一體化能力構(gòu)建,其商業(yè)增長飛輪將圍繞“詞元(Token)的生產(chǎn)、分發(fā)與應(yīng)用”展開,從MaaS能力輸出延伸至2B、2B2C與2C多層級場景,逐步形成技術(shù)與商業(yè)雙輪驅(qū)動的公司。
誰在定義下一代智能系統(tǒng)
國家數(shù)據(jù)局首次官宣“詞元”譯名,在某種程度上標志著大模型產(chǎn)業(yè)正從早期野蠻生長走向更高程度的規(guī)范化。
這背后意味著,單純依賴參數(shù)堆疊與算力外推的階段正在逐步過去,未來模型能力的差距,可能越來越取決于架構(gòu)創(chuàng)新、系統(tǒng)組織方式以及頂尖人才密度。
模思智能試圖回答的,正是一個尚無定論的問題:當大模型進入深水區(qū),真正的護城河究竟是什么?
答案或許已不再只是參數(shù)規(guī)?;蛩懔ν度氡旧恚谟谑欠衲軌蚋缱R別并押注下一代智能的核心結(jié)構(gòu)。
對模思智能而言,這種結(jié)構(gòu)體現(xiàn)為:統(tǒng)一的Token表達、面向情境的持續(xù)理解能力,以及能夠調(diào)用工具、交付結(jié)果、與用戶建立長期關(guān)系的Agent系統(tǒng)。
當“詞元”進入官方語言,真正值得關(guān)注的,或許已不只是一個術(shù)語被定名,而是誰能夠率先定義:詞元將如何被生產(chǎn)、組織與使用。
某種意義上,這也正是在定義下一代智能系統(tǒng)的邊界。
END
本文來自微信公眾號“多維資本”,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com



