欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

低調(diào)突圍的豆包2.0:悄然登頂國(guó)內(nèi)模型榜首

03-03 06:30

本文來(lái)自微信公眾號(hào): AGENT橘 ,作者:AGENT橘



Seedance 2.0的光芒過(guò)于奪目,吸引了所有關(guān)注,使得Doubao-Seed-2.0顯得有些默默無(wú)聞。不過(guò)春節(jié)期間,我在豆包的專家模式中使用它時(shí),收獲了不少意外驚喜。



從字節(jié)官方發(fā)布的79頁(yè)Model Card來(lái)看,Doubao-Seed-2.0十分注重真實(shí)世界任務(wù)的解決,還嚴(yán)謹(jǐn)?shù)刂赋鲎陨碓诰幋a和世界知識(shí)方面不及競(jìng)品Claude與Gemini。





以下內(nèi)容譯自官方Model Card:



需要注意的是,Doubao-Seed-2.0系列與國(guó)際前沿大語(yǔ)言模型(LLMs)仍存在差距...



Doubao-Seed-2.0系列在編碼方面與Claude相比有相當(dāng)大的差距(considerable gaps),以SWE-Evo和NL2Repo為例。



Doubao-Seed-2.0系列在與用戶體驗(yàn)密切相關(guān)的長(zhǎng)尾知識(shí)方面與Gemini相比存在相對(duì)明顯的差距(relatively obvious gaps),以SuperGPQA和SimpleQA-Verified為例。



然而春節(jié)過(guò)后,情況出現(xiàn)了一些小反轉(zhuǎn),年前幾款國(guó)產(chǎn)新模型的競(jìng)技場(chǎng)排名也都公布了。(競(jìng)技場(chǎng)LMAreana是全球模型接受用戶公開(kāi)盲測(cè)的平臺(tái),反映實(shí)際用戶體驗(yàn))



排名最高的竟然是Doubao-Seed-2.0。



Doubao-Seed-2.0不僅拿下國(guó)內(nèi)綜合第一,還在全球總榜沖進(jìn)了前10。其他幾款新模型,GLM5、文心5、Qwen3.5、Kimi K2.5,緊隨其后排在16、17、18、19名。



特別值得一提的是,Doubao-Seed-2.0的視覺(jué)能力僅次于Gemini的三個(gè)版本,排名全球第4??紤]到它的輸入成本比Gemini低約5倍,這個(gè)模型在多模態(tài)理解方面是個(gè)降本增效的利器。





原生多模態(tài)



這份競(jìng)技場(chǎng)排名很有意思,Doubao-Seed-2.0和Gemini3一樣是原生多模態(tài)模型,意味著它對(duì)圖片、視頻、音頻的理解應(yīng)該十分出色。我在豆包的專家模式里測(cè)試了它的圖片識(shí)別能力。



這個(gè)模型的圖片推理能力強(qiáng)得有些驚人…



我給模型一張自己拍攝的小眾景點(diǎn)照片,網(wǎng)上從未發(fā)布過(guò),讓它猜測(cè)地點(diǎn)。



我詢問(wèn)了Gemini的思考模式,它猜錯(cuò)了,提示錯(cuò)誤后第二次還是錯(cuò)了,而且只會(huì)按圖上的文字搜索來(lái)猜測(cè)。



我又嘗試了豆包新出的專家模式,它第一次也錯(cuò)了,我提示錯(cuò)誤后,它突然進(jìn)入“狂暴模式”,思考了約幾分鐘,思維鏈條長(zhǎng)達(dá)上千字,分析城市地理、景點(diǎn)街道方向、建筑特征,還調(diào)用搜圖工具對(duì)比…最終成功答對(duì)。



我問(wèn)它如何猜測(cè)的,它列出三個(gè)嚴(yán)絲合縫的步驟,這是它的復(fù)盤(pán)過(guò)程,有理有據(jù),沒(méi)有用大眾點(diǎn)評(píng)等數(shù)據(jù)庫(kù)搜店鋪名作弊,而是通過(guò)原生視覺(jué)推理:



復(fù)盤(pán):



第一步:鎖定100%正確的大前提——地域絕對(duì)是云南大理



核心鐵證是圖中摩托車車牌,清晰顯示“云L”開(kāi)頭。



第二步:推翻最初“大理古城”的結(jié)論



1. 地形不符:大理古城建在平壩上,是棋盤(pán)式方正街巷,幾乎沒(méi)有長(zhǎng)距離、大坡度的連續(xù)上坡路。



2. 業(yè)態(tài)和建筑不符:大理古城主街是純旅游商業(yè)化的規(guī)整商鋪,幾乎沒(méi)有原生居民樓。



3. 地標(biāo)位置不符:大理古城的城門(mén)都建在平地上,不會(huì)出現(xiàn)在坡道頂端高處。



第三步:排除大理古城后,在大理范圍內(nèi)尋找同時(shí)滿足這些條件的地方:有千年歷史的古街巷+帶老城門(mén)樓、整條主街依山而建的長(zhǎng)上坡青石板路、至今保留原生煙火氣而非純商業(yè)化景區(qū)。



答案只有一個(gè):龍尾關(guān)。



除了照片理解,我還測(cè)試了圖表理解,將一張過(guò)去十年的黃金走勢(shì)圖讓模型還原成Excel表格。





根據(jù)表格作圖簡(jiǎn)單,但根據(jù)圖表倒推表格,視覺(jué)能力弱是做不到的。



它成功畫(huà)出了十年黃金走勢(shì)表。



但它很快發(fā)現(xiàn)一個(gè)問(wèn)題:



該圖表的價(jià)格數(shù)值與現(xiàn)實(shí)中倫敦金/COMEX黃金(美元/盎司)的歷史真實(shí)價(jià)格存在顯著差異,為圖表本身設(shè)定,本次制表未做數(shù)值修正。



若需要2016-2025年國(guó)際黃金真實(shí)歷史價(jià)格的Excel表,可立刻補(bǔ)充提供。



這個(gè)表格是根據(jù)視覺(jué)整理的,數(shù)值存在模糊性,它猜測(cè)我的意圖是要準(zhǔn)確表格。



于是它調(diào)用網(wǎng)絡(luò)搜索,從權(quán)威數(shù)據(jù)中獲取了準(zhǔn)確表格。



為方便觀看,我讓它直接繪制成HTML圖表展現(xiàn)。





這個(gè)表格的繪制有兩點(diǎn)超出預(yù)期:一是互動(dòng)設(shè)計(jì),鼠標(biāo)劃過(guò)可顯示當(dāng)年精準(zhǔn)數(shù)據(jù);二是蠟燭圖繪制,清晰展現(xiàn)當(dāng)年波動(dòng)范圍,正是我需要的。



可見(jiàn)模型在Coding+視覺(jué)方面的能力非常強(qiáng)悍。



測(cè)試完圖像理解后,我又測(cè)試了視頻理解,不過(guò)這個(gè)題難度可能超綱了…



這位歌手的演唱太過(guò)炸裂,模型識(shí)別不出她唱的歌曲。(如果你知道,歡迎留言告訴我...)



驅(qū)動(dòng)龍蝦Agent



測(cè)試完基礎(chǔ)模型能力后,我特別好奇Doubao-Seed-2.0在OpenClaw??這樣的Agent中的表現(xiàn)。



我在火山開(kāi)了龍蝦服務(wù)器+Coding Plan,總共花了20塊錢(qián),就讓??在飛書(shū)里運(yùn)行起來(lái)了。



我先讓它安裝了常用的ListenHub Skill,用于給文稿配音,一次就成功了。





我又讓它安裝了BrowserWing,這樣它就能操作瀏覽器,替我上網(wǎng)沖浪了(這個(gè)插件非常好,推薦大家使用https://github.com/browserwing/browserwing)





這樣我的??就可以瀏覽任何網(wǎng)頁(yè),制作日?qǐng)?bào)或播客。



看來(lái)用Doubao-Seed-2.0驅(qū)動(dòng)Agent是完全可行的。



體感總結(jié)



一番體驗(yàn)下來(lái),我對(duì)Doubao-Seed-2.0的印象可用四個(gè)字概括:低調(diào)務(wù)實(shí)。



它沒(méi)有像Seedance 2.0那樣掀起巨浪,卻悄悄在競(jìng)技場(chǎng)沖到全球前十。



A廠前幾天還提出“蒸餾攻擊”的說(shuō)法,稱中國(guó)模型只能靠蒸餾。豆包作為不能蒸餾的模型沖到全球綜合前10、視覺(jué)能力第4,無(wú)疑是對(duì)這種說(shuō)法的有力反駁。



當(dāng)然它也不完美:視頻理解遇到復(fù)雜場(chǎng)景會(huì)翻車,世界知識(shí)的長(zhǎng)尾覆蓋確實(shí)不如Gemini,專業(yè)編碼方面距離Claude也有很大進(jìn)步空間,這些字節(jié)在Model Card中已坦誠(chéng)指出。



但對(duì)于大部分真實(shí)工作場(chǎng)景,如圖表查看、文檔分析、代碼編寫(xiě)、Agent驅(qū)動(dòng)等,Doubao-Seed-2.0已經(jīng)足夠好用。



而且火山方舟9.9元的Coding plan,不僅支持豆包,還支持Kimi和GLM等優(yōu)秀開(kāi)源模型,非常實(shí)惠。


本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com