欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

MiniMax M2.5:龍蝦Agent的優(yōu)選模型,實(shí)現(xiàn)永不停機(jī)運(yùn)行

02-15 06:21

本文來自微信公眾號(hào): AGENT橘 ,作者:AGENT橘



2026年春節(jié)前夕的這一周,堪稱中國(guó)AI領(lǐng)域全年成果的集中展示期。



各類成果接連發(fā)布,讓人應(yīng)接不暇。



日前,MiniMax推出了M2.5模型,其激活參數(shù)與M2.1相同,僅為10B。



M2.1曾是小龍蝦工具作者Peter最推崇的開源模型。



M2.5相較于M2.1實(shí)現(xiàn)了快速迭代,在編程領(lǐng)域具有代表性的SWE-Bench Verified評(píng)測(cè)中,M2系列的進(jìn)步速度在所有模型系列里位居首位,超越了Claude、GPT和Gemini。





Peter將Opus作為主力模型,而MiniMax則作為備用選擇,當(dāng)Opus的token耗盡時(shí),系統(tǒng)會(huì)自動(dòng)切換到MiniMax繼續(xù)運(yùn)行。



并且他不只是通過云端調(diào)用模型。他還在自己的兩臺(tái)Mac Studio上運(yùn)行MiniMax進(jìn)行本地推理,無(wú)需依賴模型廠商的套餐服務(wù),完全實(shí)現(xiàn)本地化部署,確保龍蝦Agent始終保持在線狀態(tài)。



能夠在本地順利運(yùn)行,得益于M2.5在眾多旗艦?zāi)P椭袚碛凶钚〉募せ顓?shù)。



M2.5的激活參數(shù)僅為10B。相比之下,GLM-5激活參數(shù)為40B,Kimi K2.5約為50B,DeepSeek V3.2約為30B。



盡管該模型的激活參數(shù)較小,但其Agent能力卻不容小覷。經(jīng)過Peter及眾多小龍蝦用戶的實(shí)際測(cè)試,MiniMax是小龍蝦工具中表現(xiàn)最佳的開源模型。



參數(shù)小帶來的優(yōu)勢(shì)是連鎖性的:推理速度達(dá)到100 TPS,幾乎是主流旗艦?zāi)P偷膬杀丁R赃@樣的速度連續(xù)工作一小時(shí),成本僅需1美金;若將速度降至50 TPS,成本則只需0.3美金。



這意味著讓一個(gè)復(fù)雜的Agent持續(xù)運(yùn)行下去,在經(jīng)濟(jì)層面變得完全可行。





Agent與工具調(diào)用能力



M2.5的工具調(diào)用能力十分出色,在多項(xiàng)工具調(diào)用指標(biāo)中均處于領(lǐng)先水平。搜索是Agent最常用的工具之一,為此MiniMax專門構(gòu)建了評(píng)測(cè)集RISE(Realistic Interactive Search Evaluation),用于測(cè)試模型在真實(shí)專業(yè)任務(wù)中的搜索能力。



與M2.1相比,M2.5的提升也很顯著。在BrowseComp、Wide Search、RISE等多項(xiàng)任務(wù)中,M2.5用更少的搜索輪次就取得了更優(yōu)的結(jié)果,輪次消耗減少了約20%,模型學(xué)會(huì)了用更短的路徑獲取答案。





海外開發(fā)者Tom Osman借助Clawdbot×MiniMax重構(gòu)了日常工作流程。他在Telegram、Slack、WhatsApp、iMessage等平臺(tái)都部署了龍蝦Agent,可通過語(yǔ)音或文字隨時(shí)下達(dá)指令。在一個(gè)典型的工作日里,他會(huì)讓龍蝦Agent分析網(wǎng)站、調(diào)研信息、撰寫博客、更新元數(shù)據(jù)、起草社交帖子、發(fā)送郵件等,所有任務(wù)并行處理,他只需在不同的Agent之間切換對(duì)話即可。



他對(duì)MiniMax的評(píng)價(jià)是:在工具調(diào)用方面表現(xiàn)出色且準(zhǔn)確性高。他使用的是每月10美金的Coding Plan,用量遠(yuǎn)未達(dá)到上限。



10B的模型尺寸天生適合這類場(chǎng)景。Agent需要全天候不間斷運(yùn)行,模型越小,持續(xù)運(yùn)行的成本就越低,可行性也就越高。龍蝦工具作者Peter選擇MiniMax作為Opus的備用模型,本質(zhì)上就是看中了這一點(diǎn):



當(dāng)你需要一個(gè)Agent持續(xù)運(yùn)行時(shí),10B的模型能讓你真正負(fù)擔(dān)得起運(yùn)行成本。



在我的實(shí)際測(cè)試中,我讓Minimax M2.5執(zhí)行了一項(xiàng)測(cè)試任務(wù):監(jiān)控每天熱度最高的小龍蝦工具技能,它完成得非常出色。



編程與泛用性表現(xiàn)



在編程方面,M2.5相較于M2.1有了巨大進(jìn)步,在SWE-bench Verified評(píng)測(cè)中達(dá)到80.2%,在Multi-SWE-Bench評(píng)測(cè)中以51.3%的成績(jī)位居全行業(yè)第一。



在提升能力的同時(shí),M2.5的推理速度也得到了提升。端到端完成SWE-bench任務(wù)的時(shí)間從M2.1的31.3分鐘縮短至22.8分鐘,速度提升了37%,與Opus 4.6的22.9分鐘幾乎持平。每個(gè)任務(wù)的token消耗也從3.72M降至3.52M,實(shí)現(xiàn)了提速又降耗。





還有一個(gè)有趣的點(diǎn)是M2.5在不同編程客戶端中的泛用性很強(qiáng)。在Droid上運(yùn)行SWE-Bench任務(wù)時(shí),M2.5的得分是79.7(Opus 4.6為78.9);在OpenCode上的得分是76.1(Opus 4.6為75.9),這使得它不再過度依賴Claude Code這類閉源工具。



提升對(duì)OpenCode的支持確實(shí)是一件好事。OpenCode是Claude Code的開源替代工具,安裝簡(jiǎn)單,易于上手。



而且在OpenCode中,MiniMax M2.5是限時(shí)免費(fèi)的,無(wú)需額外配置。



我曾讓它編寫一個(gè)2026年春運(yùn)實(shí)時(shí)監(jiān)控程序,該程序能每小時(shí)自動(dòng)監(jiān)控并更新網(wǎng)頁(yè)內(nèi)容,最終效果良好。



從工具到同事:Agent的發(fā)展方向



MiniMax為M2.5的定位是“真實(shí)世界的好同事”。



這是因?yàn)锳gent是未來軟件的使用者,會(huì)成為每個(gè)團(tuán)隊(duì)中新增的成員。



一旦這種轉(zhuǎn)變發(fā)生,對(duì)模型的要求就會(huì)徹底改變。



在自主Agent時(shí)代,Agent需要全天候不間斷運(yùn)行,每天進(jìn)行數(shù)百次推理調(diào)用。此時(shí),人們關(guān)注的是:模型能力是否夠用、運(yùn)行速度是否夠快、成本是否能承受。



那么,雇傭一個(gè)Agent一年大概需要多少成本呢?



M2.5有兩個(gè)版本:快速版本在每秒輸出100個(gè)token的情況下,連續(xù)工作一小時(shí)僅需1美金;慢速版本在每秒輸出50個(gè)token的情況下,連續(xù)工作一小時(shí)僅需0.3美金。



據(jù)此計(jì)算,雇傭Agent讓其全天候工作,每個(gè)Agent的月薪僅為200美金。只需花費(fèi)一萬(wàn)美金,就能擁有四個(gè)永不休息的“同事”。



未來幾年,算力供給呈線性增長(zhǎng),而需求卻呈指數(shù)增長(zhǎng),Token資源會(huì)越來越稀缺。



在這樣的大背景下,自主Agent時(shí)代能否實(shí)現(xiàn)全天候持續(xù)運(yùn)轉(zhuǎn)至關(guān)重要。



因?yàn)橹挥羞@樣,Agent才能走進(jìn)真實(shí)世界,成為人們真正的工作伙伴。

本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com