欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

<abbr id="o9smb"><dd id="o9smb"><tbody id="o9smb"></tbody></dd></abbr>

MiniMax M2.5：龍蝦Agent的優(yōu)選模型，實(shí)現(xiàn)永不停機(jī)運(yùn)行

02-15 06:21

本文來自微信公眾號(hào)： AGENT橘，作者：AGENT橘

2026年春節(jié)前夕的這一周，堪稱中國(guó)AI領(lǐng)域全年成果的集中展示期。

各類成果接連發(fā)布，讓人應(yīng)接不暇。

日前，MiniMax推出了M2.5模型，其激活參數(shù)與M2.1相同，僅為10B。

M2.1曾是小龍蝦工具作者Peter最推崇的開源模型。

M2.5相較于M2.1實(shí)現(xiàn)了快速迭代，在編程領(lǐng)域具有代表性的SWE-Bench Verified評(píng)測(cè)中，M2系列的進(jìn)步速度在所有模型系列里位居首位，超越了Claude、GPT和Gemini。

Peter將Opus作為主力模型，而MiniMax則作為備用選擇，當(dāng)Opus的token耗盡時(shí)，系統(tǒng)會(huì)自動(dòng)切換到MiniMax繼續(xù)運(yùn)行。

并且他不只是通過云端調(diào)用模型。他還在自己的兩臺(tái)Mac Studio上運(yùn)行MiniMax進(jìn)行本地推理，無(wú)需依賴模型廠商的套餐服務(wù)，完全實(shí)現(xiàn)本地化部署，確保龍蝦Agent始終保持在線狀態(tài)。

能夠在本地順利運(yùn)行，得益于M2.5在眾多旗艦?zāi)Ｐ椭袚碛凶钚〉募せ顓?shù)。

M2.5的激活參數(shù)僅為10B。相比之下，GLM-5激活參數(shù)為40B，Kimi K2.5約為50B，DeepSeek V3.2約為30B。

盡管該模型的激活參數(shù)較小，但其Agent能力卻不容小覷。經(jīng)過Peter及眾多小龍蝦用戶的實(shí)際測(cè)試，MiniMax是小龍蝦工具中表現(xiàn)最佳的開源模型。

參數(shù)小帶來的優(yōu)勢(shì)是連鎖性的：推理速度達(dá)到100 TPS，幾乎是主流旗艦?zāi)Ｐ偷膬杀丁Ｒ赃@樣的速度連續(xù)工作一小時(shí)，成本僅需1美金；若將速度降至50 TPS，成本則只需0.3美金。

這意味著讓一個(gè)復(fù)雜的Agent持續(xù)運(yùn)行下去，在經(jīng)濟(jì)層面變得完全可行。

Agent與工具調(diào)用能力

M2.5的工具調(diào)用能力十分出色，在多項(xiàng)工具調(diào)用指標(biāo)中均處于領(lǐng)先水平。搜索是Agent最常用的工具之一，為此MiniMax專門構(gòu)建了評(píng)測(cè)集RISE（Realistic Interactive Search Evaluation），用于測(cè)試模型在真實(shí)專業(yè)任務(wù)中的搜索能力。

與M2.1相比，M2.5的提升也很顯著。在BrowseComp、Wide Search、RISE等多項(xiàng)任務(wù)中，M2.5用更少的搜索輪次就取得了更優(yōu)的結(jié)果，輪次消耗減少了約20%，模型學(xué)會(huì)了用更短的路徑獲取答案。

海外開發(fā)者Tom Osman借助Clawdbot×MiniMax重構(gòu)了日常工作流程。他在Telegram、Slack、WhatsApp、iMessage等平臺(tái)都部署了龍蝦Agent，可通過語(yǔ)音或文字隨時(shí)下達(dá)指令。在一個(gè)典型的工作日里，他會(huì)讓龍蝦Agent分析網(wǎng)站、調(diào)研信息、撰寫博客、更新元數(shù)據(jù)、起草社交帖子、發(fā)送郵件等，所有任務(wù)并行處理，他只需在不同的Agent之間切換對(duì)話即可。

他對(duì)MiniMax的評(píng)價(jià)是：在工具調(diào)用方面表現(xiàn)出色且準(zhǔn)確性高。他使用的是每月10美金的Coding Plan，用量遠(yuǎn)未達(dá)到上限。

10B的模型尺寸天生適合這類場(chǎng)景。Agent需要全天候不間斷運(yùn)行，模型越小，持續(xù)運(yùn)行的成本就越低，可行性也就越高。龍蝦工具作者Peter選擇MiniMax作為Opus的備用模型，本質(zhì)上就是看中了這一點(diǎn)：

當(dāng)你需要一個(gè)Agent持續(xù)運(yùn)行時(shí)，10B的模型能讓你真正負(fù)擔(dān)得起運(yùn)行成本。

在我的實(shí)際測(cè)試中，我讓Minimax M2.5執(zhí)行了一項(xiàng)測(cè)試任務(wù)：監(jiān)控每天熱度最高的小龍蝦工具技能，它完成得非常出色。

編程與泛用性表現(xiàn)

在編程方面，M2.5相較于M2.1有了巨大進(jìn)步，在SWE-bench Verified評(píng)測(cè)中達(dá)到80.2%，在Multi-SWE-Bench評(píng)測(cè)中以51.3%的成績(jī)位居全行業(yè)第一。

在提升能力的同時(shí)，M2.5的推理速度也得到了提升。端到端完成SWE-bench任務(wù)的時(shí)間從M2.1的31.3分鐘縮短至22.8分鐘，速度提升了37%，與Opus 4.6的22.9分鐘幾乎持平。每個(gè)任務(wù)的token消耗也從3.72M降至3.52M，實(shí)現(xiàn)了提速又降耗。

還有一個(gè)有趣的點(diǎn)是M2.5在不同編程客戶端中的泛用性很強(qiáng)。在Droid上運(yùn)行SWE-Bench任務(wù)時(shí)，M2.5的得分是79.7（Opus 4.6為78.9）；在OpenCode上的得分是76.1（Opus 4.6為75.9），這使得它不再過度依賴Claude Code這類閉源工具。

提升對(duì)OpenCode的支持確實(shí)是一件好事。OpenCode是Claude Code的開源替代工具，安裝簡(jiǎn)單，易于上手。

而且在OpenCode中，MiniMax M2.5是限時(shí)免費(fèi)的，無(wú)需額外配置。

我曾讓它編寫一個(gè)2026年春運(yùn)實(shí)時(shí)監(jiān)控程序，該程序能每小時(shí)自動(dòng)監(jiān)控并更新網(wǎng)頁(yè)內(nèi)容，最終效果良好。

從工具到同事：Agent的發(fā)展方向

MiniMax為M2.5的定位是“真實(shí)世界的好同事”。

這是因?yàn)锳gent是未來軟件的使用者，會(huì)成為每個(gè)團(tuán)隊(duì)中新增的成員。

一旦這種轉(zhuǎn)變發(fā)生，對(duì)模型的要求就會(huì)徹底改變。

在自主Agent時(shí)代，Agent需要全天候不間斷運(yùn)行，每天進(jìn)行數(shù)百次推理調(diào)用。此時(shí)，人們關(guān)注的是：模型能力是否夠用、運(yùn)行速度是否夠快、成本是否能承受。

那么，雇傭一個(gè)Agent一年大概需要多少成本呢？

M2.5有兩個(gè)版本：快速版本在每秒輸出100個(gè)token的情況下，連續(xù)工作一小時(shí)僅需1美金；慢速版本在每秒輸出50個(gè)token的情況下，連續(xù)工作一小時(shí)僅需0.3美金。

據(jù)此計(jì)算，雇傭Agent讓其全天候工作，每個(gè)Agent的月薪僅為200美金。只需花費(fèi)一萬(wàn)美金，就能擁有四個(gè)永不休息的“同事”。

未來幾年，算力供給呈線性增長(zhǎng)，而需求卻呈指數(shù)增長(zhǎng)，Token資源會(huì)越來越稀缺。

在這樣的大背景下，自主Agent時(shí)代能否實(shí)現(xiàn)全天候持續(xù)運(yùn)轉(zhuǎn)至關(guān)重要。

因?yàn)橹挥羞@樣，Agent才能走進(jìn)真實(shí)世界，成為人們真正的工作伙伴。

本文僅代表作者觀點(diǎn)，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

信譽(yù)樓百貨濱州、定州新店簽約 2026年秋將開業(yè)

第28屆上海國(guó)際電影節(jié)6月12日啟幕柏林推廣活動(dòng)盛邀全球影人共赴光影之約

從小說到博物館再到紀(jì)錄片，帕慕克《純真博物館》劇集版登陸Netflix

300585控制權(quán)轉(zhuǎn)讓突發(fā)終止，受讓方未付首期款致協(xié)議解除

高薪仍缺人！節(jié)前這類服務(wù)訂單激增

項(xiàng)目推薦

迪瓜租機(jī)

康老板 · 氧療堂

<li id="cmawc"><strong id="cmawc"></strong></li>

<style id="cmawc"><progress id="cmawc"><track id="cmawc"></track></progress></style>

<style id="cmawc"></style>