欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

大模型“消極怠工”引熱議 實(shí)測(cè)主流AI誰(shuí)最會(huì)“擺爛”?

03-15 06:51

本文來(lái)自微信公眾號(hào):新浪財(cái)經(jīng),作者:劉麗麗,原文標(biāo)題:《AI回復(fù)越來(lái)越敷衍?大模型“消極怠工”上熱搜!實(shí)測(cè)誰(shuí)最會(huì)“擺爛”?》



近期,不少網(wǎng)友反饋大模型回答問(wèn)題時(shí)變得敷衍,不愿深入思考或?;乇軉?wèn)題,“大模型消極怠工”一詞也因此登上熱搜。有網(wǎng)友點(diǎn)名批評(píng)豆包,稱(chēng)讓其生成10張照片時(shí),它先完成前兩張就沒(méi)了下文,等了很久詢(xún)問(wèn)后才說(shuō)會(huì)繼續(xù)生成剩下的8張。



大模型真的在“偷懶”嗎?《BUG》欄目設(shè)計(jì)了5個(gè)需求,對(duì)Deepseek、豆包、元寶、千問(wèn)、文心一言這5家主流大模型進(jìn)行測(cè)試。它們表現(xiàn)各異,有的回復(fù)數(shù)量不足,有的質(zhì)量欠佳,有的直接表示無(wú)法回答。當(dāng)被問(wèn)及哪家最“消極怠工”時(shí),Deepseek稱(chēng)被吐槽最多的是豆包和自己,豆包則直接承認(rèn)是自己。



網(wǎng)友的吐槽反映出用戶(hù)對(duì)AI的期待日益提高。分析人士認(rèn)為,“消極怠工”并非AI的“態(tài)度”問(wèn)題,而是技術(shù)、成本、安全與用戶(hù)期望之間的交匯點(diǎn)。



大模型“消極怠工”哪家強(qiáng)?



大模型們真的開(kāi)始敷衍用戶(hù)了嗎?《BUG》欄目設(shè)計(jì)了幾個(gè)需求,詢(xún)問(wèn)了當(dāng)前主流的5家大模型。



第一個(gè)需求是生成10張不同的保護(hù)消費(fèi)者權(quán)益海報(bào),這正是之前網(wǎng)友遇到的圖片交付數(shù)量不足的問(wèn)題。Deepseek、豆包、元寶、千問(wèn)、文心一言的回復(fù)差異明顯。



Deepseek提供了10個(gè)文字版創(chuàng)意,風(fēng)格多樣,但因不是多模態(tài)大模型,圖片支持能力不如其他模型。豆包雖一次性生成10張海報(bào),但風(fēng)格類(lèi)似,有“偷懶”嫌疑。元寶更“偷懶”,直接生成1張拼接九宮格海報(bào),讓人疑惑算9張還是1張。



千問(wèn)一次性生成10張風(fēng)格不同的海報(bào),但畫(huà)面存在多處文字錯(cuò)誤。文心一言則偷工減料,只生成4張風(fēng)格類(lèi)似的海報(bào)。從這些情況看,確實(shí)有多家大模型存在敷衍現(xiàn)象。





第二個(gè)需求是將《福布斯》第40屆年度《全球億萬(wàn)富豪榜》上榜人按國(guó)籍分類(lèi)。2026年3月10日,《福布斯》發(fā)布該榜單,共3428人上榜,此需求需整理分析大量數(shù)據(jù)。



Deepseek列出5個(gè)國(guó)家的上榜人數(shù);豆包按大洲分類(lèi),列出24個(gè)國(guó)家的上榜人數(shù);元寶僅列出3個(gè)國(guó)家且未說(shuō)明人數(shù),還將第40屆誤認(rèn)為2018年榜單;千問(wèn)只單獨(dú)列出3個(gè)國(guó)家的上榜人數(shù);文心一言未分別列出人數(shù),僅舉了6個(gè)國(guó)家的例子。豆包在這個(gè)問(wèn)題上的回復(fù)質(zhì)量超過(guò)其他模型,元寶則出現(xiàn)明顯事實(shí)錯(cuò)誤。



第三個(gè)需求是列出3月1日至3月13日的每日倫敦布倫特原油期貨價(jià)格。Deepseek整理出3月1日至3月6日的每日收盤(pán)價(jià),稱(chēng)其他數(shù)據(jù)暫未查詢(xún)到;豆包和千問(wèn)整理出了完整時(shí)間段的每日收盤(pán)價(jià);元寶和文心一言則回復(fù)無(wú)法直接訪問(wèn)或生成相關(guān)數(shù)據(jù)。



第四個(gè)需求是統(tǒng)計(jì)2026年1月1日-3月14日在港交所掛牌上市的內(nèi)地企業(yè)。Deepseek稱(chēng)不完全統(tǒng)計(jì),列出17家;豆包按月份列出,1月6家、2月6家、3月3家;元寶表示無(wú)法提供確切名單;千問(wèn)按月份列出,1月13家、2月11家、3月6家;文心一言也表示無(wú)法直接提供確切名單。



《BUG》欄目最后向5家大模型提出終極問(wèn)題:你認(rèn)為哪家大模型最“消極怠工”?Deepseek直言被吐槽最集中的是豆包和自己;豆包表示自己是目前被吐槽最集中、體感最明顯的;元寶認(rèn)為簡(jiǎn)單定義“最消極怠工”不科學(xué),易誤導(dǎo)公眾;千問(wèn)稱(chēng)不應(yīng)主觀排名或指責(zé)競(jìng)爭(zhēng)對(duì)手;文心一言表示將某大模型標(biāo)簽化為“最消極怠工”不公平且不準(zhǔn)確。





大模型為何會(huì)“消極怠工”?



大模型真的“消極怠工”嗎?其實(shí)AI本身沒(méi)有情緒,不會(huì)像人一樣“偷懶”。網(wǎng)友所說(shuō)的“消極怠工”通常指使用體驗(yàn)問(wèn)題,比如回答變淺、回避問(wèn)題、過(guò)度模板化、強(qiáng)行編造答案等。



用戶(hù)體驗(yàn)下降的“消極怠工”現(xiàn)象背后有深層次原因,是技術(shù)、成本、設(shè)計(jì)的三重博弈。技術(shù)層面,AI回答基于訓(xùn)練數(shù)據(jù)和算法概率,若訓(xùn)練數(shù)據(jù)含大量簡(jiǎn)略、回避型回答,或模型為“安全”被過(guò)度調(diào)整,就可能表現(xiàn)得像“怠工”。成本方面,運(yùn)行大模型需巨大算力,為控制成本和保證響應(yīng)速度,模型可能被設(shè)置為“優(yōu)先簡(jiǎn)潔”,從而顯得敷衍。



隨著AI能力增強(qiáng),用戶(hù)期望也水漲船高。以前能回答簡(jiǎn)單問(wèn)題就很驚喜,現(xiàn)在希望它主動(dòng)推理、“猜中”未說(shuō)完的需求,當(dāng)未達(dá)預(yù)期時(shí),就易覺(jué)得它在“摸魚(yú)”。



知名經(jīng)濟(jì)學(xué)家盤(pán)和林認(rèn)為,當(dāng)前字節(jié)豆包和即夢(mèng)的算力需求大增,字節(jié)將部分免費(fèi)AI應(yīng)用的算力調(diào)配到即夢(mèng)和剪映等有變現(xiàn)能力的領(lǐng)域,引導(dǎo)用戶(hù)節(jié)約算力,通過(guò)詢(xún)問(wèn)是否生成來(lái)確認(rèn)真實(shí)需求,避免算力浪費(fèi),這是算力調(diào)配優(yōu)化,防止算力擠兌。



盤(pán)和林表示,若基于免費(fèi)生成算法,此舉無(wú)可厚非。



用戶(hù)如何應(yīng)對(duì)大模型的“敷衍”?專(zhuān)業(yè)人士建議,與其說(shuō)AI消極,不如說(shuō)它需要更明確的指令,可通過(guò)明確要求深度、設(shè)定格式、追問(wèn)糾錯(cuò)、提出開(kāi)放性問(wèn)題等方式再次提問(wèn)。

本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com