欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

大模型“消極怠工”引熱議實(shí)測(cè)主流AI誰(shuí)最會(huì)“擺爛”？

03-15 06:51

本文來(lái)自微信公眾號(hào)：新浪財(cái)經(jīng)，作者：劉麗麗，原文標(biāo)題：《AI回復(fù)越來(lái)越敷衍？大模型“消極怠工”上熱搜！實(shí)測(cè)誰(shuí)最會(huì)“擺爛”？》

近期，不少網(wǎng)友反饋大模型回答問(wèn)題時(shí)變得敷衍，不愿深入思考或?；乇軉?wèn)題，“大模型消極怠工”一詞也因此登上熱搜。有網(wǎng)友點(diǎn)名批評(píng)豆包，稱(chēng)讓其生成10張照片時(shí)，它先完成前兩張就沒(méi)了下文，等了很久詢(xún)問(wèn)后才說(shuō)會(huì)繼續(xù)生成剩下的8張。

大模型真的在“偷懶”嗎？《BUG》欄目設(shè)計(jì)了5個(gè)需求，對(duì)Deepseek、豆包、元寶、千問(wèn)、文心一言這5家主流大模型進(jìn)行測(cè)試。它們表現(xiàn)各異，有的回復(fù)數(shù)量不足，有的質(zhì)量欠佳，有的直接表示無(wú)法回答。當(dāng)被問(wèn)及哪家最“消極怠工”時(shí)，Deepseek稱(chēng)被吐槽最多的是豆包和自己，豆包則直接承認(rèn)是自己。

網(wǎng)友的吐槽反映出用戶(hù)對(duì)AI的期待日益提高。分析人士認(rèn)為，“消極怠工”并非AI的“態(tài)度”問(wèn)題，而是技術(shù)、成本、安全與用戶(hù)期望之間的交匯點(diǎn)。

大模型“消極怠工”哪家強(qiáng)？

大模型們真的開(kāi)始敷衍用戶(hù)了嗎？《BUG》欄目設(shè)計(jì)了幾個(gè)需求，詢(xún)問(wèn)了當(dāng)前主流的5家大模型。

第一個(gè)需求是生成10張不同的保護(hù)消費(fèi)者權(quán)益海報(bào)，這正是之前網(wǎng)友遇到的圖片交付數(shù)量不足的問(wèn)題。Deepseek、豆包、元寶、千問(wèn)、文心一言的回復(fù)差異明顯。

Deepseek提供了10個(gè)文字版創(chuàng)意，風(fēng)格多樣，但因不是多模態(tài)大模型，圖片支持能力不如其他模型。豆包雖一次性生成10張海報(bào)，但風(fēng)格類(lèi)似，有“偷懶”嫌疑。元寶更“偷懶”，直接生成1張拼接九宮格海報(bào)，讓人疑惑算9張還是1張。

千問(wèn)一次性生成10張風(fēng)格不同的海報(bào)，但畫(huà)面存在多處文字錯(cuò)誤。文心一言則偷工減料，只生成4張風(fēng)格類(lèi)似的海報(bào)。從這些情況看，確實(shí)有多家大模型存在敷衍現(xiàn)象。

第二個(gè)需求是將《福布斯》第40屆年度《全球億萬(wàn)富豪榜》上榜人按國(guó)籍分類(lèi)。2026年3月10日，《福布斯》發(fā)布該榜單，共3428人上榜，此需求需整理分析大量數(shù)據(jù)。

Deepseek列出5個(gè)國(guó)家的上榜人數(shù)；豆包按大洲分類(lèi)，列出24個(gè)國(guó)家的上榜人數(shù)；元寶僅列出3個(gè)國(guó)家且未說(shuō)明人數(shù)，還將第40屆誤認(rèn)為2018年榜單；千問(wèn)只單獨(dú)列出3個(gè)國(guó)家的上榜人數(shù)；文心一言未分別列出人數(shù)，僅舉了6個(gè)國(guó)家的例子。豆包在這個(gè)問(wèn)題上的回復(fù)質(zhì)量超過(guò)其他模型，元寶則出現(xiàn)明顯事實(shí)錯(cuò)誤。

第三個(gè)需求是列出3月1日至3月13日的每日倫敦布倫特原油期貨價(jià)格。Deepseek整理出3月1日至3月6日的每日收盤(pán)價(jià)，稱(chēng)其他數(shù)據(jù)暫未查詢(xún)到；豆包和千問(wèn)整理出了完整時(shí)間段的每日收盤(pán)價(jià)；元寶和文心一言則回復(fù)無(wú)法直接訪問(wèn)或生成相關(guān)數(shù)據(jù)。

第四個(gè)需求是統(tǒng)計(jì)2026年1月1日-3月14日在港交所掛牌上市的內(nèi)地企業(yè)。Deepseek稱(chēng)不完全統(tǒng)計(jì)，列出17家；豆包按月份列出，1月6家、2月6家、3月3家；元寶表示無(wú)法提供確切名單；千問(wèn)按月份列出，1月13家、2月11家、3月6家；文心一言也表示無(wú)法直接提供確切名單。

《BUG》欄目最后向5家大模型提出終極問(wèn)題：你認(rèn)為哪家大模型最“消極怠工”？Deepseek直言被吐槽最集中的是豆包和自己；豆包表示自己是目前被吐槽最集中、體感最明顯的；元寶認(rèn)為簡(jiǎn)單定義“最消極怠工”不科學(xué)，易誤導(dǎo)公眾；千問(wèn)稱(chēng)不應(yīng)主觀排名或指責(zé)競(jìng)爭(zhēng)對(duì)手；文心一言表示將某大模型標(biāo)簽化為“最消極怠工”不公平且不準(zhǔn)確。

大模型為何會(huì)“消極怠工”？

大模型真的“消極怠工”嗎？其實(shí)AI本身沒(méi)有情緒，不會(huì)像人一樣“偷懶”。網(wǎng)友所說(shuō)的“消極怠工”通常指使用體驗(yàn)問(wèn)題，比如回答變淺、回避問(wèn)題、過(guò)度模板化、強(qiáng)行編造答案等。

用戶(hù)體驗(yàn)下降的“消極怠工”現(xiàn)象背后有深層次原因，是技術(shù)、成本、設(shè)計(jì)的三重博弈。技術(shù)層面，AI回答基于訓(xùn)練數(shù)據(jù)和算法概率，若訓(xùn)練數(shù)據(jù)含大量簡(jiǎn)略、回避型回答，或模型為“安全”被過(guò)度調(diào)整，就可能表現(xiàn)得像“怠工”。成本方面，運(yùn)行大模型需巨大算力，為控制成本和保證響應(yīng)速度，模型可能被設(shè)置為“優(yōu)先簡(jiǎn)潔”，從而顯得敷衍。

隨著AI能力增強(qiáng)，用戶(hù)期望也水漲船高。以前能回答簡(jiǎn)單問(wèn)題就很驚喜，現(xiàn)在希望它主動(dòng)推理、“猜中”未說(shuō)完的需求，當(dāng)未達(dá)預(yù)期時(shí)，就易覺(jué)得它在“摸魚(yú)”。

知名經(jīng)濟(jì)學(xué)家盤(pán)和林認(rèn)為，當(dāng)前字節(jié)豆包和即夢(mèng)的算力需求大增，字節(jié)將部分免費(fèi)AI應(yīng)用的算力調(diào)配到即夢(mèng)和剪映等有變現(xiàn)能力的領(lǐng)域，引導(dǎo)用戶(hù)節(jié)約算力，通過(guò)詢(xún)問(wèn)是否生成來(lái)確認(rèn)真實(shí)需求，避免算力浪費(fèi)，這是算力調(diào)配優(yōu)化，防止算力擠兌。

盤(pán)和林表示，若基于免費(fèi)生成算法，此舉無(wú)可厚非。

用戶(hù)如何應(yīng)對(duì)大模型的“敷衍”？專(zhuān)業(yè)人士建議，與其說(shuō)AI消極，不如說(shuō)它需要更明確的指令，可通過(guò)明確要求深度、設(shè)定格式、追問(wèn)糾錯(cuò)、提出開(kāi)放性問(wèn)題等方式再次提問(wèn)。

本文僅代表作者觀點(diǎn)，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

中小銀行定期存款利率進(jìn)入“1時(shí)代”

選擇減肥針的男性群體：健康與外形驅(qū)動(dòng)下的減重選擇

立案調(diào)查！105瓶寶寶霜77瓶含違禁成分，消字號(hào)兒童護(hù)膚亂象仍存

技術(shù)平權(quán)浪潮下的社會(huì)焦慮：我們?cè)撊绾巫蕴帲?

為讓機(jī)器人掌握家務(wù)技能，這家公司推出200美元「技能捕捉手套」

<listing id="bpqh5"></listing>

<sub id="bpqh5"><address id="bpqh5"></address></sub>