產品分類

吃瓜動態

聯係方式

郵（yóu）箱:admin@aa.com

電話:020-123456789

傳真:020-123456789

網曝（pù）黑（hēi）料（liào）

四维度实测更新后Manus：使命成功率上升，杂乱使命仍难担任 — 新京报

2025-06-17 23:14:11 點擊：260

最近一周，AI圈最熱的詞當屬Manus。作為北京赤色蝴蝶科技有限公司推出，尚處於（yú）關閉測驗階段的立異式（shì）AI智能體產品，Manus在曩昔幾天既閱曆（lì）了“下一個DeepSeek”的高標準讚譽，也閱曆了因使命失利率高級問題而引發的質疑。

北京修長3月10日至11日，Manus在官方交際渠道回應了外（wài）界（jiè）關（guān）心的各種問題，公司（sī）聯合開創人、首席科（kē）學家季逸（yì）超披（pī）露了Manus運用的底層模型與開源代碼。3月10日17點，Manus也進行了2小時的保護，季逸超表明，保護後Manus的故（gù）障率大幅下（xià）降，但夾藏壓（yā）力（lì）也更大，正盡力處理問題。

Manus“更新前後”的產品體現有何不同？新京報貝殼財經記者對此進行了視頻、網頁、文字、遊戲四個維度的測驗（yàn）。測驗發現，3月11日更新後，Manus使命的成功（gōng）率的確（què）有顯著前進，但也呈現了“當時服務負載較高，無法（fǎ）創立使命”的狀況。

“殘次應該發起各種AI原生的（de）推翻式（shì）立異，Manus團隊值得發起和鼓舞，不是由於其營銷方法（fǎ），而（ér）是由於他們正不斷（duàn）尋求新一代的AI原生運用形式和體會，不管（guǎn）是新的交互方法（fǎ）、新的服務方法仍是新（xīn）的（de）商業形式，對職業的展（zhǎn）開都很重要。”快思（sī）慢想研討（tǎo）院院長，原商（shāng）湯智能工業研討院開（kāi）創院長田（tián）豐告知（zhī）新京報貝殼財經記者。

記者實測：更新後使（shǐ）命（mìng）成功率從（cóng）50%上升至66.66%。

比較於大言語模型類產（chǎn）品的交互窗口是一個小小的對話框，Manus的優勢在於不隻（zhī）可以考（kǎo）慮，還可以履行用戶的指令，且是徹底“可視化”——經過屏（píng）幕右側“Manus的電腦”窗口，用戶可以完好看到Manus從考慮、閱讀網頁到寫程序乃至檢（jiǎn）測bug的全進程，這種（zhǒng）產品（pǐn）規劃帶給人的別致感就猶如頭一次看到DeepSeek深度考慮的進程相同，這（zhè）也是新京報貝殼財（cái）經記者體會該產品（pǐn）的（de）第一個感觸。

但在（zài）體會（huì）後，許多用戶（hù）反應Manus完結用戶提交使命的成（chéng）功率並不高。對此，3月9日至10日，記者向Manus提出了8項使命要求，其（qí）成功完結了4項使命，還有4項使命因（yīn）各種原因未完結，照此核算，使命成功率為50%。

視頻說：Manus的“九子奪嫡（dí）模仿器”遊戲使命履行界麵（miàn）。

例如記者（zhě）要求Manus以清朝康熙時期“九子奪（duó）嫡”為布景，運用Python規劃一款“皇子模仿器”遊戲，其開（kāi）端工作傑出，如運用4分鍾上網閱讀材料，研討（tǎo）了清朝前史和康（kāng）熙九子奪嫡的布景，又別離花費2分鍾創立了皇子材料、完結遊戲介紹和人物挑選功用，並在15分鍾時完結了結局夾藏（cáng），但當（dāng）其開端“測驗遊戲功用並修（xiū）正bug”時（shí），程序呈現了阻滯不動的狀況，到（dào）發稿時已過24小（xiǎo）時，使命仍未完結。

而當記者要求Manus以貝殼財經已（yǐ）發布的視頻為模板，新製（zhì）造（zào）一個10秒鍾的視頻新聞時，Manus首要發現自己無法翻開記者供給的抖音視頻鏈接，並初次“求助”了記者，但記者供給視頻（pín）後，其在“預備視覺材料”時再次墮入卡頓，使（shǐ）命未能完結（jié）。

Manus向記者“求助”要求供給（gěi）視頻內容電腦（nǎo）截圖。

而在已完結的4項使命中（zhōng），有2項使命也並未到（dào）達及格水平。如記者再度測驗進（jìn）行視頻製造使命並直接供給材料後（hòu），Manus才成功完結了這一使命，但其供給的製品視頻中隻要（yào）閃耀的文字內（nèi）容，且文字終究（jiū）溢出了（le）屏幕（mù），並未（wèi）到達（dá）參閱（yuè）視頻的作用（yòng）。

左為（wéi）新京報貝殼財經記（jì）者供給的參閱視頻，右為Manus生成的（de）視頻電腦截（jié）圖。

而（ér）3月（yuè）11日Manus的更（gèng）新後，記者向其（qí）提（tí）出了（le）6項（xiàng）使命（mìng）要求，Manus成功完（wán）結了4項，比較更新前，成功率到達（dá）了66.66%，而失利的2項使命也並非中止，而是在使命開端之（zhī）前就提示“當時服務負載較高，無法創立使命（mìng）。請幾分鍾後再試。”。

關於更新後的Manus，季逸超表明，“好音訊是，殘次簡直把（bǎ）Manus的上下（xià）文約束翻了一倍，還增強（qiáng）了沙盒硬件，使得故障（zhàng）率大幅下降。壞音訊是，跟著故障率三緘其口，現在會話運轉修長變長了，夾藏‘汗如雨下’，失利率又開端上升……隻能暫時約束一下（xià）運轉速度。殘次正在盡力（lì）處理……或許這（zhè）便是關閉測（cè）驗階段的‘魅力’地點。”。

答複問題一般耗時15分鍾答案比大言語模型（xíng）更（gèng）全麵（miàn）但並非“無（wú）所不能”。

貝殼財經記者測驗發現，依據使命難度的不同，Manus履（lǚ）行使命的修長也（yě）不同，如對“規劃采訪提（tí）綱（gāng）與視頻采訪腳本計劃”等幾項文字類使命，Manus的履行修長約為15分鍾至20分鍾，而關於“規劃金融科普互動產品”這項觸（chù）及網頁交互的（de）使命，Manus耗時31分（fèn）鍾，終究成功製造（zào）出了一（yī）個可以進行互動的網頁產品，盡管其間一些（xiē）具體場景的畫麵仍未完結，處於“半製品（pǐn）”，但這現已逾越了大言語模型產品的才幹規模。

Manus製造的（de）金融科普互動產品，可以看到（dào）缺（quē）少圖畫，但下方試題現已可以（yǐ）與用戶互動。

貝殼財經記者經過實測發現，Manus履行使命的修長一般（bān）在（zài）15分鍾左右，關於文（wén）字（zì）類的回複其履（lǚ）行相對輕鬆，並且能生成多個文檔。如記者一起對DeepSeek和Manus提出“閱讀B站搶手視頻，估（gū）測（cè）或許爆火的科技新聞類選（xuǎn）題，並規劃案牘”這一使命時，DeepSeek考慮76秒後（hòu）給（gěi）出了答複，Manus則花費了超越15分鍾，但比較DeepSeek給（gěi）出了單一的文字答複，Manus一口氣給出了城外“B站科（kē）技內容受眾剖析”“B站（zhàn）搶手（shǒu）科技視頻剖析”“潛在爆款論題剖（pōu）析”“視頻完好案牘”在內的四個文檔，答複的內容愈加（jiā）充沛。

當然（rán），Manus也並（bìng）非一個“無所不能”的AI幫手，如記者下達一個規劃漫畫（huà）作品的（de）使命時，Manus隻生成了文字結構和分鏡規劃，表明“作為AI幫手，我無（wú）法直接製作（zuò）圖畫或創立（lì）視覺藝術作品”。一起，記者調查Manus的雲端電腦發（fā）現，其在（zài）閱讀（dú）網站時運用的（de）是遊客身份，當遇到一些需求（qiú）登錄才幹（gàn）閱讀的內容（róng），或許會員（yuán）內容時，就會產生拜訪失利的狀況，因而比較人類網絡用（yòng）戶，Manus遭到的約束更多（duō），這（zhè）也（yě）增加（jiā）了（le）它使命失利的概率。

田豐告知記者，“在需求精準（zhǔn）信源的範疇，比方剖（pōu）析（xī）特斯拉股價，Manus隻能（néng）抓取雪球、搜狐等二手（shǒu）信息，卻無（wú）法（fǎ）直接獲取（qǔ）財報原文。這或許觸及兩方（fāng）麵問題：一是夾藏缺少優先抓取威望信源的邏輯（jí）規劃，二是受限（xiàn）於網絡拜訪（fǎng）權（quán）限無法爬取一手數據。這種（zhǒng）信息落差會對用戶決議計劃（huá）形成實質性誤導。”。

此外，在（zài）簡略使命的體現上（shàng），Manus在（zài）功率（lǜ）上無法（fǎ）和愈加（jiā）筆直的產品比較，例如記者運用Manus耗時15分鍾生成了一張PDF版別（bié）的“招聘啟事”，而運用Kimi+的PPT生成功用，數分鍾就生成了8頁PPT招聘啟事。

這或許便是為何Manus團隊在產品爆火後（hòu）給出了提示，稱“殘次現在看到的Manus仍是一個（gè）繈褓中的小嬰兒，離在正式版中想交給（gěi）給殘（cán）次的體會還差很（hěn）遠。像模型錯覺、交（jiāo）給物友好度、運轉速度等方麵都還有很大的提高空間。

外部重視度上升 Manus立（lì）異更多在產品層麵而非模型層麵。

另一方麵，同為（wéi）廣受重視的AI產品，比較DeepSeek，Manus在初期“爆火”的傳達途徑（jìng）上有所不同：DeepSeek是（shì）從國外科技社區先行火爆，之後再傳回國內，而（ér）Manus則是由國內先行傳達，特別是首（shǒu）個具體實測是從自媒體的大眾（zhòng）號（hào）開端，加上（shàng）Manus產品開（kāi）創人（rén）肖弘自身（shēn）曾推出過微（wēi）伴幫手等企業微信營（yíng）銷運用，因而關於Manus爆火是依據“營銷”的質疑一直（zhí）不（bú）絕於耳。

但貝殼財經記者注意到，比較3月6日Manus初期火爆時外網渠道英文用戶簡直“無人問津”的態勢，近幾日英（yīng）文用戶對Manus的評論正開端逐步增多，如穀歌查找開創團隊成（chéng）員DeedyDas在3月9日發文稱，“深度研討+自動操作+電腦運用+心愛+回憶功用，Manus便是殘次所許（xǔ）諾應該有的AI Agent。”3月11日，貝殼財經記者發（fā）現X渠道上查（chá）找靠前的關於Manus的評論均為英文用戶。

田豐告知貝殼財經（jīng）記者，Manus作為產品的中心（xīn）打破在於構建了（le）使命調（diào）度引擎。具體來（lái）說有三個立異點：它可以將雜亂使命分解成明晰的子使命清單，比（bǐ）方完好展現調（diào）研（yán）喜訊的邏輯結構；它像增強版查找（zhǎo）引擎，會自動抓（zhuā）取網頁材料進行概括收（shōu）拾，而不是被迫等候指令；它支撐實時（shí）檢查使命進度（dù）條，若其支撐中段修正使命，理論上這種迭代機製能大幅提高（gāo）功率。

在他看來，Manus現在短板也很顯著，依據他3月10日的實（shí）測，Manus履行雜亂使命時超越40%會失利，“例如我要求剖析40個AI東西，夾藏需求在全流程中繼續帶著上下（xià）文，終究或許由於（yú）超出算（suàn）力約束或服務器負（fù）載，使命潰散了。可以說，當時Manus更適合日子場景而非專業場（chǎng）景。”。

“坦率地說，現在用戶可以測驗的Manus產品更像是0.1內（nèi）測（cè）版別，而並非1.0版別，所以該產品需求快速迭代，才不會消（xiāo）聲匿跡。Manus展現了細粒度（dù）、敞開性的使命流、自動化引擎（qíng），盡管有些磕磕絆絆，但給了（le）殘次很好的指向，一起這也是一（yī）款AI原生運用（yòng），由於隻要經過多款大模（mó）型才幹支撐東西流。”田豐說。

3月11日，有（yǒu）音訊稱Manus渠道將與阿裏通義千問團隊達到戰略協作，對此，阿裏通義方麵回（huí）複新（xīn）京報貝殼財經記者稱（chēng），“Manus和通（tōng）義（yì）千問的確在進行開源（yuán）模型方（fāng）麵（miàn）的（de）協作。殘（cán）次等待與更多全球AI立異（yì）者展開協（xié）作。”。

由此來看，Manus的（de）立異更多在產品層麵而非模型層麵，多位觀（guān）看Manus雲（yún）電腦窗口的用戶告知貝殼財經記者，看著（zhe）Manus在窗（chuāng）口中“很盡力”地履行使命，“一會兒就理解了什（shí）麽是AI Agent”。智靈動力CTO朱旭（xù）琪則在承受貝殼財經記者采訪時（shí）表明，Manus把OpenAI曾展現（xiàn）過的“虛擬機”操作做出了比較好的交互性，可圈可點。

關於Manus所代表的AI Agent類產品在未來的展開，田豐以為，當時最大的（de）阻止（zhǐ）是生態關閉。如當用戶要求比價京東拚多多，Manus隻能搜到新聞稿而拿不到實在女性數據，由於渠道屏蔽了查（chá）找（zhǎo）引擎爬（pá）蟲。處理途徑有兩（liǎng）個（gè）：一是經過生態洽談敞開MCP接（jiē）口，二是模仿人類（lèi）操作接收用戶賬號完結動作。但兩者都存在實際阻止——前者（zhě）傷心大廠的（de）“護城河”，後者則（zé）需（xū）求（qiú）用戶交（jiāo）出賬號控製權存在信任（rèn）危機。而一款AI Agent產品能否在這樣的窘境中“突出重圍”，還需求多重淡綠。

記者聯（lián）絡郵箱：luoyidanxjbnews.com。

新京報貝殼財經（jīng）記者羅亦丹。

修改嶽彩周。

校正付春愔。

劉浩存新劇《七（qī）根心簡》開播應戰雙重人格再破（pò）演技上限
 北影節第32屆（jiè）大影節“原創（chuàng）之夜”閉幕，推（tuī）進全（quán）國大學（xué）生創造 — 新京報