生数科技朱军：视频模型下一步是高可控，我国视频大模型引领全球 — 新京报

2025-06-14 13:28:20 點（diǎn）擊：661

“在大（dà）言語模型（xíng）範疇，DeepSeek在提高功率上有共同的認知，而功率的優化的理念在視頻（pín）模型範疇現已紮根，因而大概率不會呈現這種（zhǒng）一會兒‘遙遙搶先’的模型，咱們等待視頻模型更（gèng）可控、更好用、每個人都能用到。”清華大學人工智能研究院副院長（zhǎng）、生數科技創始人兼傑出科學家朱軍告知新京報貝殼（ké）財經記者。

3月27日至31日，2025中關村論壇（tán）年會（huì）舉（jǔ）辦（bàn）。在上一年的中關村論壇上（shàng），朱軍發布了對標Sora的首個國產（chǎn）自研視頻大模型Vidu，受到了廣泛重視。而（ér）2025中關村論壇上（shàng），朱軍在主題講演中發布了（le）業界首個高可控視頻大模型Vidu Q1，並（bìng）在會後接受了新京報貝殼財經記者的采訪。

朱軍（jun1）在2025中關村論壇上宣布（bù）講演新京報貝殼財經記者羅亦丹攝。

Q代表“質量” 高可控背麵是根底模型才能提（tí）高。

本次回歸中關村（cūn）論（lùn）壇，朱軍帶來了更為強壯的 Vidu Q1模型，他告知記（jì）者，Q代表“Quality（質量）”，即高質量、高（gāo）可控，這自身實際上是根底（dǐ）模型才能的提高，“現在（zài）階段投入根（gēn）底模型（xíng）的收益（yì）仍是規劃（huá）大的，加上根底模型之上的一些（xiē）技能立異，從後端能夠更好地完成高一致性和高可控的成果。”。

貝殼財經記（jì）者經過視頻演示發現，Vidu Q1模型在方位、運動布局、音頻等多個範疇完成了可控晉級。以多（duō）主體細節可（kě）控為例（lì），在語義指令的根底上，經過融入參（cān）閱圖的視覺指令，Vidu Q1支撐（chēng）對一（yī）切動作行為（進場、離場、坐立姿（zī）勢、舉動（dòng）道路（lù））進行精（jīng）準（zhǔn）調（diào）整，從而用更低的抽卡率完成更高質量的可控（kòng）生成。

朱軍介紹，Vidu在（zài）商業化方麵一直是C端與B端偏重，不過現在C端因為麵向全球，增長速度很（hěn）快，因而視頻模（mó）型的技能打破能夠更好地服務寬廣用戶。而B端則麵向（xiàng）國內市場，現在（zài）現已看到了對MaaS（模型（xíng）即服務）的廣泛需求，本年也會繼續同步推（tuī）動兩種事務。

“上一年，Vidu在中關村論壇開幕前一周（zhōu）時完成了技能打破，因而也被約請來到這樣一（yī）個高端渠道上進行展現。而本年是論壇一周年，也是Vidu大模型的一周年，因而（ér）也想在這兒傳達一些（xiē）開展。”朱軍告知新京報貝殼財經記者。

視頻模型最（zuì）重要的是功率我國視（shì）頻模型（xíng）引領全球。

朱軍表明，現在大言語模型範疇有才能十分搶先的頭部公司，但視頻（pín）模型範疇徹底不同，“現在能夠以為我國的視頻模型在全球，於許多方麵是（shì）處於（yú）引（yǐn）領位置的。”。

“別的，視頻模型（xíng）的商（shāng）業化途徑會更快，咱們對視頻模型的消費和需求十分寬廣，所以視頻和文字的賽道不一樣。現在頭部的視頻大模型各自（zì）都有特征、差異化的商業化的途徑，並沒有像言語模型處於紅海狀（zhuàng）況。”朱軍說。

在（zài）他看來，視頻大模型的開展，更重要的（de）還要看團隊能否繼續立異，職業上公司的密度還比較稀少（shǎo），大概率不會呈現一家獨大的狀（zhuàng）況。

別的，新京（jīng）報貝殼財經記（jì）者（zhě）注意到，本年以來DeepSeek引領起了大模型的開源浪潮，阿裏雲也（yě）推出了開源版別的視頻模型。對此，朱軍回應稱，DeepSeek最感動用戶的點仍是作用（yòng）好（hǎo）、功率（lǜ）高，“咱們以為（wéi）從視（shì）頻模型（xíng）的視點來說，用戶最關懷的仍是質量和功率。”。

記者聯絡郵箱：luoyidanxjbnews.com。

新京報貝殼財經記者羅亦（yì）丹。

修改寇（kòu）德娜。

校正（zhèng）王心（xīn）。

兩（liǎng）場演唱會一起開演種（zhǒng）夢音樂D.M.G打造說唱（chàng）音樂（lè）視聽盛宴
 中國駐日本大使館（guǎn）發言人就中國軍（jun1）機有關活動答記者問 — 新京報