9月19日-9月21日,以“云啟智躍 產(chǎn)業(yè)蝶變”為主題的2024杭州·云棲大會在云棲小鎮(zhèn)召開,大會共舉行了400多場并行話題論壇,設(shè)置了4萬平米的“人工智能+館”、“計算館”和“前沿應(yīng)用館”。正如阿里CEO、阿里云董事長兼CEO吳泳銘在主旨演講中所提到的,“AI最大的想象力在于,滲透數(shù)字世界、接管數(shù)字世界、改變物理世界”。區(qū)別于上一屆云棲大會聚焦AI上游的算力和生態(tài),本次云棲大會重點呈現(xiàn)了在云計算第三次浪潮下,人工智能將迎來的全面變革。通往AGI的大模型演進、生成式AI如何重塑自動駕駛以及人形機器人的發(fā)展暢想成為最熱命題。本文結(jié)合大會熱點圍繞AGI未來發(fā)展及重點應(yīng)用總結(jié)專家觀點及趨勢。
大會看點及趨勢
1.AGI持續(xù)加速發(fā)展,強化學(xué)習(xí)開啟規(guī)模定律新范式
AGI正面臨關(guān)鍵技術(shù)范式迭代,強化學(xué)習(xí)提升大模型能力上限。一方面大模型發(fā)展速度仍然強勁,未來技術(shù)迭代方向更為清晰。大會上專家先后提及GPT-4o代表的多模融合技術(shù)進步、特斯拉FSD代表的端到端智駕模型突破、以及OpenAI o1代表的大語言模型推理能力躍升。專家指出,o1的發(fā)布第一次證明大語言模型可以具備人腦主動反思、糾錯的復(fù)雜慢思考能力,為未來大模型智力水平提升給出了清晰路徑。另一方面強化學(xué)習(xí)推動通用性和泛化性大幅提升,成為規(guī)模定律新范式。傳統(tǒng)大模型預(yù)訓(xùn)練模式多聚焦特定場景,通過增加參數(shù)量、數(shù)據(jù)量提升模型性能,如AlphaGo 只能下圍棋,AlphaFold 只能預(yù)測蛋白質(zhì)的結(jié)構(gòu)。而o1采用基于推理的訓(xùn)練方式,目前已在數(shù)學(xué)、代碼等理工科領(lǐng)域展現(xiàn)出較強泛化能力,為未來模型能力提升指明了方向。
AGI產(chǎn)品將迎來革新,增量價值和體驗質(zhì)量的平衡是關(guān)鍵。Kimi創(chuàng)始人楊植麟認(rèn)為現(xiàn)在處于產(chǎn)業(yè)發(fā)展的早期,產(chǎn)品研發(fā)形態(tài)仍由技術(shù)進展反推而來。o1推理能力的進步標(biāo)志產(chǎn)品智力水平可得到進一步提升,但由于慢思考會增加延時,找到更好輸出與快響應(yīng)二者間的平衡點很重要?紤]到慢思考響應(yīng)時間較長的特點,專家認(rèn)為生產(chǎn)側(cè)更高價值的場景將孕育更多大模型發(fā)展機會。此外,楊植麟認(rèn)為未來產(chǎn)品形態(tài)的設(shè)計可能會更接近人類,成為真正的assistant(助手),幫助人們完成復(fù)雜的任務(wù)。
推理側(cè)計算需求將成倍增長,對芯片性能及算力規(guī)模提出更高要求。階躍星辰CEO姜大昕認(rèn)為,在強化學(xué)習(xí)階段,尤其是進行self-play(自我博弈)時,數(shù)據(jù)量在理論上可無限擴展,如OpenAI使用了上萬張H100顯卡,用時幾個月訓(xùn)練o1模型,后續(xù)還將持續(xù)增加對推理芯片算力、性能要求。同時楊植麟認(rèn)為,o1的問世只是強化學(xué)習(xí)泛化到了更高階段的開始,而未來通用、泛化的要求會進一步提升算力需求。
2.端到端架構(gòu)提升智駕上下限,引領(lǐng)技術(shù)產(chǎn)業(yè)雙升級
端到端將為智能駕駛帶來質(zhì)的提升,數(shù)據(jù)驅(qū)動加速產(chǎn)業(yè)發(fā)展。傳統(tǒng)的智能駕駛方案為模塊化結(jié)構(gòu),存在人為設(shè)定的規(guī)則難以窮盡所有場景的痛點,而端到端技術(shù)路線將有效提升智駕的上下限。小鵬汽車董事長、CEO何小鵬表示:未來36個月,端到端智駕可以讓我們每一個人在每一個城市都像老司機一樣開車。具體來看,端到端架構(gòu)將對智駕體驗帶來以下三點改進:一是操作更加靈活,減少機械化操作。基于規(guī)則的智駕算法會過度量化人的行為,導(dǎo)致駕駛體驗過于機械,與人在駕駛時靈活的操作不符。而端到端架構(gòu)由真人的駕駛數(shù)據(jù)驅(qū)動,讓駕駛行為更加擬人。二是增加通用性,大幅減少開發(fā)工作量,加快智駕開放速度。基于規(guī)則的算法在通用性上限制極大。英偉達(dá)全球副總裁、汽車事業(yè)部負(fù)責(zé)人吳新宙表示,每發(fā)現(xiàn)一個新的情景,感知模塊和規(guī)控模塊分別需要上百萬輛車的數(shù)據(jù)集來訓(xùn)練優(yōu)化,從而產(chǎn)生巨大的工程和測試工作量。而端到端架構(gòu)基于大模型開發(fā),已經(jīng)過互聯(lián)網(wǎng)量級的數(shù)據(jù)訓(xùn)練,對物理世界的理解遠(yuǎn)超汽車駕駛場景,通用性將大幅提升。三是提升時空關(guān)聯(lián)能力和邏輯判斷力,降低人工接管頻率。OpenAI o1模型的發(fā)布顯示了大模型在邏輯推理方面的潛力;谝(guī)則的智駕算法幾乎不具備時間記憶能力,而基于端到端架構(gòu)的智駕算法擁有長時間、空間的關(guān)聯(lián)能力,結(jié)合其邏輯推理能力,有望解決更加復(fù)雜的場景,如翻倒的卡車等。吳新宙表示,基于端到端架構(gòu),人工接管頻率可能由百公里接管降低至千公里或者萬公里,能夠幫助我們真正打開L3、L4級智駕的大門。
產(chǎn)業(yè)方面,F(xiàn)SD入華或使汽車行業(yè)競爭加劇,形成規(guī)模效應(yīng)是關(guān)鍵。吳新宙表示,特斯拉FSD采用先進的端到端架構(gòu),有效提升了智駕的上限,但國內(nèi)環(huán)境更加復(fù)雜,其下限問題尚未解決。短時間內(nèi),國內(nèi)智駕方案與FSD將不分伯仲。何小鵬表示,F(xiàn)SD入華將對國內(nèi)車廠帶來一定的技術(shù)沖擊。未來車廠將發(fā)生以下兩點變化:一是車廠將從完全集成模式轉(zhuǎn)向核心領(lǐng)域自研+其他領(lǐng)域集成。過去,車廠以合并他人能力,制造符合用戶需求的產(chǎn)品為目標(biāo)。未來將會向軟件企業(yè)、互聯(lián)網(wǎng)企業(yè)轉(zhuǎn)型升級,在智駕技術(shù)、智能芯片等核心領(lǐng)域強化自主掌控。二是車廠將由專注制造轉(zhuǎn)向全生命周期運營。過去,汽車銷售由合作伙伴完成,車廠無法進行后服務(wù)和后收費。未來車廠將轉(zhuǎn)向從產(chǎn)品研發(fā)到售后服務(wù)的全生命周期運營,服務(wù)模式和商業(yè)模式都將發(fā)生顛覆性變化。一旦軟硬件形成規(guī)模經(jīng)濟,中國車廠將有機會打造全球性的汽車品牌。何小鵬表示,下一個階段的賽點是誰能夠每年生產(chǎn)、銷售100萬臺全智能汽車。
3.大模型健全人形機器人大腦、小腦,推動通用性和泛化性發(fā)展
通用感知、通用規(guī)劃、通用執(zhí)行融為一體的大模型,將打造端到端的人形機器人大腦。北大-銀河通用具身智能聯(lián)合實驗室主任、智源學(xué)者王鶴表示,現(xiàn)在的人形機器人幾乎都是建立在模塊化的獨立小模型基礎(chǔ)上,端到端的大模型為人形機器人提供了一種可以高效理解事物本質(zhì)及其處理方法的世界模型。目前大模型賦能機器人的途徑主要包括:一方面以Agent形態(tài)通過調(diào)用不同模型的API執(zhí)行完整的感知、交互和決策,另一方面基于Monitor方式強化自我校正和學(xué)習(xí)優(yōu)化。未來人形機器人領(lǐng)域有望延用自動駕駛端到端的技術(shù)理念和框架,打造通用感知、通用規(guī)劃或通用執(zhí)行融為一體的人形機器人大腦,將物理世界的動作信息作為大模型輸出的關(guān)鍵模態(tài),促使人形機器人執(zhí)行更高效的操作、實現(xiàn)更精準(zhǔn)的反應(yīng)、應(yīng)對更復(fù)雜的場景。
全身協(xié)同的運動智能是提高人形機器人泛化性的關(guān)鍵,小腦成為制約發(fā)展的核心瓶頸。當(dāng)前人形機器人還需攻克復(fù)雜地形行走、四肢協(xié)同操作以及軟硬協(xié)同等運動智能難題,需實現(xiàn)手腳眼腦的全身協(xié)調(diào)才能具備通用的移動和操作能力。宇樹科技CEO王興興、逐際動力創(chuàng)始人張巍以及王鶴均強調(diào)了全身協(xié)同控制對人形機器人實現(xiàn)通用人工智能的重要性。星動紀(jì)元創(chuàng)始人陳建宇則進一步表示,人形機器人的大腦、小腦和本體中,當(dāng)前發(fā)展最為薄弱、技術(shù)最不確定的是小腦。與人形機器人的大腦不同,小腦主要負(fù)責(zé)實現(xiàn)機器人的運動控制和平衡調(diào)節(jié),是承接大腦決策、調(diào)用硬件本體的關(guān)鍵系統(tǒng)。如今人形機器人的小腦發(fā)展已從手等單個器官的自由控制,轉(zhuǎn)向為手、腳等的局部協(xié)調(diào)控制,但缺少多維度的環(huán)境感知和精密控制算法,運動控制的自由度和協(xié)同性還有待提升。
人形機器人在部分2B場景已達(dá)商業(yè)化邊界,但大規(guī)模商用仍需一段時間。受益于大模型技術(shù)賦能和汽車等產(chǎn)業(yè)復(fù)用,人形機器人將在當(dāng)前數(shù)百上千倍投入的驅(qū)動下加速發(fā)展,有望在零售、工業(yè)等場景率先達(dá)到技術(shù)-價值轉(zhuǎn)化奇點。王興興提出人形機器人在零售場景已達(dá)產(chǎn)業(yè)化邊界,2025年將迎來產(chǎn)業(yè)元年,未來3年在全球范圍內(nèi)大概率會出現(xiàn)通用型機器人。陳建宇也認(rèn)為人形機器人在突破小腦瓶頸后將在一兩年時間內(nèi)進入工業(yè)場景初步使用。然而考慮到人形機器人仍需突破端到端大腦、敏捷小腦等技術(shù)難題,倫理法規(guī)、規(guī)模量產(chǎn)等準(zhǔn)入門檻,大規(guī)模商用仍需時間。王鶴、張巍認(rèn)為,人形機器人在家庭場景下的泛化沒有邊界,預(yù)計10年后才能達(dá)到進入家庭的標(biāo)準(zhǔn),要避免操之過急實現(xiàn)大規(guī)模商業(yè)化。
建議
1.緊抓技術(shù)突破窗口期,培育良好的應(yīng)用土壤。
一是積極開展前沿領(lǐng)域技術(shù)探索,鼓勵并引導(dǎo)國內(nèi)企業(yè)形成技術(shù)聯(lián)盟,實現(xiàn)基礎(chǔ)架構(gòu)、算法模型開源開放,提升技術(shù)研發(fā)效率。二是打造技術(shù)與產(chǎn)品的合作生態(tài)。鼓勵大模型科技企業(yè)率先與國內(nèi)外生產(chǎn)、制造企業(yè)探索各種形式的深度合作,協(xié)同孵化具有生態(tài)競爭力的高水平產(chǎn)品及設(shè)備。
2.加快汽車數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè),推動數(shù)據(jù)驅(qū)動產(chǎn)業(yè)發(fā)展。
一是建立公共服務(wù)平臺,完善汽車數(shù)據(jù)產(chǎn)權(quán)、數(shù)據(jù)安全合規(guī)等政策,建立協(xié)同合作措施,發(fā)揮不同主體優(yōu)勢,推動產(chǎn)學(xué)研合作激發(fā)產(chǎn)業(yè)發(fā)展動力。二是建立汽車數(shù)據(jù)標(biāo)準(zhǔn)體系,圍繞汽車數(shù)據(jù)各領(lǐng)域全面布局,推動共性標(biāo)準(zhǔn)研制及落地實施,指導(dǎo)企業(yè)構(gòu)建完善的數(shù)據(jù)能力體系。
3.完善人形機器人大腦-小腦-本體產(chǎn)業(yè)體系,有序推進規(guī)模商業(yè)落地。
一是基于多模態(tài)大模型加快機器人“大腦”端到端進化,全面提升先驗知識庫能力、強大的通識理解能力、復(fù)雜語義多級推理能力。二是強化小腦的軟件承接和硬件操控能力,攻克運動智能控制難點,推動人形機器人全身協(xié)同、敏捷反應(yīng)。三是在零售、工業(yè)制造等固定場景優(yōu)先孵化成熟產(chǎn)品,打造良好示范標(biāo)桿,進而推動全場景全任務(wù)的通用型人形機器人研發(fā)和商用。
本文作者
姜璐
戰(zhàn)略發(fā)展研究所
一級分析師
就職于中國電信研究院,長期從事云網(wǎng)融合、數(shù)字經(jīng)濟等相關(guān)研究,近年來專注集成電路、操作系統(tǒng)等專業(yè)領(lǐng)域。
傅悅
戰(zhàn)略發(fā)展研究所
助理分析師
碩士,就職于中國電信研究院,長期從事數(shù)字產(chǎn)業(yè)相關(guān)研究,近年來專注集成電路、車聯(lián)網(wǎng)等專業(yè)領(lǐng)域。
趙曄蕾
戰(zhàn)略發(fā)展研究所
二級分析師
碩士,主要從事工業(yè)互聯(lián)網(wǎng)、大數(shù)據(jù)產(chǎn)業(yè)發(fā)展趨勢研究,長期專注產(chǎn)業(yè)數(shù)字化研究。