9月19日-9月21日,以“云啟智躍 產業(yè)蝶變”為主題的2024杭州·云棲大會在云棲小鎮(zhèn)召開,大會共舉行了400多場并行話題論壇,設置了4萬平米的“人工智能+館”、“計算館”和“前沿應用館”。正如阿里CEO、阿里云董事長兼CEO吳泳銘在主旨演講中所提到的,“AI最大的想象力在于,滲透數字世界、接管數字世界、改變物理世界”。區(qū)別于上一屆云棲大會聚焦AI上游的算力和生態(tài),本次云棲大會重點呈現(xiàn)了在云計算第三次浪潮下,人工智能將迎來的全面變革。通往AGI的大模型演進、生成式AI如何重塑自動駕駛以及人形機器人的發(fā)展暢想成為最熱命題。本文結合大會熱點圍繞AGI未來發(fā)展及重點應用總結專家觀點及趨勢。
大會看點及趨勢
1.AGI持續(xù)加速發(fā)展,強化學習開啟規(guī)模定律新范式
AGI正面臨關鍵技術范式迭代,強化學習提升大模型能力上限。一方面大模型發(fā)展速度仍然強勁,未來技術迭代方向更為清晰。大會上專家先后提及GPT-4o代表的多模融合技術進步、特斯拉FSD代表的端到端智駕模型突破、以及OpenAI o1代表的大語言模型推理能力躍升。專家指出,o1的發(fā)布第一次證明大語言模型可以具備人腦主動反思、糾錯的復雜慢思考能力,為未來大模型智力水平提升給出了清晰路徑。另一方面強化學習推動通用性和泛化性大幅提升,成為規(guī)模定律新范式。傳統(tǒng)大模型預訓練模式多聚焦特定場景,通過增加參數量、數據量提升模型性能,如AlphaGo 只能下圍棋,AlphaFold 只能預測蛋白質的結構。而o1采用基于推理的訓練方式,目前已在數學、代碼等理工科領域展現(xiàn)出較強泛化能力,為未來模型能力提升指明了方向。
AGI產品將迎來革新,增量價值和體驗質量的平衡是關鍵。Kimi創(chuàng)始人楊植麟認為現(xiàn)在處于產業(yè)發(fā)展的早期,產品研發(fā)形態(tài)仍由技術進展反推而來。o1推理能力的進步標志產品智力水平可得到進一步提升,但由于慢思考會增加延時,找到更好輸出與快響應二者間的平衡點很重要。考慮到慢思考響應時間較長的特點,專家認為生產側更高價值的場景將孕育更多大模型發(fā)展機會。此外,楊植麟認為未來產品形態(tài)的設計可能會更接近人類,成為真正的assistant(助手),幫助人們完成復雜的任務。
推理側計算需求將成倍增長,對芯片性能及算力規(guī)模提出更高要求。階躍星辰CEO姜大昕認為,在強化學習階段,尤其是進行self-play(自我博弈)時,數據量在理論上可無限擴展,如OpenAI使用了上萬張H100顯卡,用時幾個月訓練o1模型,后續(xù)還將持續(xù)增加對推理芯片算力、性能要求。同時楊植麟認為,o1的問世只是強化學習泛化到了更高階段的開始,而未來通用、泛化的要求會進一步提升算力需求。
2.端到端架構提升智駕上下限,引領技術產業(yè)雙升級
端到端將為智能駕駛帶來質的提升,數據驅動加速產業(yè)發(fā)展。傳統(tǒng)的智能駕駛方案為模塊化結構,存在人為設定的規(guī)則難以窮盡所有場景的痛點,而端到端技術路線將有效提升智駕的上下限。小鵬汽車董事長、CEO何小鵬表示:未來36個月,端到端智駕可以讓我們每一個人在每一個城市都像老司機一樣開車。具體來看,端到端架構將對智駕體驗帶來以下三點改進:一是操作更加靈活,減少機械化操作。基于規(guī)則的智駕算法會過度量化人的行為,導致駕駛體驗過于機械,與人在駕駛時靈活的操作不符。而端到端架構由真人的駕駛數據驅動,讓駕駛行為更加擬人。二是增加通用性,大幅減少開發(fā)工作量,加快智駕開放速度。基于規(guī)則的算法在通用性上限制極大。英偉達全球副總裁、汽車事業(yè)部負責人吳新宙表示,每發(fā)現(xiàn)一個新的情景,感知模塊和規(guī)控模塊分別需要上百萬輛車的數據集來訓練優(yōu)化,從而產生巨大的工程和測試工作量。而端到端架構基于大模型開發(fā),已經過互聯(lián)網量級的數據訓練,對物理世界的理解遠超汽車駕駛場景,通用性將大幅提升。三是提升時空關聯(lián)能力和邏輯判斷力,降低人工接管頻率。OpenAI o1模型的發(fā)布顯示了大模型在邏輯推理方面的潛力。基于規(guī)則的智駕算法幾乎不具備時間記憶能力,而基于端到端架構的智駕算法擁有長時間、空間的關聯(lián)能力,結合其邏輯推理能力,有望解決更加復雜的場景,如翻倒的卡車等。吳新宙表示,基于端到端架構,人工接管頻率可能由百公里接管降低至千公里或者萬公里,能夠幫助我們真正打開L3、L4級智駕的大門。
產業(yè)方面,F(xiàn)SD入華或使汽車行業(yè)競爭加劇,形成規(guī)模效應是關鍵。吳新宙表示,特斯拉FSD采用先進的端到端架構,有效提升了智駕的上限,但國內環(huán)境更加復雜,其下限問題尚未解決。短時間內,國內智駕方案與FSD將不分伯仲。何小鵬表示,F(xiàn)SD入華將對國內車廠帶來一定的技術沖擊。未來車廠將發(fā)生以下兩點變化:一是車廠將從完全集成模式轉向核心領域自研+其他領域集成。過去,車廠以合并他人能力,制造符合用戶需求的產品為目標。未來將會向軟件企業(yè)、互聯(lián)網企業(yè)轉型升級,在智駕技術、智能芯片等核心領域強化自主掌控。二是車廠將由專注制造轉向全生命周期運營。過去,汽車銷售由合作伙伴完成,車廠無法進行后服務和后收費。未來車廠將轉向從產品研發(fā)到售后服務的全生命周期運營,服務模式和商業(yè)模式都將發(fā)生顛覆性變化。一旦軟硬件形成規(guī)模經濟,中國車廠將有機會打造全球性的汽車品牌。何小鵬表示,下一個階段的賽點是誰能夠每年生產、銷售100萬臺全智能汽車。
3.大模型健全人形機器人大腦、小腦,推動通用性和泛化性發(fā)展
通用感知、通用規(guī)劃、通用執(zhí)行融為一體的大模型,將打造端到端的人形機器人大腦。北大-銀河通用具身智能聯(lián)合實驗室主任、智源學者王鶴表示,現(xiàn)在的人形機器人幾乎都是建立在模塊化的獨立小模型基礎上,端到端的大模型為人形機器人提供了一種可以高效理解事物本質及其處理方法的世界模型。目前大模型賦能機器人的途徑主要包括:一方面以Agent形態(tài)通過調用不同模型的API執(zhí)行完整的感知、交互和決策,另一方面基于Monitor方式強化自我校正和學習優(yōu)化。未來人形機器人領域有望延用自動駕駛端到端的技術理念和框架,打造通用感知、通用規(guī)劃或通用執(zhí)行融為一體的人形機器人大腦,將物理世界的動作信息作為大模型輸出的關鍵模態(tài),促使人形機器人執(zhí)行更高效的操作、實現(xiàn)更精準的反應、應對更復雜的場景。
全身協(xié)同的運動智能是提高人形機器人泛化性的關鍵,小腦成為制約發(fā)展的核心瓶頸。當前人形機器人還需攻克復雜地形行走、四肢協(xié)同操作以及軟硬協(xié)同等運動智能難題,需實現(xiàn)手腳眼腦的全身協(xié)調才能具備通用的移動和操作能力。宇樹科技CEO王興興、逐際動力創(chuàng)始人張巍以及王鶴均強調了全身協(xié)同控制對人形機器人實現(xiàn)通用人工智能的重要性。星動紀元創(chuàng)始人陳建宇則進一步表示,人形機器人的大腦、小腦和本體中,當前發(fā)展最為薄弱、技術最不確定的是小腦。與人形機器人的大腦不同,小腦主要負責實現(xiàn)機器人的運動控制和平衡調節(jié),是承接大腦決策、調用硬件本體的關鍵系統(tǒng)。如今人形機器人的小腦發(fā)展已從手等單個器官的自由控制,轉向為手、腳等的局部協(xié)調控制,但缺少多維度的環(huán)境感知和精密控制算法,運動控制的自由度和協(xié)同性還有待提升。
人形機器人在部分2B場景已達商業(yè)化邊界,但大規(guī)模商用仍需一段時間。受益于大模型技術賦能和汽車等產業(yè)復用,人形機器人將在當前數百上千倍投入的驅動下加速發(fā)展,有望在零售、工業(yè)等場景率先達到技術-價值轉化奇點。王興興提出人形機器人在零售場景已達產業(yè)化邊界,2025年將迎來產業(yè)元年,未來3年在全球范圍內大概率會出現(xiàn)通用型機器人。陳建宇也認為人形機器人在突破小腦瓶頸后將在一兩年時間內進入工業(yè)場景初步使用。然而考慮到人形機器人仍需突破端到端大腦、敏捷小腦等技術難題,倫理法規(guī)、規(guī)模量產等準入門檻,大規(guī)模商用仍需時間。王鶴、張巍認為,人形機器人在家庭場景下的泛化沒有邊界,預計10年后才能達到進入家庭的標準,要避免操之過急實現(xiàn)大規(guī)模商業(yè)化。
建議
1.緊抓技術突破窗口期,培育良好的應用土壤。
一是積極開展前沿領域技術探索,鼓勵并引導國內企業(yè)形成技術聯(lián)盟,實現(xiàn)基礎架構、算法模型開源開放,提升技術研發(fā)效率。二是打造技術與產品的合作生態(tài)。鼓勵大模型科技企業(yè)率先與國內外生產、制造企業(yè)探索各種形式的深度合作,協(xié)同孵化具有生態(tài)競爭力的高水平產品及設備。
2.加快汽車數據基礎設施建設,推動數據驅動產業(yè)發(fā)展。
一是建立公共服務平臺,完善汽車數據產權、數據安全合規(guī)等政策,建立協(xié)同合作措施,發(fā)揮不同主體優(yōu)勢,推動產學研合作激發(fā)產業(yè)發(fā)展動力。二是建立汽車數據標準體系,圍繞汽車數據各領域全面布局,推動共性標準研制及落地實施,指導企業(yè)構建完善的數據能力體系。
3.完善人形機器人大腦-小腦-本體產業(yè)體系,有序推進規(guī)模商業(yè)落地。
一是基于多模態(tài)大模型加快機器人“大腦”端到端進化,全面提升先驗知識庫能力、強大的通識理解能力、復雜語義多級推理能力。二是強化小腦的軟件承接和硬件操控能力,攻克運動智能控制難點,推動人形機器人全身協(xié)同、敏捷反應。三是在零售、工業(yè)制造等固定場景優(yōu)先孵化成熟產品,打造良好示范標桿,進而推動全場景全任務的通用型人形機器人研發(fā)和商用。
本文作者
姜璐
戰(zhàn)略發(fā)展研究所
一級分析師
就職于中國電信研究院,長期從事云網融合、數字經濟等相關研究,近年來專注集成電路、操作系統(tǒng)等專業(yè)領域。
傅悅
戰(zhàn)略發(fā)展研究所
助理分析師
碩士,就職于中國電信研究院,長期從事數字產業(yè)相關研究,近年來專注集成電路、車聯(lián)網等專業(yè)領域。
趙曄蕾
戰(zhàn)略發(fā)展研究所
二級分析師