2023世界人工智能大會“科技與人文——共筑無障礙智能社會”論壇8日在上海世博中心召開。
北京大學智能學院、跨媒體通用人工智能全國重點實驗室研究員,超級自動化聯合實驗室主任馬修軍博士在論壇上作題為《跨越AIGC大模型的鴻溝:視覺語言大模型推動泛在的具身智能》的主旨演講,從多模態通用模型角度,洞觀AIGC(生成式人工智能)的下一熱點——具身智能的發展以及大模型創新鏈與產業鏈深度融合。
人工智能已經邁入AIGC時代,全球產業界都在競爭具有泛化能力的語言大模型,大模型產業鏈與生態鏈日益完善,國際巨頭不斷推高大語音模型能力,國內百度、華為,騰訊、阿里等也在加速布局語言大模型。
(資料圖片僅供參考)
馬修軍介紹道,當前,基于語言大模型的工具鏈和生態不斷涌現,大模型應用重點轉向行動導向,調用和操作外部系統和工具,即大模型從知識、推理轉向行動驅動。“但語言大模型的普及仍存在三大鴻溝:一是幻覺問題,二是記憶和個性化問題,三是多模態與物理世界交互問題。”他認為,AIGC大模型下一個熱點是多模態和具身智能。
所謂“具身智能”,是指能夠理解、推理并與物理世界交互的通用智能體,具有多模態感知認知能力和自主多任務機制。視覺語言大模型是多模態通用模型的核心。
視覺也是一種語言,語言的載體是文字。“中國象形文字天然具有多模態表征和明文通信的編碼能力,看一個字就知道什么意思。借助象形文字的編碼思想,我們可以為人工智能表征世界設計一種多模態特征編碼,進而發展多模態通用語言大模型。”馬修軍說。
據介紹,視覺語言大模型基于對現實世界表征預測的類象形文字的特征編碼,使得人工智能擁有了自己的文字,可以理解像素、聽懂語音序列并感知世界,真正擁有具身智能的核心能力,并且這種多模態文字編碼可用于具身智能之間的通訊交互,構建一個泛在的機器智能社會。
馬修軍認為,多模態通用模型與具身智能是未來產業發展的基石,需要貫通學研產用全鏈條,推動大模型創新鏈與產業鏈深度融合。通信運營商算網融合,需要為多模態具身智能的通信重塑再造一種新型基礎設施,包括面向機器通信的編碼、消息格式及網元算力等。例如,面向機器的視覺編碼VCM與5G消息以及大模型的融合創新。
“在AIGC時代,全球產業界都在競爭通用人工智能的基礎模型,這是人工智能產業的皇冠,是未來智能社會的底座,并且它的演進速度非常快。”馬修軍表示,以大模型為基座的人工智能通用能力不會曇花一現,多模態通用模型與具身智能將重塑未來社會的產業鏈和產業生態,產生像互聯網一樣的影響力。
據悉,本次論壇由世界人工智能大會組委會辦公室指導,中國新聞社上海分社、上海市楊浦區人民政府聯合主辦,上海中新傳媒文化咨詢有限公司、上海市楊浦區科委承辦,上海市現代服務業聯合會、上海市海外經濟技術促進會、上海市長寧區北新涇街道辦事處、上海新之海數據信息有限公司協辦,中新社國際傳播集團上海分公司、上海市人工智能行業協會支持。(完)
(文章來源:中國新聞網)
標簽: