“明明是同一個客廳場景,鏡頭一轉,沙發就從靠窗位置移到了墻邊;生成的廚房視頻里,冰箱突然‘穿透’了櫥柜”—— 這是當前 AIGC 視頻工具的常見問題,行業稱之為 “空間一致性不足”。這一問題不僅影響視頻的真實感,更讓 AI 視頻難以應用于虛擬看房、產品演示等商業化場景。而群核科技在首屆 TechDay 上發布并開源的空間生成模型 SpatialGen,正是用 3D 擴散模型技術,從根源上破解了這一行業痛點。
近日,群核科技在首屆技術開放日(TechDay)上正式發布其空間大模型最新成果:新一代空間語言模型SpatialLM 1.5與空間生成模型SpatialGen。其中,SpatialGen依托群核科技海量室內3D場景數據與多視角擴散模型技術,可生成3D高斯(3DGS)場景和渲染漫游視頻,并確保同一物體在不同鏡頭下始終保持準確的空間屬性和物理關系,支持任意視角切換、路徑漫游,光照、紋理、遮擋關系全程物理一致。
圖說:SpatialGen的多視角一致性演示
要理解 SpatialGen 的突破,首先需要搞清楚 AI 視頻 “穿幫” 的根源:當前多數文生視頻、圖生視頻工具,都是基于 2D 圖像或視頻數據訓練,缺乏對 3D 空間結構的理解。比如,AI 生成室內視頻時,會將每個鏡頭視為獨立的 2D 圖像來處理,無法記住 “沙發在 3D 空間中的真實位置”,導致鏡頭切換時物體 “漂移”;生成物體交互場景時,也無法理解 “冰箱不能穿透櫥柜” 的物理邏輯。
這背后的原因是當下多數視頻生成模型是基于圖像或視頻數據訓練,圖像缺少人類感知空間時所依賴的深度線索,因此僅憑自然語言難以讓 AI 建立精確的空間關系認知,因此會缺乏對 3D 空間結構和物理法則的理解和推演能力。
SpatialGen 依托群核積累的數億 3D 空間數據集和自研渲染引擎,訓練可以生成任意指定視角圖片的擴散模型。其核心在于讓 AI 對空間的認知嚴格符合真實物理規律,從底層解決 2D 感知到 3D 理解的映射偏差。并首次基于多視角擴散+3DGS重建技術,從源頭解決空間一致性問題。
TechDay 現場的對比演示,直觀展現了這種技術的優勢:工作人員分別用其他AI視頻生成模型和 SpatialGen 生成 “客廳漫游視頻”。其他模型生成的視頻,在鏡頭轉換過程中,家具發生了明顯不一致狀況,而 SpatialGen 生成的視頻中,無論鏡頭如何切換 —— 從正面拍沙發,從側面拍餐桌,從俯瞰拍整個客廳 —— 沙發、餐桌的位置與尺寸始終保持一致。
SpatialGen 能實現這種突破,還得益于群核科技海量的 3D 場景數據和空間智能飛輪支撐?;诳峒覙愤@一全球最大的空間設計平臺,群核科技構建了“空間編輯工具-空間合成數據-空間大模型”的空間智能飛輪,讓工具沉淀數據,用數據加速模型訓練,用模型提升工具體驗,再在工具的廣泛應用中沉淀更為豐富的場景數據。正如快手依托短視頻生態推動可靈迭代一樣,群核憑借酷家樂沉淀的海量室內物理數據,正在空間智能領域復現“工具—數據—模型”的技術增強回路。
據透露,群核還在研發一款基于3D技術的AI視頻生成產品,并計劃在今年內正式發布——這或許是全球首款深度融合3D能力的AI視頻生成Agent。通過構建3D渲染與視頻增強一體化的生成管線,有希望彌補當前AIGC視頻生成中時空一致性不足的問題。
(本文來源:大象新聞。本網轉發此文章,旨在為讀者提供更多信息資訊,所涉內容不構成投資、消費建議。對文章事實有疑問,請與有關方核實或與本網聯系。文章觀點非本網觀點,僅供讀者參考。)
“明明是同一個客廳場景,鏡頭一轉,沙發就從靠窗位置移到了墻邊;生成的廚房視頻里,冰箱突然‘穿透’了櫥柜”—— 這是當前 AIGC 視頻工具的常見問題,行業稱之為 “空間一致性不足”。這一問題不僅影響視頻的真實感,更讓 AI 視頻難以應用于虛擬看房、產品演示等商業化場景。而群核科技在首屆 TechDay 上發布并開源的空間生成模型 SpatialGen,正是用 3D 擴散模型技術,從根源上破解了這一行業痛點。
近日,群核科技在首屆技術開放日(TechDay)上正式發布其空間大模型最新成果:新一代空間語言模型SpatialLM 1.5與空間生成模型SpatialGen。其中,SpatialGen依托群核科技海量室內3D場景數據與多視角擴散模型技術,可生成3D高斯(3DGS)場景和渲染漫游視頻,并確保同一物體在不同鏡頭下始終保持準確的空間屬性和物理關系,支持任意視角切換、路徑漫游,光照、紋理、遮擋關系全程物理一致。
圖說:SpatialGen的多視角一致性演示
要理解 SpatialGen 的突破,首先需要搞清楚 AI 視頻 “穿幫” 的根源:當前多數文生視頻、圖生視頻工具,都是基于 2D 圖像或視頻數據訓練,缺乏對 3D 空間結構的理解。比如,AI 生成室內視頻時,會將每個鏡頭視為獨立的 2D 圖像來處理,無法記住 “沙發在 3D 空間中的真實位置”,導致鏡頭切換時物體 “漂移”;生成物體交互場景時,也無法理解 “冰箱不能穿透櫥柜” 的物理邏輯。
這背后的原因是當下多數視頻生成模型是基于圖像或視頻數據訓練,圖像缺少人類感知空間時所依賴的深度線索,因此僅憑自然語言難以讓 AI 建立精確的空間關系認知,因此會缺乏對 3D 空間結構和物理法則的理解和推演能力。
SpatialGen 依托群核積累的數億 3D 空間數據集和自研渲染引擎,訓練可以生成任意指定視角圖片的擴散模型。其核心在于讓 AI 對空間的認知嚴格符合真實物理規律,從底層解決 2D 感知到 3D 理解的映射偏差。并首次基于多視角擴散+3DGS重建技術,從源頭解決空間一致性問題。
TechDay 現場的對比演示,直觀展現了這種技術的優勢:工作人員分別用其他AI視頻生成模型和 SpatialGen 生成 “客廳漫游視頻”。其他模型生成的視頻,在鏡頭轉換過程中,家具發生了明顯不一致狀況,而 SpatialGen 生成的視頻中,無論鏡頭如何切換 —— 從正面拍沙發,從側面拍餐桌,從俯瞰拍整個客廳 —— 沙發、餐桌的位置與尺寸始終保持一致。
SpatialGen 能實現這種突破,還得益于群核科技海量的 3D 場景數據和空間智能飛輪支撐。基于酷家樂這一全球最大的空間設計平臺,群核科技構建了“空間編輯工具-空間合成數據-空間大模型”的空間智能飛輪,讓工具沉淀數據,用數據加速模型訓練,用模型提升工具體驗,再在工具的廣泛應用中沉淀更為豐富的場景數據。正如快手依托短視頻生態推動可靈迭代一樣,群核憑借酷家樂沉淀的海量室內物理數據,正在空間智能領域復現“工具—數據—模型”的技術增強回路。
據透露,群核還在研發一款基于3D技術的AI視頻生成產品,并計劃在今年內正式發布——這或許是全球首款深度融合3D能力的AI視頻生成Agent。通過構建3D渲染與視頻增強一體化的生成管線,有希望彌補當前AIGC視頻生成中時空一致性不足的問題。
(本文來源:大象新聞。本網轉發此文章,旨在為讀者提供更多信息資訊,所涉內容不構成投資、消費建議。對文章事實有疑問,請與有關方核實或與本網聯系。文章觀點非本網觀點,僅供讀者參考。)