證券日報微信

證券日報微博

您所在的位置: 網(wǎng)站首頁 > TMT頻道 > TMT行業(yè) > 正文

群核科技發(fā)布兩款空間開源模型 將堅持開源共建技術(shù)生態(tài)

2025-08-25 18:54  來源:證券日報網(wǎng) 

    本報記者 梁傲男

    8月25日,杭州群核信息技術(shù)有限公司(以下簡稱“群核科技”)在首屆技術(shù)開放日(Tech Day)上發(fā)布其空間大模型最新成果:新一代空間語言模型SpatialLM 1.5與空間生成模型SpatialGen,并在現(xiàn)場分享了新模型后續(xù)的開源節(jié)奏。

    群核科技/供圖

    作為業(yè)界首個專注于3D室內(nèi)場景認知與生成的大模型體系,群核空間大模型在真實感全息漫游、結(jié)構(gòu)化可交互以及復(fù)雜室內(nèi)場景處理方面展現(xiàn)出顯著優(yōu)勢。

    在開源模型之外,群核科技還首次分享了其AI團隊基于SpatialGen探索的AI視頻生成解決方案,旨在通過新范式解決時空一致性難題。

    SpatialLM1.5:一句話生成結(jié)構(gòu)化3D場景

    本次發(fā)布的SpatialLM1.5是一款基于大語言模型訓(xùn)練的空間語言模型,支持用戶通過對話交互系統(tǒng)SpatialLM-Chat進行可交互場景的端到端生成。相比于傳統(tǒng)大語言模型對物理世界幾何與空間關(guān)系的理解局限,SpatialLM1.5不僅能理解文本指令,還能輸出包含空間結(jié)構(gòu)、物體關(guān)系、物理參數(shù)的“空間語言”。

    更關(guān)鍵的是,SpatialLM 1.5生成的場景富含物理正確的結(jié)構(gòu)化信息,且能快速批量輸出大量符合要求的多樣化場景,可用于機器人路徑規(guī)劃、避障訓(xùn)練、任務(wù)執(zhí)行等場景,這將有效解決當前機器人訓(xùn)練“缺數(shù)據(jù)”的難題。

    現(xiàn)場,群核科技首席科學(xué)家周子寒演示了機器人養(yǎng)老場景的應(yīng)用,當輸入“去客廳餐桌拿藥”這一指令后,該模型不僅理解了相關(guān)的物體對象,還調(diào)用工具自動規(guī)劃出最優(yōu)行動路徑,展示了機器人在復(fù)雜環(huán)境中執(zhí)行任務(wù)的潛力。

    SpatialGen:破解AI視頻“時空一致性”難題

    作為一款基于擴散模型架構(gòu)的多視角圖像生成模型,SpatialGen可根據(jù)文字描述、參考圖像和3D空間布局,生成具有時空一致性的多視角圖像,并支持進一步生成3D高斯場景并渲染漫游視頻。

    SpatialGen依托群核科技海量室內(nèi)3D場景數(shù)據(jù)與多視角擴散模型技術(shù),其生成的多視角圖像能確保同一物體在不同鏡頭下始終保持準確的空間屬性和物理關(guān)系。此外,基于SpatialGen生成的3D高斯場景和真實感全息漫游視頻,用戶可以如同在真實空間中一樣,自由穿梭于生成的場景內(nèi),獲得沉浸式的體驗。

    “目前,AIGC文生視頻與圖生視頻工具已經(jīng)初步推動了全民視頻創(chuàng)作的潮流,但由于時空一致性問題的制約,其離真正的商業(yè)化應(yīng)用仍有一定距離。我們正在研發(fā)一款基于3D技術(shù)的AI視頻生成產(chǎn)品,并計劃在今年內(nèi)正式發(fā)布——這或許是全球首款深度融合3D能力的AI視頻生成Agent。通過構(gòu)建3D渲染與視頻增強一體化的生成管線,有望顯著彌補當前AIGC視頻生成中時空一致性不足的問題。”群核科技AI產(chǎn)品總監(jiān)龍?zhí)鞚杀硎尽?/p>

    持續(xù)開源共建技術(shù)生態(tài)

    “擁抱開源能夠發(fā)揮更大價值。我們一直堅信,只要你的技術(shù)有價值,同時賽道蓬勃發(fā)展,在里面一定能夠分到一杯羹。”群核科技聯(lián)合創(chuàng)始人兼董事長黃曉煌表示。

    活動現(xiàn)場,黃曉煌分享了群核科技在空間智能布局上的最新思考。基于酷家樂這一全球最大的空間設(shè)計平臺,群核科技構(gòu)建了“空間編輯工具-空間合成數(shù)據(jù)-空間大模型”的空間智能飛輪,讓工具沉淀數(shù)據(jù),用數(shù)據(jù)加速模型訓(xùn)練,用模型提升工具體驗,再在工具的廣泛應(yīng)用中沉淀更為豐富的場景數(shù)據(jù)。資料顯示,截至6月30日,群核科技擁有包含超過4.41億個3D模型及超過5億個結(jié)構(gòu)化3D空間場景。

    “群核科技從2018年就啟動了開源戰(zhàn)略,逐步開放我們在數(shù)據(jù)和算法上的能力。相比大語言模型,當前空間大模型還處于初級階段。我們希望通過開源推動全球空間智能技術(shù)快速前進,成為全球空間智能服務(wù)提供商,推動屬于空間大模型的‘DeepSeek時刻’盡快來臨。”

    據(jù)悉,本次技術(shù)開放日分享的兩款模型將逐步在HuggingFace、GitHub、魔搭社區(qū)等平臺面向全球開發(fā)者開源。

(編輯 郭之宸)

-證券日報網(wǎng)
  • 24小時排行 一周排行

版權(quán)所有《證券日報》社有限責(zé)任公司

互聯(lián)網(wǎng)新聞信息服務(wù)許可證 10120240020增值電信業(yè)務(wù)經(jīng)營許可證 京B2-20250455

京公網(wǎng)安備 11010602201377號京ICP備19002521號

證券日報網(wǎng)所載文章、數(shù)據(jù)僅供參考,使用前務(wù)請仔細閱讀法律申明,風(fēng)險自負。

證券日報社電話:010-83251700網(wǎng)站電話:010-83251800

網(wǎng)站傳真:010-83251801電子郵件:xmtzx@zqrb.net

官方客戶端

安卓

IOS

官方微信

掃一掃,加關(guān)注

官方微博

掃一掃,加關(guān)注