为了应对元宇宙对于3D创意工具需求的持
续增长,最近人们对三维内容生成(3D AIGC)表现出了极大的兴趣。同时,3D内容创作在质量和速度方面也取得了明显的进步。
尽管当前的前馈式生成模型可以在几秒钟内生成 3D 对象,但它们的分辨率受到训练期间所需密集计算的限制,进而导致生成低质量的内容。这就产生了一个问题,能否只用 5 秒钟来生成高分辨率高质量的 3D 物体?
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
本文中,来自北京大学、南洋理工大学 S-Lab 和上海人工智能实验室的研究者提出了一个新的框架 LGM,即 Large Gaussian Model,实现了从单视角图片或文本输入只需 5 秒钟即可生成高分辨率高质量三维物体。
目前,代码和模型权重均已开源。研究者还提供了一个在线 Demo 供大家试玩。

- 论文标题:LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content Creation
- 项目主页:https://me.kiui.moe/lgm/
- 代码:https://github.com/3DTopia/LGM
- 论文:https://arxiv.org/abs/2402.05054
- 在线 Demo:https://huggingface.co/spaces/ashawkey/LGM
想要达成这样的目标,研究者面临着如下两个挑战:
- 有限计算量下的高效 3D 表征:已有三维生成工作使用基于三平面的 NeRF 作为三维表征和渲染管线,其对场景的密集建模和光线追踪的体积渲染技术极大地限制了其训练分辨率(128×128),使得最终生成的内容纹理模糊、质量差。
- 高分辨率下的三维骨干生成网络:已有三维生成工作使用密集的 transformer 作为主干网络以保证足够密集的参数量来建模通用物体,但这一定程度上牺牲了训练分辨率,导致最终的三维物体质量不高。
为此,本文提出了一个全新的方法来从四个视角图片中合成高分辨率三维表征,进而通过已有的文本到多视角图像或单图到多视角图像的模型来支持高质量的 Text-to-3D 和 Image-to-3D 任务。

在技术上,LGM 核心模块是 Large Multi-View Gaussian Model。受到高斯溅射的启发,该方法使用一个高效轻量的非对称 U-Net 作为骨干网络,直接从四视角图片中预测高分辨率的高斯基元,并最终渲染为任意视角下的图片。
具体而言,骨干网络 U-Net 接受四个视角的图像和对应的普吕克坐标,输出多视角下的固定数量高斯特征。这一组高斯特征被直接融合为最终的高斯基元并通过可微渲染得到各个视角下的图像。
在这一过程中,使用了跨视角的自注意力机制在低分辨率的特征图上实现了不同视角之间的相关性建模,同时保持了较低的计算开销。

值得注意的是,在高分辨率下高效训练这样的模型并非易事。为实现稳健的训练,研究者仍面临以下两个问题。
一是由于训练阶段使用 obj*erse 数据集中渲染出的三维一致的多视角图片,而在推理阶段直接使用已有的模型来从文本或图像中合成多视角图片。而由于基于模型合成的多视角图片总会存在多视角不一致的问题,为了弥补这一域差距,本文提出了基于网格畸变的数据增强策略:在图像空间中对三个视角的图片施加随机畸变来模拟多视角不一致性。
二是由于推理阶段生成的多视角图片并不严格保证相机视角三维几何的一致,因此本文也对三个视角的相机位姿进行随机扰动来模拟这一现象,使得模型在推理阶段更加稳健。
最后,通过可微分渲染将生成的高斯基元渲染为对应图像,通过监督学习直接端到端地在二维图像上来学习。
训练完成后,LGM 通过现有的图像到多视角或者文本到多视角扩散模型,即可实现高质量的 Text-to-3D 和 Image-to-3D 任务。

给定同样的输入文本或图像,该方法能够生成多样的高质量三维模型。

为了更进一步支持下游图形学任务,研究者还提出了一个高效的方法来将生成的高斯表征转换为平滑且带纹理的 Mesh:

更多细节内容请参阅原论文。
以上就是大型多视角高斯模型LGM:5秒产出高质量3D物体,可试玩的详细内容,更多请关注其它相关文章!
# 已有
# 济南 网站建设工作
# 孝感关键词优化公司排名
# 丽江网站优化多少钱
# 关键词seo排名排名
# 淘宝营销推广哪个插件好
# 服装购物网站建设游戏
# 大鹏seo技巧
# 机械公司网络营销推广
# 能源充电桩网站优化方案
# 衡水抖音营销推广招聘信息
# 方法来
# 数据
# 开源
# 斯基
# 新能源
# 提出了
# 这一
# 试玩
# 高斯
# 高质量
# 元宇宙
# ai
相关栏目:
【
企业资讯168 】
【
行业动态50218 】
【
媒体报道120512 】
相关推荐:
单片机log怎么看
如何判断固态硬盘端口
如何创建解压文件命令
安全的ao3镜像网站链接入口
j*a如何执行cmd命令
j*a怎么用json数组
市盈率292是什么意思
夸克加载什么要会员
1kb等于多少字节
有什么基础可以学typescript
typescript掌握哪些可以做项目
市盈率为负值是什么意思
如何判断固态硬盘
春运抢票到哪里抢票啊
element ui的好处
360n7lite怎么设置动态壁纸
mac如何使用vi命令行
台机如何安装固态硬盘
如何打开命令框
自由服务器如何做动态ip域名解析
如何以管理员身份打开cmd命令行窗口
如何用adb命令停用系统软件
单片机.lib文件怎么打开
怎么更新typescript
电信开通nfc功能是什么意思
如何查看固态硬盘分区
win7怎么关闭360壁纸屏保
如何通过命令行启动tomcat
vs怎么编写typescript
宝马x5仪表盘上边有power是什么意思
新找到ao3镜像网站链接入口
夸克文字口令是什么意思
sqlite中datediff函数怎么用 SQLite中DATEDIFF()函数的用法分享
春运订票什么时候抢票
夸克的答案为什么不对
typescript多久能学会
苹果16新增哪些功能
j*a怎么存放数组中
雅迪电动车上的power是什么意思
如何管理员打开cmd命令行窗口
启辰星power标志是什么意思
openwrt有什么用
固态硬盘如何保存
固态硬盘如何4k对其
ai怎么找链接文件位置教程
美食音乐每日推荐怎么写
sql isnull函数如何使用
锤子手机怎么不出5g
什么是unix时间戳
夸克网盘为什么解析错误


