快速导航×

大型多视角高斯模型LGM:5秒产出高质量3D物体,可试玩2024-02-20 15:10:19

为了应对元宇宙对于3D创意工具需求的持续增长,最近人们对三维内容生成(3D AIGC)表现出了极大的兴趣。同时,3D内容创作在质量和速度方面也取得了明显的进步。

尽管当前的前馈式生成模型可以在几秒钟内生成 3D 对象,但它们的分辨率受到训练期间所需密集计算的限制,进而导致生成低质量的内容。这就产生了一个问题,能否只用 5 秒钟来生成高分辨率高质量的 3D 物体?

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

大型多视角高斯模型LGM:5秒产出高质量3D物体,可试玩

本文中,来自北京大学、南洋理工大学 S-Lab 和上海人工智能实验室的研究者提出了一个新的框架 LGM,即 Large Gaussian Model,实现了从单视角图片或文本输入只需 5 秒钟即可生成高分辨率高质量三维物体。

目前,代码和模型权重均已开源。研究者还提供了一个在线 Demo 供大家试玩。

大型多视角高斯模型LGM:5秒产出高质量3D物体,可试玩

  • 论文标题:LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content Creation
  • 项目主页:https://me.kiui.moe/lgm/ 
  • 代码:https://github.com/3DTopia/LGM
  • 论文:https://arxiv.org/abs/2402.05054
  • 在线 Demo:https://huggingface.co/spaces/ashawkey/LGM

想要达成这样的目标,研究者面临着如下两个挑战:

  1. 有限计算量下的高效 3D 表征:已有三维生成工作使用基于三平面的 NeRF 作为三维表征和渲染管线,其对场景的密集建模和光线追踪的体积渲染技术极大地限制了其训练分辨率(128×128),使得最终生成的内容纹理模糊、质量差。
  2. 高分辨率下的三维骨干生成网络:已有三维生成工作使用密集的 transformer 作为主干网络以保证足够密集的参数量来建模通用物体,但这一定程度上牺牲了训练分辨率,导致最终的三维物体质量不高。

为此,本文提出了一个全新的方法来从四个视角图片中合成高分辨率三维表征,进而通过已有的文本到多视角图像或单图到多视角图像的模型来支持高质量的 Text-to-3D 和 Image-to-3D 任务

大型多视角高斯模型LGM:5秒产出高质量3D物体,可试玩

在技术上,LGM 核心模块是 Large Multi-View Gaussian Model。受到高斯溅射的启发,该方法使用一个高效轻量的非对称 U-Net 作为骨干网络,直接从四视角图片中预测高分辨率的高斯基元,并最终渲染为任意视角下的图片。

具体而言,骨干网络 U-Net 接受四个视角的图像和对应的普吕克坐标,输出多视角下的固定数量高斯特征。这一组高斯特征被直接融合为最终的高斯基元并通过可微渲染得到各个视角下的图像。

在这一过程中,使用了跨视角的自注意力机制在低分辨率的特征图上实现了不同视角之间的相关性建模,同时保持了较低的计算开销。

大型多视角高斯模型LGM:5秒产出高质量3D物体,可试玩

值得注意的是,在高分辨率下高效训练这样的模型并非易事。为实现稳健的训练,研究者仍面临以下两个问题。

一是由于训练阶段使用 obj*erse 数据集中渲染出的三维一致的多视角图片,而在推理阶段直接使用已有的模型来从文本或图像中合成多视角图片。而由于基于模型合成的多视角图片总会存在多视角不一致的问题,为了弥补这一域差距,本文提出了基于网格畸变的数据增强策略:在图像空间中对三个视角的图片施加随机畸变来模拟多视角不一致性

二是由于推理阶段生成的多视角图片并不严格保证相机视角三维几何的一致,因此本文也对三个视角的相机位姿进行随机扰动来模拟这一现象,使得模型在推理阶段更加稳健

最后,通过可微分渲染将生成的高斯基元渲染为对应图像,通过监督学习直接端到端地在二维图像上来学习。

训练完成后,LGM 通过现有的图像到多视角或者文本到多视角扩散模型,即可实现高质量的 Text-to-3D 和 Image-to-3D 任务。

大型多视角高斯模型LGM:5秒产出高质量3D物体,可试玩

给定同样的输入文本或图像,该方法能够生成多样的高质量三维模型。

大型多视角高斯模型LGM:5秒产出高质量3D物体,可试玩

为了更进一步支持下游图形学任务,研究者还提出了一个高效的方法来将生成的高斯表征转换为平滑且带纹理的 Mesh:

大型多视角高斯模型LGM:5秒产出高质量3D物体,可试玩

更多细节内容请参阅原论文。

以上就是大型多视角高斯模型LGM:5秒产出高质量3D物体,可试玩的详细内容,更多请关注其它相关文章!


# 已有  # 济南 网站建设工作  # 孝感关键词优化公司排名  # 丽江网站优化多少钱  # 关键词seo排名排名  # 淘宝营销推广哪个插件好  # 服装购物网站建设游戏  # 大鹏seo技巧  # 机械公司网络营销推广  # 能源充电桩网站优化方案  # 衡水抖音营销推广招聘信息  # 方法来  # 数据  # 开源  # 斯基  # 新能源  # 提出了  # 这一  # 试玩  # 高斯  # 高质量  # 元宇宙  # ai 


相关栏目: 【 企业资讯168 】 【 行业动态50218 】 【 媒体报道120512


相关推荐: 单片机log怎么看  如何判断固态硬盘端口  如何创建解压文件命令  安全的ao3镜像网站链接入口  j*a如何执行cmd命令  j*a怎么用json数组  市盈率292是什么意思  夸克加载什么要会员  1kb等于多少字节  有什么基础可以学typescript  typescript掌握哪些可以做项目  市盈率为负值是什么意思  如何判断固态硬盘  春运抢票到哪里抢票啊  element ui的好处  360n7lite怎么设置动态壁纸  mac如何使用vi命令行  台机如何安装固态硬盘  如何打开命令框  自由服务器如何做动态ip域名解析  如何以管理员身份打开cmd命令行窗口  如何用adb命令停用系统软件  单片机.lib文件怎么打开  怎么更新typescript  电信开通nfc功能是什么意思  如何查看固态硬盘分区  win7怎么关闭360壁纸屏保  如何通过命令行启动tomcat  vs怎么编写typescript  宝马x5仪表盘上边有power是什么意思  新找到ao3镜像网站链接入口  夸克文字口令是什么意思  sqlite中datediff函数怎么用 SQLite中DATEDIFF()函数的用法分享  春运订票什么时候抢票  夸克的答案为什么不对  typescript多久能学会  苹果16新增哪些功能  j*a怎么存放数组中  雅迪电动车上的power是什么意思  如何管理员打开cmd命令行窗口  启辰星power标志是什么意思  openwrt有什么用  固态硬盘如何保存  固态硬盘如何4k对其  ai怎么找链接文件位置教程  美食音乐每日推荐怎么写  sql isnull函数如何使用  锤子手机怎么不出5g  什么是unix时间戳  夸克网盘为什么解析错误