您的位置:首页 > 互联网

3d内容生成技术及应用场景探究「3D内容生成技术及应用场景探究」

发布时间:2024-11-14 16:41:16  来源:互联网     背景:

随大语言模型与生成式AI浪潮席卷全球,3D内容生成或将迎来自己的ChatGPT时刻。3D内容生成作为新兴3D资产制作手段,为内容创作模式带来了新的变革,极大促进了3D数字化内容生产的效率提升,引起业界的广泛关注。本文探讨了3D内容生成技术的主流方法及其应用领域,尤其在文生3D和图生3D方面,业界已取得不少有代表性的进展。预计3D内容生成将在游戏、电影、通信等领域有广泛的应用,推动数字内容生态的繁荣发展。

3D内容生成简介

从最初的基于几何建模的手工创作,到如今的海量数据驱动的AIGC 3D生成,3D内容创作的发展经历了以下多个阶段。

手工3D建模阶段:从1960年代起,计算机3D图形学的基础理论逐渐确立,研究人员提出了如多边形网格、样条曲线和NURBS曲面等各种建模技术,并开始利用光栅化和光线追踪算法生成更加逼真的图像。初期3D内容的生成依赖于专业人员使用建模软件进行手动创建,早期的3D建模方法和工具较为原始,3D模型的创建主要依靠艺术家和设计师使用专业软件手工建模,工作流程包括几何建模、纹理贴图、光照设置等,整个过程耗时且成本较高。这一时期的3D内容生成工作量大、耗时长,对建模人员的技术要求较高。

基于扫描与重建阶段:随着计算机硬件和传感器技术的发展,3D扫描与自动化重建技术逐渐兴起,激光扫描和结构光扫描技术能够获取物体和场景的高精度点云数据,并重建其3D模型。这一阶段,3D扫描与重建被广泛用于文物保护、医疗成像、逆向工程等领域,三维模型的生成效率和精度都得到了提升,不过生成的模型通常还需要后期处理,以优化模型效果和细节。

基于AI的智能3D生成阶段:在深度学习等技术驱动下,3D内容生成进入了新的智能化阶段。生成对抗网络(GAN)、变分自编码器(VAE)等模型能够从大量数据中学习并生成新的3D内容,被用于3D模型生成、纹理映射和风格迁移等任务。神经辐射场(NeRF)技术的提出,以及大型语言模型(LLM)和扩散模型(DM)的发展,进一步推动了3D内容生成的能力,现阶段3D内容生成模型具备了从文本、图像中生成对应3D模型的能力:

3d生成器怎么使用

1)文生3D(Text-to-3D)是指通过输入文字描述来生成对应的3D模型。使用自然语言作为与用户交互的方式已经愈发成熟,这种生成方式具有高度的灵活性和创造性,用户可以通过简单的文字描述表达自己的创意和需求,然后由生成式模型生成相应的3D模型。文生3D中,生成质量、多样性和效率是目前业界关注的关键问题。

2)图生3D(Image-to-3D)是指通过输入二维图像来生成三维模型。这种方法通常利用了深度学习等技术,通过对大量二维图像数据的学习,能够从一张二维图像中推断出物体的三维形状和结构。例如一些应用允许将用户上传的照片转换为3D模型,为用户提供更加生动的视觉体验。此外还可以通过布局或线稿引导来生成相应的3D模型。例如,在建筑设计中,设计师可以通过提供建筑的平面图和剖面图,由3D生成式系统生成建筑的3D模型。3D模型细节还原性、形状和结构推断准确性等是目前业界普遍关注的关键问题。

3D内容生成分类

按生成内容类别的不同,3D内容生成可以进一步细化为物体生成、场景生成、人体生成、人脸生成。

物体生成:物体生成主要聚焦从文本或图像中生成特定类别的3D物体模型,通常也是三维环境及场景生成的基础。Text2Shape(2018)是首个尝试利用自然语言描述生成3D状的工作,基于Conditional Wasserstein GAN。Nvdia的GET3D(2022)提出了一种可以生成高质量纹理3D形状的生成模型,能够生成显式纹理3D网格。

太阳网批发

3d生成器怎么使用

场景生成:场景生成的难度比单个物体更大,因为它需要考虑物体之间的空间关系,可以创建丰富多样的场景,为游戏、建筑设计、工业设计等行业提供强大的支持。DreamScene(2024)基于显式表征3D高斯泼溅(3DGS),通过文本生成高质量、视角一致且可编辑的3D场景。斯坦福与MIT近期推出WonderWorld(2024),实现了从单一图像出发在用户实时交互下生成无限延展的3D场景,将交互式3D世界生成推向实时门槛。

人体生成:人体生成技术关注于生成逼真的数字人模型,精确创建逼真的人体模型在游戏、影视制作等领域具有广泛应用。较早的SMPL(2015)提出了一种可变形的人体模型,这种用于3D人体建模和姿态估计的参数化模型能够精确地表示不同的人体形状和姿态,几乎成为实质性的3D数字人驱动标准。近期工作MagicMan(2024)是一种从单一参考图像生成高质量多视角人像的方法,它提出了一种高效的混合多视角注意力机制,以生成更密集的多视角人像,同时保持更好的3D一致性。

人脸生成:人脸生成技术能够从文本或图像中生成各种不同风格的人脸模型,可应用于虚拟现实、社交娱乐等领域,用户可以通过3D生成模型创造自己独特的虚拟人脸,具有高度的个性化和可定制性。例如,ChatAvatar(2023)支持生成3D人脸,其运用了对抗网络和扩散模型,用户可提供详细描述或者上传一张图片,ChatAvatar会生成一系列3D头像候选项,支持导入到主流的3D软件中进行进一步编辑优化。

3D内容生成方法

近年来3D内容生成技术不断推陈出新,不同方法侧重点不同,各有优势,将3D内容生成方法归纳为以下三类:

3D原生生成方法:3D原生生成方法是利用深度学习模型学习3D数据集,并直接生成物体或场景的三维模型。早期以3D原生生成方法为主,这种方法的优势在于可以生成较高质量的3D内容,且畸形、残缺控制较好,具备3D内容直接商用的潜力。但该方法通常需要大量的3D训练数据集。典型的3D原生生成方法中,DreamTech提出了3D-DiT(2024),该方法使用3D变分自编码器将3D形状编码到潜在空间,然后通过扩散变换模型从这个潜在空间生成3D形状,此外还提供了将参考图像高分辨率信息和语义信息整合到3D生成过程的方法,使模型可以生成与给定参考图一致的 3D 形状。今年8月DreamTech又推出了Direct3D-5B版本,进一步提升生成结果质量精度。此外,OpenAI近年来先后发布Point-E(2022)、Shap-E(2023),前者支持使用文本生成3D点云,即在空间中代表3D形状的离散数据点集,后者则利用神经辐射场(NeRF)等隐式神经表征,支持文本生成多样的3D物体资产,且收敛更快、支持纹理网格渲染。

基于2D先验的3D生成方法:3D原生生成方法的弊端在于训练时依赖大量3D数据集,例如ShapeNet。不过由于2D图像的丰富程度远远大于3D资产,从2D图像中学习并升维为3D数据,又称基于2D先验的3D生成方法,近些年来快速进步。这种方式最大的优势在于无需进行专门的3D数据训练,3D数据的获取和标注通常比2D数据更为昂贵和耗时。典型工作如Google的DreamFusion(2022),其利用改进的得分蒸馏采样(SDS)方法,将强大的2D扩散模型的知识扩展至3D领域,并采用NeRF进行3D表征,从而提高文生3D的生成质量,无需专门的3D训练数据、无需修改2D扩散模型。随3DGS这一显式三维表征方法的提出,DreamGaussian(2023)将3DGS整合到生成式3D内容创建流程,显著提高基于2D先验生成方法的效率,与DreamFusion中基于mip-NeRF 360--一种改进NeRF方法相比,实现了约10倍的加速,DreamGaussian能够5分钟左右完成文生3D任务,相比之下DreamFusion需要大约1小时。

基于多视图预测的3D生成方法:基于多视图预测的3D生成方法试图结合3D原生生成方法和基于2D先验的3D生成方法的优点,先利用扩散模型根据文本或图像生成目标对象的多角度视图,进一步基于多视图进行3D重建和生成,并采取优化策略保证多视图在几何上的一致性,确保3D内容生成质量。典型的工作如Zero-1-to-3(2023),该方法利用大规模扩散模型对自然图像学习的几何先验知识,可以在指定的角度下生成同一物体的新视图,但该方法生成的视图缺乏3D一致性。UCSD的One-2-3-45(2023)在Zero-1-to-3的基础上进行了改进,在基于SDF的广义神经表面重建方法及优化训练策略的帮助下,确保生成合理一致的3D内容,并采用前馈传递的方式一次性通过神经网络生成3D网格,实现45秒内从单一图像到高质量3D网格的生成。One-2-3-45++(2023)中则进一步优化了2D多视图生成过程,通过微调2D扩散模型来生成包含六个角度的多视图的组合图像,从而增强生成3D内容的鲁棒性和质量。

3D内容生成的应用

3D生成的使用场景广泛,在游戏、电影、通信等领域发挥着重要作用。

在游戏领域,3D内容生成技术在游戏行业的应用非常广泛,它能够自动化地生成游戏环境、角色和物品,为游戏开发者提供更加高效、便捷的游戏内容创作方式,从而大大提高游戏开发的效率,并降低人力成本。除此之外,在游戏的游玩阶段也可以引入3D生成技术,为玩家带来个性化模型创造体验。例如腾讯XR实验室近期发布的交互式3D游戏场景创作方法,利用预训练的2D去噪扩散模型生成场景的2D图像作为概念指导,从用户的手绘草图等随意提示中自动生成可交互和可玩的3D游戏场景,生成的3D场景也可以无缝地集成到游戏开发环境中。

在电影领域,三维数字内容创作是电影视效中的重要一环,三维技术可以拓展电影呈现的场景空间,在数字电影制作流程中,尤其在需要三维技术辅助的电影中,需要利用多种CG模型、角色来实现最终的成片效果,其中三维数字内容包含了模型资产、材质资产、动画资产等。传统的三维内容创作流程包括设计、建模、展UV、贴图绘制等多个步骤,通常费时费力。根据文本等描述快速生成三维模型,能够减少繁琐的重复性工作,使创作者能够将更多精力投入到电影创意和细节的打磨上,同时还减少了因设计迭代而产生的额外成本,有望成为电影制作中不可或缺的一部分。

在通信领域,借助3D内容生成,用户可以在逼真的三维虚拟空间中进行互动,以体验沉浸式通信效果。沉浸式通信场景下需要结合3D人体、3D人脸以及3D场景等生成技术。实时3D人体和3D人脸重建,可以创建通信双方的虚拟代理人,辅助进行数字形态之间的互动和交流,基于摄像头等设备捕捉用户的姿态和面部表情,从而在点对点通信和多人远程会议等场景,提供更好的沉浸感和情感传递效果。3D场景和物体生成技术则为通信双方提供更加丰富生动的环境沉浸感,例如可以实时重建各类型3D数字场景,以契合当前主题,使通信参与方能够更加直观地完成沟通。

总结与展望

3d内容生成技术及应用场景探究论文

尽管AIGC 3D取得了显著的进展,但仍面临诸多技术挑战。3D生成模型的主要瓶颈是缺乏大量高质量的3D数据集,目前常用的3D数据集如ShapeNet(约22万个已分类的3D模型)或Objaverse(基础版本约80万个3D模型、XL版本约100万个3D模型)包含的模型数量和细节质量都有待提升,尤其是比起2D领域的大数据集,例如LAION-5B(约50亿张图像),3D数据量仍远不够来训练优质的3D大模型。确保生成的3D内容的质量也是当下面临的挑战之一,生成的3D内容可能存在瑕疵、不完整或不符合预期的情况。例如3D人体模型中可能会出现比例不协调问题,或者出现常见的Janus问题,即在3D头像生成中由于视角不一致而导致的不确定性,产生一个物体的正面视图特征(如面部或头部)错误地出现在其他视图中。

未来,3D内容生成将更加注重结合文本、图像、视频等多模态信息,以提高3D内容生成的准确性和丰富性。此外,现有模型往往在特定数据集表现良好,在面对不同领域和风格的任务时,需要进一步提升其泛化能力。最后,随计算资源的提升和算法的突破,预计将实现更快的3D生成速度,在低延迟甚至实时条件下生成复杂的动态场景和细节丰富的三维内容,以符合多变的3D场景下的业务需求。

3D内容是数字世界不可或缺的生产要素,3D内容生成技术作为一种创新技术手段,具有广阔的发展前景和巨大的应用潜力。由于真实的世界处于三维空间,3D内容生成技术的发展也有望推动真实世界模拟器的建立,其作为训练通用人工智能的重要工具,有望助力未来通用人工智能的实现。预计3D内容生成将为各个行业带来更加丰富、高效、个性化的3D内容创作体验,推动数字内容生态的繁荣发展。

【参考文献】

[1]Liu J, Huang X, Huang T, et al. A comprehensive survey on 3D content generation[J]. arXiv preprint arXiv:2402.01166, 2024.

[2]Wu S, Lin Y, Zhang F, et al. Direct3D: Scalable Image-to-3D Generation via 3D Latent Diffusion Transformer[J]. arXiv preprint arXiv:2405.14832, 2024.

[3]Poole B, Jain A, Barron J T, et al. Dreamfusion: Text-to-3d using 2d diffusion[J]. arXiv preprint arXiv:2209.14988, 2022.

[4]Tang J, Ren J, Zhou H, et al. Dreamgaussian: Generative gaussian splatting for efficient 3d content creation[J]. arXiv preprint arXiv:2309.16653, 2023.

[5]Liu M, Xu C, Jin H, et al. One-2-3-45: Any single image to 3d mesh in 45 seconds without per-shape optimization[J]. Advances in Neural Information Processing Systems, 2024, 36.

[6]Liu M, Shi R, Chen L, et al. One-2-3-45++: Fast single image to 3d objects with consistent multi-view generation and 3d diffusion[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 10072-10083.


返回网站首页

本文评论
@所有人,下一次工作应聘,AI 是「面试官」
声明:本文来自微信公众号“CSDN程序人生”(ID:coder_life),整理:朱珂欣,授权转载发布。编写代码、撰写电子邮件、作诗、参加 MBA 考试…… 当无所不能的 AI 渗透到日常生活中后,让...
日期:06-21
华为第一-撑起半壁江山 中国折叠屏手机最新份额排名_华为折叠屏哪家公司做的
7月29日消息,日前,调研机构IDC发布2024年第二季度中国折叠屏手机市场份额,该季度出货量共257万台。谷歌收购摩托罗拉案例分析数据显示,第二季度,华为以41.7%的市场份额稳居第一,几...
日期:07-29
私域里“人货场”的构建模型「人货场模型案例」
声明:本文来自于微信公众号见实(ID:jianshishijie),作者:见实,授权转载发布。商业逻辑里的“人-货-场”其实也同样可以贯穿到私域里。把产品当成“货”,把私域用户当成“人”,“场...
日期:04-23
爱立信以四大主题亮相2024中国国际信息通信展
通信世界网消息(CWW)日前,爱立信亮相2024中国国际信息通信展(简称PT展),以“新质5G”“可编程网络”“无限应用”“无尽未来”四大主题向与会来宾展示了在构建高性能、差异化可编...
日期:09-25
杭州一男子坐地铁自带沙发 怎么过的安检?地铁回应_地铁让带椅子吗
近日,一段杭州男子坐地铁自带沙发的视频在网上热转,视频中既有在地铁上坐沙发的画面,也有其坐沙发等地铁,抗沙发上自动扶梯的画面。这一幕让众多网友表示迷惑:沙发怎么过安检的?”...
日期:04-06
地下城与勇士手游官网2021「《地下城与勇士》手游上线:十年经典还在」
腾讯旗下热门游戏《地下城与勇士》的手游版近日正式上线,该游戏自发布以来备受玩家期待。虽然玩家们等待了很长时间,但热情依旧高涨,开服当天游戏服务器就被挤爆。官方随后发布...
日期:05-30
以“现实”题材为矛,百度悄悄把短剧的盘子做大了「现实百度百科」
声明:本文来自于微信公众号 TopKlout克劳锐(ID:TopKlout),作者:TopKlout克劳锐,授权转载发布。从最初的野蛮生长到如今的百花齐放,短剧市场已然进入了质量与创意的竞争。据《中国...
日期:09-11
中国电力工程顾问集团西南电力设计院与360亿方云达成合作_中国电力集团西南设计院是央企吗
  日前,中国电力工程顾问集团西南电力设计院有限公司(以下简称“西南院”)正式引入 360 亿方云企业云盘,实现办公文件统一存储管理、共享协作,设计图纸在线预览,文件精细化安全...
日期:08-01
下月或停产的10款苹果产品:包括iPhone15Pro等 为新品让路_多地宣布停产iphone
8月26日 消息:据媒体报道,随着新一代iPhone的发布,苹果将按照惯例对部分产品线进行调整。下个月,预计将有10款产品面临停产,包括iPhone15Pro系列、iPhone14Plus、iPhone13,以及几...
日期:08-26
京东发布“品质家电新品金榜” 为消费者提供权威购物参考_京东家电排行榜入口
随着消费者对家电产品的选择越来越注重品质与创新,为满足用户需求,京东金榜携手京东家电家居推出“品质家电新品金榜”,旨在为广大消费者提供一个专业的家电新品选购参考。消费...
日期:05-24
大型科技股推动美股第一季度强劲上涨 纳斯达克100指数跑赢大盘
北京时间4月3日早间消息,据报道,2023年第一季度,大型科技股推动美国股市强劲上涨,多家知名科技公司股价出现了近年来最大的季度涨幅。今年到目前为止,美国大型科技公司受益于多方...
日期:10-04
Facebook母公司用算法"随机"解雇60名劳务派遣人员_Facebook算法
8月20日消息,Facebook母公司Meta最近使用算法“随机”解雇了60名来自埃森哲的劳务派遣人员。此前Meta与埃森哲签订了近5亿美元的合同,由隶属于后者的劳务派遣人员到Meta位于奥...
日期:08-23
男孩开学发现班主任竟是自己姑姑:瞬间呆滞 不知如何是好_发现了他的班主任
在江西,一位小男孩开学第一天的惊喜发现在网络上引发了广泛关注和讨论。这位小男孩在踏入教室的那一刻,意外地发现新学期的班主任竟然是他的姑姑。这一意外的家庭关系让小男孩...
日期:09-05
中东携手迈入5G-A元年_中东五国是哪五国
通信世界网消息(CWW)来自知名电信企业、技术提供商和监管机构的代表进行了一场行业专家座谈,共同探讨了5G-Advanced(5G-A)技术给各个领域带来变革的潜力,以及哪些开创性举措为5G-A...
日期:12-14
创新赋能未来,华为助力揭阳市政务外网升级
通信世界网消息(CWW)随着数字中国战略逐步推进,作为数字中国的基础性和先导性工程,数字政府建设步伐也在不断加快。建设“数字政府”是贯彻落实网络强国、数字中国、智慧社会战...
日期:08-04
“紫光系”66亿元竞得北京地块,建设紫光全球智能科创总部_北京紫光置地投资有限公司
  紫光股份昨日晚间公告称,公司第七届董事会第三十二次会议和2019年第三次临时股东大会审议通过了《关于公司拟与关联人联合投标土地并设立项目公司的议案》,同意公司使用...
日期:05-08
NHN Japan与旗下两家分公司合并_nhn公司股东
  北京时间11月8日上午消息,据日本科技博客网站Asiajin报道,NHN Japan及旗下两家分公司Naver Japan和Livedoor周一宣布,三家公司将从2012年1月1日起合并为一家新公司。   ...
日期:07-24
佳能中国宣布全线涨价!EOS R3飚到38999元「佳能eos r5降价」
近日,佳能(中国)有限公司向经销商发布《佳能产品价格调整通知书》,宣布从2月1日起,将有部分产品进行价格调整。从《通知书》来看,此次涨价的主要原因是受到近来全球局势的影响,导致...
日期:02-03
NVIDIA即将发布Q1财报:RTX 4070拖后腿 4799不会降价
快科技5月24日消息,最近几个月来,由于ChatGPT大火带动AI版块大涨,NVIDIA股价年初到现在几乎翻倍,成为AI市场最大赢家之一,但该公司即将在周三盘后发布Q1季度财报,数据不容乐观。戴...
日期:05-24
搜狐财报2021「搜狐2022年Q3营收1.85亿美元」
2022年11月14日,搜狐公司公布2022年第三季度财务报告。财报显示,搜狐第三季度总收入为1.85亿美元,归于搜狐的非美国通用会计准则净亏损为1700万美元,低于亏损预期。此前搜狐预估...
日期:11-16