咨询热线:0898-0663522100

AI 3D生成天花板再拉升!清华团队炼成3D Scaling Law

添加时间:2024-09-22 19:41:02

  《黑神话·悟空》的火爆,带火的不仅是3D游戏本身,还有背后暗潮汹涌的AI 3D生成技术。

  一直以来,外界对3D大模型赛道的关注度都稍逊于语言模型和视频模型。然而,全球3D大模型选手们则都在暗中较量、默默发力,从a16z押注的Yellow,到李飞飞的World Labs,3D大模型的迭代速度是没落下一点。

  就在刚刚,国内3D大模型头部玩家VAST更新了旗下的大模型Tripo,是基于千万级高质量原生自有数据库训出来的那种超强版本。

  至于几何精细度和图片还原度等方面的效果嘛,先小放一段用新工具生成3D模型的视频,大家直观感受一下:

  在官宣新品之余,VAST又带来另一则重磅消息,即公司连续完成了数亿元融资,这也是3D大模型赛道的最大融资金额。

  当然,融资方面的引领,也只是技术实力的展现。因为VAST的技术和应用场景,确实够顶。

  Tripo 2.0先在几秒内生成形状几何预览,再接着几秒内为其“贴上皮肤”,⽣成纹理及PBR。

  在不超过20秒的生成时间里获得精细的纹理和层次;普通水平的人工建模要达到这种细节,耗时可能要上千倍。

  360度旋转,肉眼没有发现bug和瑕疵。要知道,怪物后背密密麻麻的尖刺细节,是人工建模师的噩梦,一般都会规避这种繁复的设计,但是对tripo来说毫无压力。

  透视结构理解过去一直是生成式AI的卡点,以生图模型的手指问题为代表。3D模型空间结构极为重要,我们可以看到Tripo强大的透视结构理解能力,完美生成了复杂结构的模型任务。

  单图生3D模型的算法最考察对图片的空间信息理解和还原度,这次我们横向对比一些市场的其他玩家效果。

  友情提示,下面每张展示图中的最后一个3D模型,都由Tripo 2.0生成。

  对比可以清晰看到,只有它生成的几何形状360度无死角,花朵和枝叶完整度最高:

  丢给模型一个俄罗斯复活节彩蛋图片作为输入,Tripo 2.0的输出效果最有“浮雕感”,对比来看,纹理细节都是最精致的:

  进行多次测试后,不难发现Tripo 2.0在全方位的生成表现上都有显著差异。

  输入不仅支持多模态,当选择文生3D模型模式时,还支持输入负向prompt(就是不让生成模型中带有什么元素)。

  首先,Tripo 2.0基于海量千万级3D⾼质量数据库,采⽤概率性的⽣成式建模⽅法,通过学习捕捉⼤规模数据中的⼏何和材质分布。

  由此,Tripo 2.0更好地保证了输出的质量、增强了模型的鲁棒性和泛化能⼒。

  DiT擅⻓捕捉3D结构中的全局上下⽂和⻓距离依赖关系,而U-Net精于保留精细的细节和局部特征,Tripo 2.0正是融合了这两种架构的优势。

  再者,采⽤最先进的训练算法,Tripo 2.0⼏何和材质⽣成模型均基于最先进的⼤规模流模型,拥有数⼗亿参数。

  种种技术加持下,在3D生成形状、纹理质量、细节表现、输⼊条件的遵循性以及输出多样性⽅⾯,Tripo 2.0拿下新SOTA,成为新晋“五边形”战士:

  之前,Tripo 2.0背后团队还与其他团队合作,推出了一箩筐学术成果,被Siggraph、CVPR、ICLR、ECCV等顶会接收。

  比如Wonder3D,通过一个跨域扩散模型生成一致性的多视图法线贴图和相应的彩色图像,然后利用一种新颖的法线融合算法快速、高质量地重建3D几何体。

  与现有的基于分数蒸馏采样(SDS)的方法相比,Wonder3D在效率、一致性和细节上都有显著提升,能够在2-3分钟内完成重建。

  这项技术利用Transformer网络和一种新颖的Triplane-Gaussian混合表示,使得从单张图片中重建3D模型变得更加高效和精确。

  公司目标是“通过打造⼤众级别的3D内容创作⼯具,建⽴3D的UGC内容平台,让基于3D的空间成为用户体验、内容表达、提升新质⽣产⼒的关键要素。”

  创始人兼CEO宋亚宸,曾在商汤落地过多个从零到一的AI项目,曾参与大模型六小强之一MiniMax的创立;CTO梁鼎,清华本硕博,师从戴琼海院士,曾任商汤通用模型负责人。

  Tripo 1.0参数量数十亿,用上它,从单图/文字生成3D网格模型仅需要8秒。

  因其能够达成“0.5秒完成单图生成3D模型”的成就,在3D生成领域的开源届广受欢迎,至今GitHub上揽星4.3k。

  现在,Tripo 2.0又问世了,已经在线D Scaling Law带来的效果提升,Tripo的这三次更新时间跨度仅仅有9个月。

  拿一则新消息来佐证一下:不久前,世界最大在线游戏开发平台Roblox官宣入局AI 3D生成,但截至目前,Tripo都是Roblox玩家最风靡的3D建模的趁手工具。

  量子位寻回的答案是,至少在技术方面,VAST会持续追寻3D生成式AI的Scaling Law研究模型规模、数据量和生成质量之间关系的基本原理,同时寻找数据、表征和模型架构的可扩展范式。

  既致力于推动3D生成式AI的边界,也会不断探索更整体的(Holistic)3D生成。

  在语言模型和视频模型带给这个世界一点小小震撼过后,人们也希望3D生成赛道能滋养出属于自己的ChatGPT时刻。

  毕竟3D的AI生成与其它AI生成赛道相比,情况比较特殊,不仅AI生成后人工二改技术难度大,如果模型效果表现不好,想要仅凭增加抽卡次数来达到满意度,不如趁早自己画(不是)。

  回顾过去的两年时间,尤其在2023年末到2024年间,3D生成技术得到了快速发展。

  不仅在效果、速度方面均有提升,还实现了“效率高、成本低、创新性强和可定制性强”的特点。

  国内,以VAST为代表,初创公司多来自全球知名高校和科研机构;放眼国外,AI教母李飞飞首次创业成立的空间智能公司World Labs,也着眼于3D生成世界,宣布长期目标是构建大世界模型(LWM)来感知、生成3D世界并与之交互。

  可以说,因为人才与技术、效果与场景的清晰和进步,现在AI 3D生成这个赛道,渐渐走进了更多人的视野之中。

  而3D Scaling Law或将带来的突破性进展,似乎已经预示了人工智能领域下一个焦点的方向。雷竞技APP官方


本文由:雷竞技打印公司提供