OpenAI发布文字生成3D模型Shap.E

智源社区2年前 (2023)发布智源社区

890 0 0

部分内容转自爱可可、TechVerse

Shap·E是一个可以生成3D实体的条件生成模型，可以同时生成NeRF和纹理网格，具有更高的生成效率和更大的灵活性。

作者们提出了一种名为Shap·E的3D生成模型。Shap·E与其他3D生成模型的不同之处在于，它可以同时生成两种类型的3D表示：纹理网格（textured meshes）和神经辐射场（neural radiance fields）。这使得生成的3D模型可以通过多种方式渲染或导入其他3D应用程序。

OpenAI发布文字生成3D模型Shap.E

动机：为了提高3D生成模型的效率和多样性。
方法：通过训练一个Encoder和一个条件扩散模型，将3D资产映射到隐函数的参数上，直接生成可渲染为纹理网格和神经辐射场的参数。
优势：相对于其他3D生成模型，Shap·E具有更高的生成效率和更大的灵活性。

为了实现这一目标，作者们分两个阶段训练Shap·E模型。首先，他们训练一个编码器，将3D资源确定性地映射到隐含函数的参数。其次，他们在编码器的输出上训练一个条件扩散模型。在大量成对的3D和文本数据集上训练后，Shap·E能够在短短几秒钟内生成复杂且多样化的3D资源。

与最近提出的基于点云的显式3D生成模型Point·E相比，Shap·E收敛得更快，并在相同的模型架构、数据集和条件机制下实现了可比较甚至更好的样本质量。有趣的是，Shap·E和Point·E在图像条件下的成功和失败案例相似，这表明不同的输出表示方式可能会导致类似的模型行为。然而，在直接使用文本描述进行条件化时，两者之间还是存在一些质量上的差异。

尽管Shap·E模型在文本条件下的3D生成样本质量仍不如基于优化的方法，但其推理时间比这些方法快得多，从而可能实现更优的性能权衡。

Text to 3d是一种将文本描述转换为三维模型的技术，近年来有很多研究机构和公司在这方面进行了探索和创新：

Magic3D：这是NVIDIA研究院的一个新的text to 3d内容创作工具，它可以创建高质量的三维网格模型，并且支持图像条件生成和基于提示的编辑。它利用了低分辨率和高分辨率的扩散模型，以及一个高效的可微渲染器，来优化神经辐射场（NeRF），从而实现了比DreamFusion更快更清晰的text to 3d合成效果。
Point-E：这是OpenAI发布的一个text to 3d生成器，它可以从文本输入生成点云模型，而不是网格或表面模型。它的优点是生成速度快，计算资源少，只需要一块GPU就可以在几分钟内完成text to 3d转换。它还可以与OpenAI的点云到网格模型结合，从而得到更完整的三维模型。
Imagen：这是Google开发的一个神经网络，它可以从文本描述生成三维模型，并且不需要人工标注数据。它基于一个预训练的图像生成模型，通过自注意力机制和对抗学习，来学习文本和图像之间的对应关系，并且能够处理复杂和抽象的文本输入。

论文地址：https://arxiv.org/pdf/2305.02463.pdf

模型地址：https://github.com/openai/shap-e

OpenAI发布文字生成3D模型Shap.E

作者将Shap·E与其他3D生成技术进行了比较，使用了CLIP R-Precision指标。正如Nichol等人所做的那样，他们在这个表格中包括了采样延迟，以强调基于优化的方法在生成质量上的优越性是以显著的推理成本为代价的。

值得注意的是，Shap·E的推理速度比Point·E更快，因为Shap·E不需要额外的上采样扩散模型。

OpenAI发布文字生成3D模型Shap.E

模型缺陷

首先，虽然基于文本的模型可以理解许多具有简单属性的单个物体，但它在组合概念方面的能力有限。例如，该模型在处理需要计数和属性绑定的提示时可能会遇到困难。这些问题可能是由于有限的成对训练数据所导致的，通过收集或生成更大的带注释的3D数据集可能有助于解决这些问题。

其次，尽管Shap·E通常可以生成可识别的3D资产，但生成的样本通常看起来粗糙或缺乏细节。例如，编码器有时会丢失详细的纹理（如仙人掌上的条纹），这表明改进的编码器可能有助于恢复一些丢失的生成质量。

文字生成3D的研究虽然还不如图片成熟，但是这是一个非常重要的方向因为：

它可以提高三维内容创作的效率和质量：text to 3d可以让用户通过简单的文本描述来生成高质量的三维模型，而不需要复杂的建模软件或专业的设计技能。text to 3d还可以结合图像条件生成和基于提示的编辑，让用户更好地控制三维合成的过程和结果。text to 3d可以为各种领域提供更快速、更便捷、更创新的三维内容创作工具。
它可以拓展三维内容的应用场景和价值：text to 3d可以将文本转换为不同格式的三维模型，如网格、点云、神经辐射场等，适合用于不同的应用场景，如游戏、动画、教育、娱乐等。text to 3d还可以与其他技术结合，如虚拟现实、增强现实、3D打印等，为用户提供更丰富和更沉浸的三维体验。
它可以促进三维内容的共享和交流：text to 3d可以将文本作为一种通用和易于理解的媒介，来表达和传递三维内容。text to 3d可以让用户通过文本来搜索、浏览、评论、修改或生成三维内容，而不需要下载或安装任何软件或数据。text to 3d可以为用户提供更方便和更友好的三维内容共享和交流平台

更多内容请访问：https://mp.weixin.qq.com/s/9jx4Qb1Cgh-VSvF-oWbOjA