Zero123：单张图片生成高质量3D | AI启航工具箱（OPEN AICHINES）

今天，我们发布了稳定版 Zero123，这是我们内部训练的模型，用于生成视图条件图像。与之前最先进的 Zero123-XL 相比，稳定的 Zero123 产生了显着改善的结果。这是通过 3 项关键创新实现的：

1、改进的训练数据集，从 Objaverse 中大量过滤，只保留高质量的 3D 对象，我们渲染的对象比以前的方法更加真实。

2、在训练和推理过程中，我们为模型提供了估计的摄像机角度。这种海拔调节使其能够做出更明智、更高质量的预测。

3、预先计算的数据集（预先计算的潜在变量）和改进的数据加载器支持更高的批量大小，与第一个创新相结合，与 Zero123-XL 相比，训练效率提高了 40 倍。

Zero123：单张图片生成高质量3D

Zero123特征：

稳定的 Zero123 可以生成物体的新颖视图，展示从各个角度对物体外观的 3D 理解，由于训练数据集和高程条件的改进，其质量比 Zero1-to-3 或 Zero123-XL 显着提高。

该模型基于稳定扩散 1.5，消耗与 SD1.5 相同数量的 VRAM 来生成 1 个新视图。使用 Stable Zero123 生成 3D 对象需要更多时间和内存（建议使用 24GB VRAM）。

为了实现 3D 对象生成方面的开放研究，我们改进了 Threestudio 开源代码的开源代码，以支持 Zero123 和 Stable Zero123。 Stable 3D 流程的简化版本目前处于私人预览阶段。从技术角度来说，这使用分数蒸馏采样 (SDS) 来使用稳定的 Zero123 模型来优化 NeRF，稍后我们可以从中创建纹理 3D 网格。该过程可以适用于文本到 3D 生成，首先使用 SDXL 生成单个图像，然后使用 Stable Zero123 生成 3D 对象。

Zero123项目：https://github.com/cvlab-columbia/zero123

Zero123试用：https://huggingface.co/spaces/cvlab/zero123-live

Zero123论文：https://arxiv.org/abs/2303.11328

该模型现已发布在 Hugging Face 上，研究人员和非商业用户可以下载并进行实验。

相关导航

AnimateDiff

AnimateDiff 是一个能够将个性化的文本转换为图像的扩展模型，一款可以在stable diffusion中制作稳定gif动图的插件，它可以在无需特定调整的情况下实现动画效果。

Audio2Photoreal：音频生成逼真的虚拟人物

Meta ai最近发布了一项炸裂的技术：Audio2PhotoReal，从音频生成全身逼真的虚拟人物形象。它可以从多人对话中语音中生成与对话相对应的逼真面部表情、完整身体和手势动作。GitHub is where over 100 million developers shape the future of software, together. Contribute to the open source community, manage your Git repositories, review code like a pro, track bugs and features, power your CI/CD and DevOps workflows, and secure code before you commit it.

MoneyPrinter：自动创建短视频

MoneyPrinter，一个自动创建YouTube短视频的自动化赚钱项目，只要输入视频文本MoneyPrinter即可自动产生与之相关的短视频。

Zero123：单张图片生成高质量3D

Zero-1-to-3: Zero-shot One Image to 3D ObjectZero123，这是我们内部训练的模型，用于生成视图条件图像。

IP-Adapter-FaceID：AI换脸工具

IP-Adapter-FaceID模型利用面部识别模型的面部ID嵌入，可以更准确地捕捉和再现特定人物的面部特征。结合文本描述生成可以生成高度个性化且与原始面部特征一致的图像。意思就是你只要上传几张自己的照片，就能生成你在各种场景下的照片，克隆你的脸。The IP-Adapter-FaceID model, Extended IP Adapter, Generate various style images conditioned on a face with only text prompts. Face consistency and realism

YOLO-World：实时开放词汇对象检测

YOLO-World，腾讯ai实验室开发的一个实时目标检测工具，它能够自动识别和定位图像中的各种对象。YOLO-World在速度和准确性方面都优于许多最先进的方法。