今天,我们发布了稳定版 Zero123,这是我们内部训练的模型,用于生成视图条件图像。与之前最先进的 Zero123-XL 相比,稳定的 Zero123 产生了显着改善的结果。这是通过 3 项关键创新实现的:
1、改进的训练数据集,从 Objaverse 中大量过滤,只保留高质量的 3D 对象,我们渲染的对象比以前的方法更加真实。
2、在训练和推理过程中,我们为模型提供了估计的摄像机角度。这种海拔调节使其能够做出更明智、更高质量的预测。
3、预先计算的数据集(预先计算的潜在变量)和改进的数据加载器支持更高的批量大小,与第一个创新相结合,与 Zero123-XL 相比,训练效率提高了 40 倍。
Zero123特征:
稳定的 Zero123 可以生成物体的新颖视图,展示从各个角度对物体外观的 3D 理解,由于训练数据集和高程条件的改进,其质量比 Zero1-to-3 或 Zero123-XL 显着提高。
该模型基于稳定扩散 1.5,消耗与 SD1.5 相同数量的 VRAM 来生成 1 个新视图。使用 Stable Zero123 生成 3D 对象需要更多时间和内存(建议使用 24GB VRAM)。
为了实现 3D 对象生成方面的开放研究,我们改进了 Threestudio 开源代码的开源代码,以支持 Zero123 和 Stable Zero123。 Stable 3D 流程的简化版本目前处于私人预览阶段。从技术角度来说,这使用分数蒸馏采样 (SDS) 来使用稳定的 Zero123 模型来优化 NeRF,稍后我们可以从中创建纹理 3D 网格。该过程可以适用于文本到 3D 生成,首先使用 SDXL 生成单个图像,然后使用 Stable Zero123 生成 3D 对象。
Zero123项目:https://github.com/cvlab-columbia/zero123
Zero123试用:https://huggingface.co/spaces/cvlab/zero123-live
Zero123论文:https://arxiv.org/abs/2303.11328
该模型现已发布在 Hugging Face 上,研究人员和非商业用户可以下载并进行实验。
相关导航
IP-Adapter-FaceID模型利用面部识别模型的面部ID嵌入,可以更准确地捕捉和再现特定人物的面部特征。结合文本描述生成可以生成高度个性化且与原始面部特征一致的图像。意思就是你只要上传几张自己的照片,就能生成你在各种场景下的照片,克隆你的脸。The IP-Adapter-FaceID model, Extended IP Adapter, Generate various style images conditioned on a face with only text prompts. Face consistency and realism