PhotoMaker,利用多张照片作为身份ID,获取人物特征,然后根据描述生成符合描述的人物照片创造出一个新的、个性化的人物图像。
ChatGPT-Plus:开源AI源码。ChatGPT-PLUS 基于 ai 大语言模型 API 实现的 AI 助手全套开源解决方案,自带运营管理后台,开箱即用。集成了 ChatGPT, Azure, ChatGLM,讯飞星火,文心一言等多个平台的大语言模型。支持 MJ AI 绘画,Stable Diffusion AI 绘画,微博热搜等插件工具。采用 Go + Vue3 + element-plus 实现。
Chatbot UI,一个开源的聊天机器人Web UI框架,提供 Openai 的 ChatGPT UI 的改进版本。该工具提供了一个简单的用户界面,具有新对话、新聊天、导入数据、导出数据、设置和插件键等功能。
Jan.ai,桌面客户端是 ChatGPT 的替代品,可在您自己的计算机上运行,并带有本地 API 服务器。
Personalized Restoration:面部图像精准恢复和个性编辑技术
aiweb QAnything AI:一个开源的本地知识库问答系统
We’re on a journey to advance and democratize artificial intelligence through open source and open science.Magi:自动将漫画转录成文字并自动生成剧本
Extract 3D Geometry and PBR maps from video for integration with any 3D software. New era of storytelling with precise lighting and parallax, all in post-production.Beeble A!是一个尖端的虚拟制片平台,利用人工智能的力量使用户能够实现逼真的图像合成。
Open WebUI,为大模型提供用户友好界面,支持 Ollama 并兼容 Openai API。特色有直观聊天界面、响应式设计。支持代码高亮、Markdown、LaTeX、RAG 集成、网页浏览、预设提示、RLHF 注释、模型管理、多模型和多模态、历史记录管理、语音输入、高级参数调整等。
Sora AI Video Generator, Make AI Video with Sora, Unleash your creativity.Sora.FM 是用于生成 Sora ai 视频的开源 Web 模板,使用 nextjs 创建。生成视频的接口暂时 Mock,等 Sora API 发布后可快速替换上线。 支持数据读写,可以把全网收集到的Sora视频更新到DB,先做一个 Sora Showcase 网站跑流量。
SoraWebui 是一个开源 Web 平台,使用户能够使用 Openai 的 Sora 模型从文本生成视频。SoraWebui简化了视频创建过程,支持在Vercel上进行一键部署,让开发者能够方便地进行使用和测试。
OOTDiffusion:一个高度可控的虚拟服装试穿开源工具,可以根据不同性别和体型自动调整,和模特非常贴合。也可以根据自己的需求和偏好调整试穿效果,OOTDiffusion支持半身模型和全身模型两种模式。
notesGPT,一个能够录下你的语音内容,然后自动帮助你把这些语音转成文字,对内容进行总结,创建具有视觉吸引力的文档,并能够添加图像、待办事项列表、图表、链接和多媒体内容,使您的笔记更具表现力和全面性。
MoneyPrinter,一个自动创建YouTube短视频的自动化赚钱项目,只要输入视频文本MoneyPrinter即可自动产生与之相关的短视频。
YOLO-World,腾讯ai实验室开发的一个实时目标检测工具,它能够自动识别和定位图像中的各种对象。YOLO-World在速度和准确性方面都优于许多最先进的方法。
Media2Face是通过音频、文本和图像多模态引导的共语言面部动画生成工具。
NVIDIA 发明了 GPU,并推动了 AI、HPC、游戏、创意设计、自动驾驶汽车和机器人开发领域的进步。
WhisperFusion 建立在开源工具 WhisperLive 和 WhisperSpeech 的功能之上。WhisperFusion可以让你和ai聊天机器人进行超低延迟对话,同时它还整合了Mistral模型,增强对转录文本上下文的理解。使得WhisperFusion能更好地理解人说的每句话背后的意思。
StreamRAG,一个视频搜索和流媒体代理工具,StreamRAG 使您能够在 ChatGPT 中与您的视频库聊天并观看视频流。
DuckDB-NSQL,一个专门为DuckDB数据库设计的文本到SQL的模型,你可以使用自然语言说描述你的需求,它会自动转换成SQL代码,也就是可以使用自然语言来和你的数据库聊天。
Virtual Try-All with image conditioned diffusionDiffuse to Choose主要用于虚拟试穿场景。它能够在修复图像时保留参考物品的细节,并且能够进行准确的语义操作。
SUPIR Intelligent Image Resotoration Large Model.SupIR是一个通过增加模型规模来提升图像修复能力的技术,SupIR能够根据文本提示进行智能修复,提高图像修复的质量和智能程度。
Space-Time Text-to-Video diffusion model by Google Research.Lumiere是谷歌研究院团队开发的基于空间时间的文本到视频扩散模型。
DiffusionGPT: LLM-Driven Text-to-Image Generation SystemDiffusionGPT,字节跳动开发的由LLM驱动文本生成图像多合一系统,专门设计用于为不同的输入提示生成高质量的图像。其主要目标是解析输入提示并确定产生最优结果的生成模型,该模型具有高泛化、高效用和方便的特点。
Shangchen Zhou ProPainter,一键移除视频内的移动物体,一键移除视频水印。
AnimateDiff 是一个能够将个性化的文本转换为图像的扩展模型,一款可以在stable diffusion中制作稳定gif动图的插件,它可以在无需特定调整的情况下实现动画效果。
ProPainter,一键移除视频内的移动物体,一键移除视频水印。
TryOnDiffusion是一种基于两个UNet的扩散架构,旨在生成穿在输入人物身上的服装的可视化效果图。该方法能够在保留服装细节的同时,适应显著的身体姿势和形状变化。TryOnDiffusion在定性和定量上都取得了最先进的性能,是一种非常有效的虚拟试衣技术。TryOnDiffusion: A Tale of Two UNets
AniPortrait:根据音频和静态人脸图片生成逼真的动态视频
APISR:用来提升动漫图像、视频的分辨率