Whisper语音识别模型 | AI启航工具箱（OPEN AICHINES）

Whisper 是Openai 开源音频转文字的语音识别模型。它在不同音频的大型数据集上进行训练，也是一个多任务模型，可以执行多语言语音识别以及语音翻译和语言识别。

Whisper有五种模型尺寸，提供速度和准确性的平衡，其中English-only模型提供了四种选择。下面是可用模型的名称、大致内存需求和相对速度。

相关导航

8spAi系统

8spAi系统集成了AI全模型智能问答、GPT4对话识图、知识库训练、文档提问总结、DALLE-3绘图、Midjourney绘画动态全功能与思维导图自动生成等功能，全方位满足生活和工作各种需求，为用户提供了智能化的服务和体验。

ProPainter

Shangchen Zhou ProPainter，一键移除视频内的移动物体，一键移除视频水印。

DreaMoving:基于扩散模型的人体视频生成框架

Homepage of DreaMovingDreaMoving，一种基于扩散的可控视频生成框架，用于生成高质量的定制人类舞蹈视频。具体来说，给定目标身份和姿势序列，DreaMoving 可以生成目标身份在姿势序列驱动下在任何地方跳舞的视频。为此，我们提出了一个用于运动控制的视频控制网络和一个用于身份保留的内容指南。所提出的模型易于使用，并且可以适应大多数风格化的扩散模型以生成不同的结果。

DeepFaceLab

DeepFaceLab是一种利用深度学习识别来交换图片和视频中的人脸的工具。这种技术在特定的场合下可以做出非常逼真自然的换脸视频。而 DeepFaceLab 是众多软件中，安装最简单，使用最方便，更新最快的一款软件。

Diffuse to Choose：在线购物虚拟试穿

一种基于扩散的图像修复模型，主要用于虚拟试穿场景。它能够在修复图像时保留参考物品的细节，适用于在线购物等虚拟试穿场景中的图像修复任务。

GoAmzAI

goamzai专业的AI智能解决方案提供商

Whisper语音识别模型翻译站点

相关导航