YOLO-World,腾讯ai实验室开发的一个实时目标检测工具,它能够自动识别和定位图像中的各种对象。YOLO-World在速度和准确性方面都优于许多最先进的方法。
YOLO-World 是下一代 YOLO 检测器,旨在实时开放词汇目标检测。YOLO-World在大规模视觉语言数据集(包括Objects365、GQA、Flickr30K和CC3M)上进行了预训练,这使得YOLO-World具有强大的零样本开放词汇能力和图像落地能力,无需训练即可进行实时目标检测,即便某些物品之前没有见过,YOLO-World适用于物体检测和开放词汇实例分割。
YOLO-World功能特点:
1、大规模学习:YOLO-World通过学习大量的图片和对应的描述(如物品名称),获得了丰富的视觉知识和语言知识,这使得它能识别出广泛的物品。
该项目在包括Objects365、GQA、Flickr30K和CC3M在内的大规模视觉-语言数据集上进行了预训练,赋予了YOLO-World强大的零样本开放词汇能力和图像中的定位能力。
2、快速准确:YOLO-World在LVIS数据集上的零样本评估中达到了35.4 AP,并且在V100上的处理速度为52.0 FPS,速度和准确性均超过许多最先进的方法。即使是在包含复杂场景的图片中也能保持高准确率。YOLO-World 声称比 GroundingDINO 快 20 倍。
3、零样本检测:最令人印象深刻的是,即便某些物品YOLO-World之前没有见过,它也能凭借先前的学习和理解能力,通过图片中的线索和上下文信息,成功识别和定位这些新物品,这意味着我们不必训练它来让它检测新的一类物体。我们只需要给出类名作为输入文本提示,模型将返回这些对象的边界框(如果存在)。
4、理解物体:YOLO-World不仅依靠视觉信息,还结合了语言信息。它理解人类的语言描述,这让它能够识别出即使是之前没有直接见过的物体。
5、与现有的开放词汇检测方法相比,YOLO-World模型至少快 20 倍。每秒可以处理大约 52 帧。
6、在LVIS对象检测数据集上设置了最先进的新数据集。
相关导航
VideoSrt是一个可以识别视频语音自动生成字幕SRT文件的开源软件工具。基于Golang语言,使用lxn/walk Windows-GUI工具包开发的开源软件工具。适用于快速、批量的为媒体(视频/音频)生成中/英文字幕、文本文件的业务场景。GitHub is where over 100 million developers shape the future of software, together. Contribute to the open source community, manage your Git repositories, review code like a pro, track bugs and features, power your CI/CD and DevOps workflows, and secure code before you commit it.
GitHub is where over 100 million developers shape the future of software, together. Contribute to the open source community, manage your Git repositories, review code like a pro, track bugs and features, power your CI/CD and DevOps workflows, and secure code before you commit it.