您的位置:首页 > 科技 > IT业 > 快速搭建网站的好处_网页设计图片切换_图片识别_教程推广优化网站排名

快速搭建网站的好处_网页设计图片切换_图片识别_教程推广优化网站排名

2024/12/26 12:29:42 来源:https://blog.csdn.net/weixin_41967328/article/details/144456326  浏览:    关键词:快速搭建网站的好处_网页设计图片切换_图片识别_教程推广优化网站排名
快速搭建网站的好处_网页设计图片切换_图片识别_教程推广优化网站排名

1. 问题描述

Audio-Visual Active Speaker Detection
主动说话人检测是视听场景理解中的一项具有挑战性的任务,其目的是检测在一个或多个说话人场景中谁在说话,确定视频中每个可见的人是否以及何时在说话。

2. 评价指标

1.Equal Error Rate(EER)
EER代表等错误率(Equal Error Rate),它是音频领域和语音识别等评估任务中常用的一种性能度量指标。EER通常用于评估声纹识别和说话人识别系统的性能。

等错误率是指在二元分类任务中,当假阳性率(False Acceptance Rate,FAR)等于假阴性率(False Rejection Rate,FRR)时的错误率。假阳性率是指实际为负类(非目标说话人)但被错误地分类为正类(目标说话人)的概率;假阴性率是指实际为正类但被错误地分类为负类的概率。

在等错误率中,希望FAR和FRR都尽可能地接近,这表示说话人识别系统能够在保持较低错误率的同时,保持一定的灵敏度和特异性。

等错误率通常以百分比表示,较低的EER值表示系统性能更好。如果一个系统的EER为5%,则意味着在测试时,该系统的假阳性率和假阴性率都约为5%。

需要注意的是,EER只是声纹识别等任务评估中的一种指标,通常还会结合其他指标如准确率、召回率、精确率等来全面评估系统性能。

EER(等错误率)是在假阳性率(FAR)等于假阴性率(FRR)时的错误率。为了计算EER,我们需要绘制一个FAR-FRR曲线,并找到曲线上FAR和FRR相等的点。

等错误率(EER)是FAR和FRR相等时的错误率,通常表示为百分比。为了找到EER,我们需要在FAR-FRR曲线上找到FAR和FRR相等的点。

简而言之,EER是在说话人识别或声纹识别任务中,FAR等于FRR时的错误率。

3. 相关项目

3.1 TalkNet (ACM MM 2021)

论文名称:Is Someone Speaking? Exploring Long-term Temporal Features for Audio-visual Active Speaker Detection

介绍:
动说话人检测 (ASD) 旨在检测在一个或多个说话人的视觉场景中谁在说话。自闭症谱系障碍的成功取决于对短期和长期视听信息以及视听交互的准确解释。与系统使用短期特征即时做出决策的先前工作不同,我们提出了一种新颖的框架,名为 TalkNet,它通过考虑短期和长期特征来做出决策。 TalkNet 由用于特征表示的音频和视觉时间编码器、用于模态间交互的视听交叉注意机制以及用于捕获长期说话证据的自注意机制组成。实验表明,TalkNet 在 AVA-ActiveSpeaker 数据集和 Columbia ASD 数据集上比最先进的系统实现了 3.5% 和 2.2% 的改进。

参考:
https://blog.csdn.net/gitblog_00033/article/details/139555456
https://github.com/TaoRuijie/TalkNet-ASD
https://arxiv.org/abs/2107.06592

3.2 TS-TalkNet (INTERSPEECH2023)

论文名称:
Target Active Speaker Detection with Audio-visual Cues

介绍:
在主动说话者检测(ASD)中,我们希望根据视听提示来检测屏幕上的人是否正在说话。以前的研究主要集中在对视听同步提示进行建模,这取决于说话者嘴唇区域的视频质量。在实际应用中,我们有可能还可以获得屏幕扬声器的参考语音。为了从面部提示和参考语音中受益,我们提出了目标说话者 TalkNet (TS-TalkNet),它利用预先注册的说话者嵌入来补充视听同步提示,以检测目标说话者是否正在说话。我们的框架在两个数据集上优于流行的模型 TalkNet,在 AVA-ActiveSpeaker 验证集上的 mAP 绝对提高了 1.6%,在 ASW 测试中的 AP、AUC 和 EER 方面分别提高了 0.8%、0.4% 和 0.8%分别设置。

参考:
https://arxiv.org/abs/2305.12831
https://github.com/Jiang-Yidi/TS-TalkNet

3.3 AudioVisualLip (2023)

论文名称:
CROSS-MODAL AUDIO-VISUAL CO-LEARNING FOR TEXT-INDEPENDENT SPEAKER
VERIFICATION

介绍:
由于语音产生中的共现和同步,视觉语音(即嘴唇运动)与听觉语音高度相关。本文研究了这种相关性并提出了一种跨模态语音协同学习范式。我们跨模态协同学习方法的主要动机是通过利用另一种模态的知识来建模一种模态。具体来说,基于视听伪暹罗结构引入了两个跨模态增强器来学习模态转换的相关性。在每个助推器内部,提出了一个最大特征图嵌入式 Transformer 变体,用于模态对齐和增强特征生成。该网络是从头开始并与预训练模型共同学习的。 LRSLip3、GridLip、LomGridLip 和 VoxLip 数据集上的实验结果表明,我们提出的方法比独立训练的纯音频/纯视觉和基线融合系统分别实现了 60% 和 20% 的平均相对性能改进。

参考:
https://github.com/DanielMengLiu/AudioVisualLip
https://arxiv.org/abs/2302.11254

3.4 Light-ASD (CVPR2023)

论文标题:
A Light Weight Model for Active Speaker Detection

介绍:
主动说话人检测是视听场景中的一项具有挑战性的任务,目的是检测谁在一个或多个说话人场景中说话。这项任务受到了相当多的关注,因为它在许多应用中都至关重要。现有研究试图通过输入多个候选信息和设计复杂模型来提高性能。尽管这些方法取得了优异的性能,但它们的高内存和计算功耗使其难以应用于资源有限的场景。因此,在本研究中,通过减少输入候选数量、拆分 2D 和 3D 卷积以进行视听特征提取,以及应用计算复杂度较低的门控循环单元进行跨模态建模,构建了一种轻量级主动说话人检测架构。 AVA-ActiveSpeaker 数据集上的实验结果表明,所提出的框架实现了有竞争力的 mAP 性能(94.1% vs. 94.2%),而资源成本明显低于最先进的方法,尤其是通常在模型参数(1.0M vs. 22.5M,大约 23×)和 FLOPs(0.6G vs. 2.6G,大约4×)。此外,所提出的框架在哥伦比亚数据集上也表现良好,从而表现出良好的鲁棒性。

参考:
https://github.com/Junhua-Liao/Light-ASD?tab=readme-ov-file
https://arxiv.org/abs/2303.04439
https://www.flyingfry.cc/archives/19/

4. 数据集

4.1 WASD (2023)

介绍:
Wilder 主动说话人检测 (WASD) 数据集通过针对当前主动说话人检测的两个关键组成部分:音频和面部,增加了难度。 WASD 分为 5 个类别,从最佳条件到监视设置,包含对主动说话者检测的增量挑战,以及音频和面部数据的战术损伤。

参考:
https://github.com/Tiago-Roxo/WASD

4.2 AVA-ActiveSpeaker (2019)

论文标题:
AVA-ActiveSpeaker: An Audio-Visual Dataset for Active Speaker Detection

介绍:
主动发言者检测是视频分析算法的重要组成部分,适用于发言者分类、会议视频重新定位、语音增强和人机交互等应用。由于缺乏用于此任务的大型且仔细标记的视听数据集,限制了算法在数据多样性、环境和准确性方面的评估。这使得比较和改进变得困难。在本文中,我们提出了 AVA Active Speaker 检测数据集(AVA-ActiveSpeaker),该数据集将公开发布,以促进算法开发并进行比较。该数据集包含视频中临时标记的面部轨迹,其中每个面部实例都被标记为说话或不说话,以及语音是否可听。该数据集包含约 365 万个人类标记帧或约 38.5 小时的面部轨迹以及相应的音频。我们还提出了一种用于主动说话者检测的新视听方法,并分析其性能,展示其优势和数据集的贡献。

参考:
https://arxiv.org/abs/1901.01342
https://github.com/cvdfoundation/ava-dataset

5. 参考

https://blog.csdn.net/eggplant323/article/details/132070598
https://paperswithcode.com/task/audio-visual-active-speaker-detection

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com