您的位置:首页 > 互联网

阿里通义实验室开源多模态说话人项目3D-Speaker_阿里通信百科

发布时间:2024-02-28 01:50:21  来源:互联网     背景:

2月27日 消息:3D-Speaker 是通义实验室语音团队贡献的一个开源项目,结合了声学、语义、视觉三维模态信息来解决说话人任务。

项目涵盖了说话人日志、说话人识别和语种识别任务,提供了工业级模型、训练代码和推理代码。同时还开源了研究数据集3D-Speaker dataset,包含了多设备、多距离和多方言的音频数据和文本,适用于高挑战性的语音研究。

1. 结合视觉信息的说话人日志技术:

facebook的视频

- 在复杂声学环境中,引入视觉信息可以提升说话人识别能力。

- 系统包括声学和视觉模态识别路线,通过联合多模态聚类得到最终识别结果。

2. 结合语义信息的说话人日志技术:

只有苹果才能超越苹果

- 将说话人日志任务从传统的音频切割转为对文本内容进行说话人区分。

三星s23 ultra评测

- 提出了对话预测和说话人转换预测模块,基于 Bert 模型,用于提取语义中说话人信息。

3. 基于经典声学信息的说话人和语种识别:

- 包含全监督和自监督说话人识别模型,支持多种数据增强、多模型训练和多损失函数。

- 提供一键式训练推理,支持多种经典模型,并提供有效的学习率调节方案和 margin 变换值。

3D-Speaker 项目在说话人任务中探索了多模态信息的结合应用,提供了一系列有效的技术解决方案和开源资源,为语音研究领域的发展做出了贡献。

开源代码链接:

阿里通通话质量专注于提供高质量

https://github.com/alibaba-damo-academy/3D-Speaker/blob/main/egs/3dspeaker/speaker-diarization/run_video.sh


返回网站首页

本文评论
预测到 2030 年,人工智能将在美国取代 240 万个工作岗位_三年内人工智能赶超美国
文章概要:1. 分析报告显示,生成AI将在2030年之前替代240万美国工作岗位,同时影响其他1100万岗位,但其他形式的自动化将导致更多的工作丧失。收购adobe2. 预测生成AI将对白领工...
日期:09-07
超30万买吗?雷军现身新疆 晒照吸睛:为小米汽车而战 还有网友拍到伪装车
快科技8月19日消息,小米CEO雷军刚刚突然在微博上晒照,IP显示在新疆,而且照片内容也是亮点十足。从雷军微博晒出的信息看,虽说这是在测试小米MIX Fold 3的拍照效果,但照片内横幅显...
日期:08-19
中国人自己的技术!比亚迪云辇-X实测:三个轮子行驶、过弯超平稳
快科技4月16日消息,前不久,比亚迪云辇”技术正式发布,比亚迪董事长王传福表示,云辇是中国人自己的智能车身控制系统,也是行业首个新能源专属智能车身控制系统,实现系统级深度集成...
日期:04-16
1.9亿年前恐龙蛋窝,被发现了_恐龙蛋样子
记者9日获悉,来自中国地质大学(武汉)、中国科学院古脊椎动物与古人类研究所和贵州省博物馆等单位的研究人员,在贵州省安顺市平坝区发现1.9亿年前的特异埋藏的恐龙化石群。该恐龙...
日期:11-10
余承东:说问界M7不好的都是没用过我们车的人
9月12日消息,今天华为在上海发布了AITO问界M7大五座新车。华为常务董事、终端BG CEO、智能汽车解决方案BU CEO余承东在发布会上表示,华为问界M7的NPS值超过了80分,非常领先。余...
日期:09-12
雷军:新十年小米致力成为新一代全球硬核科技引领者_雷军公布小米新目标:三年时间做到全球第一
雷军:新十年小米致力成为新一代全球硬核科技引领者 名创优品海外门店数量10月23日,雷军发文称,“前不久,我在小米内部提出了新十年目标,就是要“持续投资底层核心技术,致力成为新...
日期:10-23
6年青春结束了 暴雪《守望先锋》明晚关服:“归来”接任「暴雪tv五周年守望先锋什么时候到」
旧守望”离去,新的守望”即将到来。一周前,《守望先锋》的主界面换成了最初英雄的合影不包括任何新英雄,似乎在以这种方式与玩家道别。根据守望先锋”官方消息,为了保障《守望先...
日期:10-03
10秒补充1公里续航,日本开展公共道路电动汽车无线充电系统实验_日本无线充电技术
IT之家 10 月 19 日消息,据 The Register、日本经济新闻等媒体当地时间周二报道,由东京大学、千叶大学、普利司通、三井不动产等 9 家公司组成联合研究小组,于本月初在日本千叶...
日期:10-19
可信身份助力数字化转型,亚略特获蓝盾杯安全识别产业应用成果奖
5月17-18日,2023身份识别技术大会(IDS)在北京国家会议中心举办。本届大会以“可信身份支持数字化转型”为主题,邀请了身份识别领域多位专家、企业代表出席。凭借在身份识别领域...
日期:05-19
谷歌副总裁:Andorid半年内将推出震撼性内容_谷歌现任总裁
  近日美国科技博客网站Gizmodo对谷歌工程副总裁安迪·鲁宾(Andy Rubin)进行了专访,谈到了Andorid的发展前景、版本更新等内容,并称谷歌将在6个月内推出“冲击大脑”的Andori...
日期:07-29
配备先进的手部跟踪功能!曝苹果的混合现实头显具有类似iOS的界面
苹果多年来一直在开发的AR / VR头显将于2023年推出,这意味着有关该设备的谣言正在增加。彭博社今天分享了一些关于头显界面、它将具有的功能以及它将如何工作的信息。使用头...
日期:01-25
朗镜科技荣获上海国资国企数字化转型创新大赛“数字创新潜力奖”
  7月21日,由上海市国有资产监督管理委员会联合上海市经济和信息化委员会、上海市科学技术委员会和百联集团共同举办的“共创数字未来—2021上海国资国企数字化转型创新...
日期:11-14
2024年选什么电视?海信电视U8不同场景玩出“新”意
新的一年万象更新,是时候给自己或家人安排一个“客厅神器”了!无论你是想在春节跟亲朋团聚爽看大片,还是想要畅玩游戏、激情观赛,如果要选一台电视来满足所有,那就不得不提有着冠...
日期:01-04
苹果pro16寸尺寸「iPhone 16 Pro/Pro Max曝光:尺寸更大更重」
快科技11月30日消息,据媒体爆料,iPhone 16 Pro和iPhone 16 Pro Max尺寸要比15 Pro和15 Pro Max更大,机身重量也有所增长。具体而言,iPhone 16 Pro屏幕尺寸是6.3英寸,机身重量是19...
日期:12-01
5000万!奇安信公布新冠疫情防控已落实专项捐赠金额(新冠病毒企业捐款名单)
  1月31日12时12分,价值400万的安全设备抵达武汉火神山医院建设指挥部,完成了全部交接程序,运维人员也随即进驻安装施工;   12时32分,近80万元的安全设备搭乘国航CA1343次...
日期:06-27
特斯拉没有工会「马斯克:如果特斯拉成立了工会,那就是罪有应得」
11月29日消息,美国时间周三,特斯拉CEO埃隆·马斯克(Elon Musk)表示,工会只是想使员工与管理层对立起来,如果特斯拉成立了工会,那将是因为罪有应得,在某些方面失败了。周三早些时候...
日期:11-30
百度网盘svip最便宜多少钱「百度网盘顶级SVIP10首发:998元直升 享30TB空间」
百度网盘十周年之际,官方正式上线顶级SVIP10会员段位。如果你目前不是SVIP会员,可以直接花998元升级到SVIP10,原价1223元。如果你已经是SVIP,具体价格则会由当前等级计算。SVIP1...
日期:11-29
曝vivo iQOO 12系列入网 11月发布_iqoo12+128参数
最近有消息称,vivo即将发布全新的iQOO 12系列旗舰手机。根据最新的消息,这两款机型已经在工信部入网,预计将于11月与消费者见面。根据数码博主@数码闲聊站的最新爆料,该系列将包...
日期:10-19
胡兵和胡东什么关系「演员胡兵向东航维权失败:价值一万多的白金卡50万积分一夜清零」
经常坐飞机的朋友知道,航空公司的积分十分重要,不仅可以兑换升舱、贵宾室等多种权益,还能直接在商城购买商品。而个人账户上50多万的积分,被一夜之间清零,想必每个人都很难接受。...
日期:06-19
2023阿里全球数学竞赛获奖名单出炉:诞生最年轻满分金奖 年仅17岁 获29万元
快科技9月16日消息,今天下午,阿里巴巴将在北京大学举办2023阿里巴巴全球数学竞赛颁奖典礼,获奖名单正式出炉。其中金奖是阿里巴巴全球数学竞赛的最高荣誉,此次共有4人获奖,其中3...
日期:09-18