Meta声称开发出迄今为止最复杂的人工智能语音模型。 图片来源:英国《每日邮报》网站
科技日报记者 刘霞
据英国《每日邮报》23日报道,母公司元宇宙平台(Meta)表示,其已开发出“迄今为止最强大的语音生成人工智能”,可以模仿任何人的声音,包括死者的声音。 然而,Meta 宣布不会公开其人工智能模型,因为担心这项先进技术会被滥用。
Meta 的深度学习人工智能研究人员使用“流匹配”方法介绍了它,该方法优于当前最先进的生成语音系统所使用的扩散模型。 结果显示,生成的人类音频更容易理解,单词错误率为 1.9%,低于竞争对手的 5.9%。 此外,生成的音频与真人更加相似,同时速度提高了近 20 倍。
在跨语言翻译方面,表现优于广受好评的多语言文本语音AI,平均误词率从10.9%降低到5.2%,音频相似度从0.335提高到0.481。
Meta 列出了多种用途,称它可以用来帮助视障人士听到朋友和亲人的信息,或者允许非母语人士使用自己的声音翻译他们所说的内容。 据悉,他目前能说6种语言:英语、法语、西班牙语、德语、波兰语和葡萄牙语。
不过,Meta 强调,由于潜在的滥用风险,他们目前不会公开该模型及其代码。 虽然他们认为开放并与人工智能社区分享研究成果对于推动人工智能向前发展非常重要生活网报道,但在开放性和问责制之间取得适当的平衡也至关重要。
主编圈子
诞生已经半年多了,人们已经深深感受到了人工智能语言模型的强大。 对于各种问题,它都能流利回答,令人惊叹。 试想,如果人工智能回答人类的问题,不仅内容和形式与真人相似,甚至连声音都难以辨别真假,用户可能会感受到更强烈的冲击。 后者正是语音生成人工智能想要实现的目标。 然而,正如文章中提到的,这些强大的技术确实存在被滥用的可能性。 在人工智能技术不断升级迭代的同时,相关的监管和伦理约束也必须及时“上路”。
本网站转载其他媒体之作品,意在为公众提供免费服务。如权利所有人拒绝在本网站发布其作品,可与本网站联系,本网站将视情况予以撤除。