欧易

欧易(OKX)

国内用户最喜爱的合约交易所

火币

火币(HTX )

全球知名的比特币交易所

币安

币安(Binance)

全球用户最多的交易所

收录词汇语句总规模超10万,虚拟主播变身冬奥手语播报员

2023-02-05 20:02:05 1368

摘要:澎湃新闻记者 程婷“运动员要从一个近50米高的斜坡上下滑,顺滑、倒滑都可以选择,然后在斜坡的尽头腾跃,完成空翻、转体、抓板等技术动作组合……”电视画面中,当主持人用较快的语速介绍冬奥会自由式滑雪大跳台项目时,画面左下角的红衣年轻女士手口并用...

澎湃新闻记者 程婷

“运动员要从一个近50米高的斜坡上下滑,顺滑、倒滑都可以选择,然后在斜坡的尽头腾跃,完成空翻、转体、抓板等技术动作组合……”

电视画面中,当主持人用较快的语速介绍冬奥会自由式滑雪大跳台项目时,画面左下角的红衣年轻女士手口并用,快速将这些内容以手语表达了出来。

2月5日以来,看过北京卫视《北京您早》节目的人可能见过上述这一幕。但很多可能不知道,电视画面中的女手语播报员不是真人,而是“冬奥手语播报数字人”。

据智谱AI CTO张鹏介绍,“冬奥手语播报数字人”的最大优点是,它是一套自动系统,可以大量节省人工;同时,它可以流畅地将语音播报生成为手语播报,堪比真人。

目前,“冬奥手语播报数字人”的语义表达完整性已较高,其手语表达的90%的内容听障人士与手语老师可懂。

“冬奥手语播报数字人”手语播报冬奥新闻画面。 项目研发方供图

国内最大规模多模态手语库作支撑

2022年北京冬奥会不仅是一场全世界奥运健儿与嘉宾欢聚的盛会,也是一场科技赋能的“智慧”盛会。

“冬奥手语播报数字人”采用了我国首个超大规模智能信息模型和虚拟数字人技术,由北京市科委、中关村管委会支持,智谱AI、凌云光和北京广播电视台联合为听障人士打造,清华大学贾珈教授团队和中科院计算所陈益强研究员团队也参与了相关关键技术的研究和开发。

该其系统以超大规模预训练模型为核心技术,自主搭建有多模态肢体动作、表情、手指同步采集系统,运用跨模态拟人生成算法、超高精度写实数字人等行业领先技术,实现了冬奥期间赛事新闻的专业手语翻译播报。

张鹏告诉澎湃新闻记者,像“普通话”一样,有通用手语,但也有类似方言的不同手语表达形式。因此,需要采集足够多的语料,才能让“冬奥手语播报数字人”能够准确表达不同场景下的内容的语义。

对此,“冬奥手语播报数字人”系统完成了《国家通用手语词典》收录的8214条通用手语的采集和录制,并且语法都以听障群体习惯打法为准,以确保手语播报成果的准确性和专业度。

据智谱AI合伙人、高级副总裁左家平介绍,由于当前国内缺少较完善的手语语料数据,研发人员在北京市残疾人联合会和市残联聋人协会的支持下,邀请超过40余位聋人老师及手语专家进行了手语文本转写和技术指导,并进行大范围听障群体评测,最终构建了符合国家通用手语规范的国内最大规模多模态手语语料库,词汇及语句总规模超10万。

张鹏表示,目前“冬奥手语播报数字人”的语义表达完整性已较高,就听障人士与手语老师的反馈来看,其表达的可懂度达90%。

左家平介绍“冬奥手语播报数字人”相关情况。 澎湃新闻记者 程婷 图

“智能数字脑”助力流畅、快速手语播报

电视中,“冬奥手语播报数字人”之所以能快速自如地将语音播报转换成手语,是因为研发人员已经克服了重重难关。

张鹏说,手语除了有“方言”与“普通话”外,其表达中诸如语序等一些规则和语音表达规则也不太相同。因此,“冬奥手语播报数字人”将语音转化成手语时,需要自动学习进行语序调整。

“新闻主播的语速通常是每分钟两百多不到三百字,手语表达达不到那么快的语速,但必须要能在正常合理的时间内把主要意思表达出来。这样,由语音播报转手语时,不能完完整整的逐字逐句的去翻译,需要动态去精简一些内容。”张鹏表示,这是一个难题,需要算法反复地去学习、调优。

为构建能够理解、翻译语音和手语的智能数字大脑,“冬奥手语播报数字人”系统以超大规模预训练模型为核心技术,通过语义蒸馏及手语翻译快编模型,实现新闻播报语音蒸馏成语义高度接近的手语文字,并翻译成符合手语习惯的语序。最终,手语数字脑可以通过计算机模仿听障人士的大脑,进行手语播报驱动。

此外,要让数字人展现出高精度、高自然度的人物形象和手语动作姿态,也是一件难事。

为此,研发团队自主搭建了多模态肢体动作、表情、手指同步采集系统。通过采集多模态动作捕捉数据,运用跨模态拟人生成算法对超写实数字人进行自然、流畅的驱动和渲染,实现对文本内容的手语播报。

其中,通过肌肉绑定技术驱动实现面部采集,结合业内领先的语音识别及高清视频合成等技术,呈现给听障人群亲切自然的冬奥手语播报服务。

“冬奥手语播报数字人”。项目研发方供图

与“虚拟AI主播”有何不同?

新亮相的“冬奥手语播报数字人”与常见的“AI虚拟主播”有何不同?

中科院计算机所所务委员、泛在中心主任陈益强向澎湃新闻记者表示,“虚拟主播”与“冬奥手语播报数字人”,身上都用到了虚拟人相关的技术,都追求形象的流畅性。

双方最大的区别在于:一般而言,AI主播动作比较自然即可;手语播报数字人则需要通过手势动作来实现表意的准确性和可懂度。

另外,传统的AI模型主要是进行语音播报,基本不存在可懂度的问题;但AI手语人存在手语打得是否可懂的问题,它需要用丰富的、夸张的表情来提高手语的可懂度。

张鹏表示,手语播报数字人的应用场景广泛,可以为新闻媒体提供全流程智能化的数字人手语生成服务,也可将声音广播内容转化为手语,以便听障人士可及时获取冬奥会赛事相关信息。

此外,推广手语播报数字人可加速国家通用手语推广落地,推动国家通用手语标准普及,为残疾人平等参与社会生活创造无障碍环境。

责任编辑:腾飞

校对:丁晓

版权声明:本站所有文章皆是来自互联网,如内容侵权可以联系我们( 微信:bisheco )删除!

相关推荐

友情链接
币圈社群欧易官网