不正确的STT输出一般是与真正音标发音类似的英语单词
龙飞船载客舱被取名为Resilience
北医三院被负责人誉为,我是她见过的最不幸的患者
云南省少数名族的服装与众不同而漂亮
行驶版道德经历经用基本
EpiSci企业效仿了
每一个人患者全是战将,小七七更是如此
杨柘在华为品牌涉足高档全过程中获得“高手”绰号
“嗡嗡响喂”买赫邮美两大网站媒强强联手深海
2020年肺炎疫情危害下
“数据”重归根源晋城市坚持不懈“项目为王”
5G工业化生产互联网产业生态环保持续稳步发展
发展战略合作方包含持续2017年变成东博会
潍坊市·北京中关村信息内容谷创新中心令人眼前一亮
夸大其词手机上常见故障、坐地起价,一些检修店明维修手机暗换零
华东产业链云新项目签字仪式得奖公司意愿落地式签订
小米手机总体项目投资4亿美金
手机软件下载地址世超就放这里了,很感兴趣的差友何不免费下载出
中国经济发展信息内容社、京东、梅江控投为第一批进驻公司意味着
微信上线“开裂”小表情,没有新表情的网民裂开了
5G手机上基础适用5G独立组网
元气森林小乳茶商品没有在淘宝主图中标明详尽规格型号
初瑞雪退居幕后,直播间一开局,幸巴就亮相直播房间表明要助推初
伊春市丰林县新青镇某餐馆冷冻肉被检验呈阳性?
高新科技战斗力精确判断“线下推广消费流回”的多方面动机
威克士“反方向订制”出家庭装专用工具
变成小米上市后外界管理层中第一个脱队者,谁会变成下一个?
一心只为从客户身上盈利,而不在意客户的正当性合法权利
工业生产的企业战略转型
格力董明珠5场直播间总计销售总额超178亿人民币
2020中国5G工业物联网行业初次国家级别交流会
中国卫星定位导航研究会专家教授曹冲:根据“5G北斗定位系统
欧菲光7P108M光学设备圆满完成小批量生产认证
清华专家教授沈阳市做为中文汇总主题活动的评定权威专家
哪种聊天内容应当被算是隐私保护?
强悍女总裁手握着美女记者
湖南台顶尖青年人舞蹈家比赛综艺节目《舞蹈风暴》第二季开播近半
动漫电影《姜子牙》积累电影票房提升16亿人民币价位
18强学生一同歌唱《灿烂的你》,赞颂时期与将来
“鉴新见心全聚德烤鸭集团公司2020秋冬季新产品鉴赏会”当场
中核维思:彻底独立专利权的国内汽体超声波技术性总体解决方法服
电子器件产业链成绩突出
车险公司应在保险投保前向所在地银行保险监督机构应提升订制医保
我国现阶段对外开放签定的贸易协定已达19个,自贸小伙伴将做到
我国在70个关键经济大国排行第六
喜马拉雅fm与中国200城市进行公共性数字阅读与公共文化服务
意才宣布获准运营证券基金业务流程许可证书
财政部:5年期初次完成流动性陷阱发售
射阳全力促进稻米产业链高质量发展
法国巴黎战区在线办公机遇比省外要多
您的位置:首页 >商机 > 供应 >

不正确的STT输出一般是与真正音标发音类似的英语单词

2020-11-21 18:38:07 来源:

文中来源于百度研究院被亚洲地区人工智能算法大会ACCV2020接受的一篇毕业论文《Speech2VideoSynthesiswith3DSkeletonRegularizationandExpressiveBodyPoses》。

Speech2Video是一种从视频语音音频输入生成身体全身运动(包含头、口、臂等)视頻的每日任务,其造成的视頻应当在视觉效果上是当然的,而且与给出的视频语音一致。传统式的Speech2Video方式一般会应用专业设备和技术专业操作工开展特性捕捉,且大部分视频语音和3D渲染每日任务是由动画设计师进行的,订制应用的成本费一般较为价格昂贵。

近些年,伴随着深层神经元网络的取得成功运用,数据驱动的方式早已变成实际。比如,SythesisObama或MouthEditing根据应用RNN根据视频语音驱动器唇部健身运动来生成讲话的唇部。霉霉[3]明确提出应用声频来驱动器高保真音响图型实体模型,该实体模型不但能够将唇部动画化,并且还能够对脸部的别的一部分开展动漫解决以得到 更丰富的视频语音表述。

殊不知,唇部运动的合成绝大多数是可预测性的:给出音标发音,在不一样的人与自然环境中唇部的健身运动或样子是类似的。但现实生活中,同样状况下的全身上下手式健身运动具备高些的形成力和大量的特异性,这种手式高宽比取决于当今的前后文和已经实行视频语音的人们。传送重要信息时,人性化的手式会在特殊時刻出現。因而,有效的信息内容仅稀疏地存有于视頻中,这为简易的端到端学习培训优化算法[1、3]从比较有限的录视频中捕捉这类多元性产生了艰难。

前不久,百度搜索明确提出了一种新的方式,将给出文本或音频格式转换为具备同歩、真实、富感染力的身体语言的真实感视頻。该方式最先应用递归神经元网络(recursiveneuralnetwork,RNN)从声频编码序列形成三维人体骨骼健身运动,随后根据标准形成对抗网络(GAN)生成輸出视頻。

毕业论文详细地址:https://arxiv.org/pdf/2007.09198.pdf

为了更好地使人体骨骼健身运动真实并颇具感染力,学者将骨节三维肌肉骨骼的专业知识和学习培训过的人性化视频语音手式词典置入到学习培训和检测全过程中。前面一种能够避免 造成不科学的人体形变,而后面一种根据一些更有意义的人体健身视频协助实体模型如何快速学习。为了更好地制做颇具健身运动关键点的真实高像素视頻,学者明确提出一种有标准的GAN,在其中每一个关键点一部分,比如头和手,是全自动变大过的以有着自身的辨别器。该方式与之前解决相近每日任务的SOTA方式对比实际效果更强。

方式

图1:Speech2Video系统软件pipeline

如图所示1所显示,依据用以训炼LSTM互联网的內容,系统软件的键入是声频或文字。充分考虑文字到视频语音(TTS)和视频语音到文字(STT)技术性都早已完善而且可商业,这里假设声频和text是可交换的。即便 从最优秀的STT模块中获得一些不正确鉴别的英语单词/标识符,系统软件还可以忍受这种不正确,LSTM互联网的关键目地是将文字/声频投射到人体样子。不正确的STT輸出一般是与真正音标发音类似的英语单词,这代表着他们的拼读也很可能是类似的。因而,他们最后将投射的人体样子多多少少类似。

LSTM的輸出是由SMPL-X参数化设计的一系列人体姿势[9]。SMPL-X是一个身体、脸部和手臂的三维协同实体模型,这一动态性骨节三维实体模型是由一个3D五颜六色框架图象编码序列数据可视化的。这种3D图象被进一步键入到vid2vid形成互联网[17]中,以形成最后的实际人物图像。

在取得成功同歩视频语音和姿势的另外,LSTM绝大多数時间只有学习培训反复的人们姿势,这会使视頻看上去很无聊。为了更好地使人体动作更具有感染力和转变性,学者在一些关键字出現时将特殊姿态添加LSTM的輸出姿势中,比如,极大、细微、高、劣等。学者创建了一个词典,将这种关键字投射到他们相对的姿态。

图3显示信息了数据收集自然环境。女模特立在照相机和显示屏的前边,当他/她在显示屏上阅读文章脚本制作时,学者会捕捉这种视頻。最终再规定女模特摆一些关键字的姿势,比如极大、细微、往上、往下、我、你这些。

人体模型线性拟合

学者最先将这种3D关键环节做为人体模型的表明,并训炼了LSTM互联网,但結果不可以比较满意(如图4所显示)。

最终选用了SMPL-X,它是一种骨节式三维人体模型。SMPL-X应用动力学骨架模型对身体动力学模型开展模型,具备54个骨节,包含颈部、手指头、胳膊、腿和脚。

字典搭建和重要姿态插进

如图所示5所显示,学者从视频录制的视頻中手动式挑选重要姿态,并创建一个英语单词-姿态查看词典。一样,该姿态表明为106个SMPL-X主要参数。重要姿态能够是静止不动的单帧姿态或多帧健身运动,能够根据同样的方式将二者插进到目前的肌肉骨骼视頻中。

训炼视頻形成互联网

学者选用vid2vid明确提出的形成互联网,将框架图象变换为真正的人像图片。

图7:用以训炼vid2vid的实例图象对。两手均含有独特的色盘标识。

运作時间和硬件配置层面,系统软件中最用时和最耗运行内存的环节是训炼vid2vid互联网。在八个NVIDIATeslaM4024GGPU群集上进行20个阶段的训炼大概必须一周;产品测试要快得多,在单独GPU上形成一帧仅需约0.5秒。

結果

评定与剖析

如表1所显示,学者将应用用户行为分析的結果与4种SOTA方式开展较为,数据显示,文中方式得到 了最好的整体品质评分。

除此之外,学者应用Inception成绩评定图象形成結果,包含2个层面:图象品质和图象多元性。

为了更好地评定最后輸出的视頻,学者在AmazonMechanicalTurk(AMT)上开展了人们主观性检测,现有112名参加者。学者向参加者展现了一共五个视頻,在其中四个是合成视频,2个由真正人的声频形成,2个由TTS声频形成;剩余的是一个真正角色的短片视频。参加者以李克特量表(从1(明显不同意)到5(明显愿意))对这种视頻的品质开展得分。在其中包含:1)身体的一致性(沒有忽略的人体部位或手指头);2)视頻中面部清楚;3)视頻中的人体动作(胳膊,手,人体手式)看上去当然顺畅。4)人体的姿势和手式与响声同歩;5)视頻的总体视觉效果品质。

汇总

Speech2Video是一种新奇的架构,能够应用三维驱动器的方式形成真实的视频语音,另外防止搭建三维网格图实体模型。创作者在架构内创建了人性化重要手式表,以解决数据信息稀少性和多元性的难题。更关键的是,创作者运用三维人体骨骼管束来形成人体动力学模型,进而确保其姿态在物理学上是有效的。