摘要:以下文章来源于中金点睛,作者魏鹳霏 于钟海等 近期,“中金观点”栏目持续推出“元宇宙”主题系列研究,围绕元宇宙定义、技术基础、积极影响及VR/AR、Web 3.0、虚拟人等方面的应用展开具体解读和畅想,以飨读者
以下文章来源于中金点睛,作者魏鹳霏 于钟海等
近期,“中金观点”栏目持续推出“元宇宙”主题系列研究,围绕元宇宙定义、技术基础、积极影响及VR/AR、Web 3.0、虚拟人等方面的应用展开具体解读和畅想,以飨读者
本文作者:陈星宇,于钟海,魏鹳霏,钱凯
AI是构建元宇宙的关键底层技术之一,本篇报告从数字原生角度出发,即AI助力虚拟内容生产并赋予数字人“智能”,梳理AI赋能数字世界主题下的技术进步与应用推广脉络。我们认为,AI助力数字原生主要体现在AIGC内容生成和NLP技术,二者是外在拟人化、内在智能化的主要驱动力。2012年深度学习兴起与2018年NLP领域Transformer路线蓬勃发展为技术发展的关键时间节点,在应用端引领数字人由表及里地深化真实自然与智能。放眼未来,在AI技术的加持下,以数字人为代表的应用有望实现“道术并举、内外兼修”。
摘要
技术端:AI技术中AIGC+NLP双轮驱动,为数字世界内容生产和智能交互打下技术基础。1)AIGC:传统PGC和UGC难以满足元宇宙高效实时的内容创作需求,AIGC能够突破人力限制,真正实现自动化、逼真化内容生产。随着深度学习技术演进,环境渲染与表情生成等AIGC落地场景涌现。2)NLP:NLP技术是实现智能化交互的AI技术核心,也是NLP领域AI公司的多年发展瓶颈,2018年Transformer路线蓬勃发展为NLP带来里程碑式技术飞跃,多模态、开放域语音交互已成为现实。
应用端:标杆平台英伟达Omniverse Avatar集成AI赋能数字世界的技术工具,数字人产业由深度学习驱动迈入新阶段。作为采用AI布局元宇宙的标杆性技术平台,Omniverse Avatar各关键要素贯穿数字世界的内容生成和智能交互,以NLP技术为核心布局点,已在海内外传媒娱乐、工业等多领域得到实操。作为AI在元宇宙中的典型应用,数字人产业发展脉络呼应技术演进路线,深度学习技术为其重要分水岭,AI技术进步引领文娱与多垂直行业的应用案例多点开花。
未来展望:以AIGC和NLP为代表的技术演进将持续拓展新兴应用场景。1)技术演进方面,我们认为数字人内容制作技术和底层AI模型有望不断迭代升级,以3D渲染为代表的AIGC制作技术进步将使得虚拟世界和数字人的“外在”更加真实,以NLP为代表的技术突破将使得数字人的“内在”更加丰满;2)应用方向方面,AI伙伴有望与人类产生情感连接,通用虚拟助理拟提供个性化服务,我们认为二者有望随技术进步获得大规模应用推广。
风险
深度学习等AI技术进步不及预期;下游落地应用进度不及预期。
正文
AI赋能数字世界:AIGC内容生成之纽,NLP交互智能之基
AI作为连接数字与物理世界的纽带,是构建元宇宙的关键基础技术之一;从数字原生角度,AI助力数字世界中虚拟内容生成并赋予数字人“智能”。AIGC及自然语言处理(NLP)是AI赋能数字世界的关键技术,分别在助力虚拟内容生成、实现数字人交互智能能力提供关键技术支撑,从而推动数字人、语音助手等产业进一步落地。本报告梳理AI赋能数字世界主题下的技术与应用脉络,并对未来加以展望。
AI赋能数字世界的技术框架:AIGC+NLP双轮驱动
AI技术为构建元宇宙的生产基座,从技术角度,AI赋能主要围绕内容/形象维度AIGC与智能交互维度NLP展开。AIGC以环境生成“真实化”,形象生成“拟人化”为主要目标,借助AIGC(AI生成内容)替代UGC(用户生成内容)高效完成内容生成和美化;NLP则从广义上倾向于“智能化”、“自动化”交互,支撑技术包括语音识别、知识图谱和语义理解、语音合成、语音动画合成等能力。
图表:AI赋能数字世界技术框架
资料来源:Google官网,OpenAI官网,中金公司研究部
AI将数字世界的内容生成技术由2D引领至3D时代,由手动进入自动建模时代,由真人驱动进入AI技术驱动时代。3D模型是电影、动画的重要要素,通常3D人工建模耗时长、成本高、且高度依赖高端人才,《星海之梦》CG围绕3D空间感展开,城市破碎不足5秒的镜头耗费超2个月的时间完成,可见难以规模化生产,AI是打破这一瓶颈的关键。相比于手动建模,自动建模过程70%以上均由AI完成,其中,AI在赋予内容/形象环节和赋予智能环节成为重要驱动力。
►智能化生成:将AI与CG建模技术相融合,塑造生动数字人形象。传统的数字人形象生成工作流程为“手工作坊”式,需要耗费大量人力和时间成本。通过AI赋能面部绑定及表情生成工具,能够快速、工业化地生成所需要的高质量数字人面部及表情驱动,为元宇宙数字人所需要的逼真化、拟人化打下技术基础。
►智能化交互:将虚拟世界的人和物赋予智慧,以NLP为技术核心,从“能理解”到“会思考”到“有温度”。从深度神经网络(DNN)、递归神经网络(RNN、LSTM)发展到卷积神经网络(CNN),AI技术的变革深刻影响NLP的智能化落地进程。2017年,NLP领域Transformer大模型路线由谷歌提出,以BERT和GPT-3为代表的大模型基本能够实现理解、推理以及生成高拟人化文本,NLP为智能化注入核心动力。
AIGC:实现内容工业化生产、形象拟人化生成的推手
从PGC到UGC,内容生产方式终迎AIGC根本性变革
用户需求多样化、个性化的大背景下,人力创作效率低下成为制约内容生产大规模突破的瓶颈。从需求端来看,随着Z世代年轻人成为内容消费的主体,个性化、分众化的需求对内容生产提出更高的要求。此外,互联网的普及加速了内容的传播,丰富性的内容需求已难以被满足。我们认为,传统内容生产行业依靠人力创作,在高需求下创作者的数量和能力成为制约内容生产行业进一步发展的瓶颈。
PGC、UGC分别被产能和质量所限制,难以满足迅速增长的内容需求。PGC(Professional-generated content,专业生产内容)主要是指由专业化团队生产具备较高质量的内容用以商业变现。为保障质量,PGC往往需要投入大量的研发成本,以国内长视频龙头爱奇艺为例,2021年内容采购成本达207亿元,占总营收的68%。UGC(User-generated content,用户生产内容)将消费者和生产者之间的边界混淆,创作者即为用户本身,降低了生产门槛,社区更为繁荣。以快手为例,2021年MAU达5.44亿人。但正因为创作自由度高,用户搜索优质内容的成本更高,质量难以保证。我们认为,尽管UGC一定程度上突破了PGC的创作瓶颈,但仍然无法满足元宇宙高质量、多样性的内容需求。因此,PGC、UGC各有其局限之处,亟待新的生产方式带来内容变革。
图表:爱奇艺内容成本占收入比例较高,18Q1-22Q1
资料来源:公司公告,中金公司研究部
图表:快手DAU、MAU快速增长,2017-2021
资料来源:公司公告,中金公司研究部
AIGC能够突破人工限制,带来元宇宙所需的丰富多样的内容。AIGC(Artificial intelligence-generated content ,AI生产内容)指通过AI技术来自动或辅助生成内容的生产方式。在AI工具帮助下,所有人都可以成为创作者,通过输入指令使AI自动生成内容,让AI去完成冗杂的代码、绘图、建模等任务。受技术发展所限,目前AI生产内容仍作为辅助人类的角色,需要人类在关键环节做出指令或设计内容,无法真正作为创作者本身参与内容生产。
图表:内容生产路径从PGC、UGC到AIGC
资料来源:A16Z公司官网,中金公司研究部
生成对抗网络GAN不断演进,助力AI生成图像逐步完善。GAN (Generative Adversarial Networks) 主要原理为,将两个神经网络(生成网络和判别网络)相互对立,以提高模型输出结果的质量。通过GAN,计算机可以根据输入的文字描述、图像分割、草图、风格等生成实际不存在的图像,也可以将已有图片根据输入目标转化,肉眼几乎无法分辨真假。我们认为,AI能够将输入的简易指令转化为图像等复杂生成结果,具备支撑元宇宙生成的技术条件。
图表:英伟达PoE-GAN生成效果
资料来源:Huang, X. , Mallya, A. , Wang, T. C. , & Liu, M. Y. . (2021). Multimodal conditional image synthesis with product-of-experts gans.,中金公司研究部
图表:CycleGAN图像转换结果
资料来源:SIGAI,中金公司研究部
AI技术逐步进入无监督学习时代,支撑元宇宙内容生成产业化发展。2012年以前,AI模型大多为针对特定场景进行训练的小模型,无法拓展至通用场景,且仍需要人工调参和大量数据来提升模型精度。随着技术发展,AI可以在图像、文本等多维度上实现融合互补,在无监督情况下自动学习不同任务、并快速迁移到不同领域数据,例如,AI驱动数字人可以利用现实人脸及声音等多维度数据生成形象,生成对抗网络GAN可以通过文字、图像等数据生成环境图像。我们认为,AI技术已呈现出能稳定支持元宇宙内容生产的发展趋势,未来有望突破“小作坊”式生产,助力AI内容生产进入工业化时代。
AIGC逐步落地引擎渲染和表情生成,显著提升元宇宙内容生产效率
AI加持引擎和渲染技术,加速实现元宇宙中大量环境、建筑的构建需求。目前,构建小型场景已具备技术基础,但元宇宙需要高效高质量地建造更丰富、更宏伟的场景。RCT Studio打造的Morpheus引擎能够通过深度学习,输入目标文字即可渲染成3D资源和动画。2020年提出的NeRF能够利用几张静态图像生成多视角的3D动画。我们认为,随着AI技术迭代,能够加速引擎渲染过程,从而满足元宇宙场景构建的高需求。
图表:Morpheus渲染效果
资料来源:GameLook,中金公司研究部
图表:英伟达NeRF新训练成果
资料来源:T Müller, Evans, A. , Schied, C. , & Keller, A. . (2022). Instant neural graphics primitives with a multiresolution hash encoding. arXiv e-prints.,中金公司研究部
深度学习驱动生成面部表情,实现数字人物拟人化关键突破。深度神经网络学习可以驱动建模绑定环节面部表情的实时推理,显著缩短项目流程。2018年,腾讯NexTStudios推出数字数字人Siren(塞壬),制作中“绑定技术”环节耗费接近大半年。2021年,凭借新制作平台xFaceBuilder,新华社、腾讯联合推出数字航天员、数字记者“小诤”,小诤项目发布第一条视频仅耗费不足三个月。
NLP:“智能化交互”的AI技术核心,是瓶颈也是机遇所在
技术视角下,NLP为数字世界中的人物赋予智慧
NLP目的即是计算机系统能够和人类进行自然语言交互,是赋予数字世界人物智能的关键技术。NLP是人工智能领域发展历史较为丰富的技术之一,但由于自然语言的复杂性和多样性,NLP技术成熟度成为了目前人机交互落地及场景层面的瓶颈。2018年前,国内对话式AI多为面向单个任务的框架,以尽可能在单个对话满足用户为目标,在发展上具有上限。根据智东西对竹间智能等NLP公司的管理层调研,任务导向的一问一答阻碍NLP技术的通用性延展。而面向对话全程的框架尽管仍处于发展初期,但未来发展没有明确上限,具备高想象力的延展可能,可以在元宇宙中实现高拟人化的自然语言人机交互。
回溯NLP历史,2012年深度学习在学界引起轰动、2018年大模型Transformer路线兴起是重要里程碑事件。2013年神经网络开始应用于NLP领域,2018年Transformer路线关注度跃升以BERT模型诞生为代表,为NLP历史上的里程碑事件,标志着NLP进入通用性大模型训练的新时代,2019年起,大模型在学术与应用层面全面得到大规模应用。
图表:NLP的技术发展历史
资料来源:量子位网站,中金公司研究部
相较传统NLP模型,Transformer预训练大模型在通用性、动态调整能力和强泛化性三方面均有所突破。传统NLP模型多基于RNN序列模型架构,依赖样本的时序性,带来数据处理时延;Transformer则基于类似CNN结构并加以改进,具备数据并行处理能力且适合捕获长距离特征,能够同时克服RNN和CNN的弱点,提升海量数据的处理效率。
图表:Transformer预训练大模型突破点
资料来源:量子位网站,中金公司研究部
基于Transformer的GPT与BERT标志着NLP大模型路线的开端,自此NLP驶入发展快车道。GPT(General Pre-Training,通用预训练语言模型)利用Transformer作为特征抽取器,基于语言模型的条件概率作为辅助目标函数进行训练,是一个单向模型。GPT在大语料场景下能够显著改善模型效果,在没有任务特定训练的情况下,GPT能够做到初步的阅读理解、机器翻译、问答等,完成大部分NLP任务。BERT同样利用Transformer作为特征抽取器,但与GPT不同的是引入了双向机制,不断地对比上下文语义、句法和词义进行学习。通过自监督学习,BERT能够利用大量非监督的文本,并编码语音知识,应用到下游NLP任务中。2017-18年,GPT与BERT模型的提出,标志着NLP进入预训练大模型时代。
图表:大规模预训练模型Transformer架构
资料来源:AINLP,AI研习社,中金公司研究部
NLP发展到哪儿了?Transformer为NLP带来里程碑式技术飞跃,但NLP仍存在诸多技术和商用瓶颈。从数据标注层面来看,大多数NLP问题主观性比较强,数据标注不一致且耗费成本很高,数据匮乏是NLP领域短时难以解决的问题。从评估层面来看,一部分NLP问题缺乏有效评估指标,目前大多数生成类任务论文中都选择人类主观对生成文本质量进行评估。实际应用中以推荐为例,训练模型时主要关注的指标为查准率等,但最终推荐效果需要从用户实际评价与购买情况中反映。因此不管实验室模型效果如何,在实际应用中仍需要根据反馈不断调整参数、数据或算法等,运营迭代成本较高。从模型进展层面来看,目前绝大多数NLP模型仍是黑盒,可解释性不强,难以获知输出结果与业务知识之间的因果关系。
缺乏独立应用场景是NLP难以孵化大型公司的重要因素。NLP任务更偏向后台技术平台服务的形式,目前NLP公司一般瞄准对话等实际业务的辅助功能,比如智能客服、搜索推荐、机器翻译等,缺乏独立应用场景。换言之,NLP对应场景多样性很高,凡是运用自然语言的地方都是潜在落地场景,场景分散、复杂且不具备高同质性难以扩展。此外,大部分NLP创业公司主要面向B端,虽然不需要C端业务对技术的苛刻要求,但往往业务周期很长,且成本高、可移植性差,也一定程度影响了商业化进程。
NLP支持“智能化交互”,大模型助力跨越商业落地分水岭
技术层面,NLP底层技术基础主要包括语音识别(ASR、STT)、自然语言理解(NLU)、自然语言生成(NLG)技术、语音合成(TTS)和语音转换技术。从AI数字人应用视角,数字人物需要经历“语音转文字-文本理解-生成互动文本-人声输出”主要环节,对智能化的要求不断提升,深度学习带来技术根本性变革。自深度神经网络(DNN)、递归神经网络(RNN、LSTM)至卷积神经网络(CNN),语音领域的智能化、准确度不断提升。2018年起,深度学习进入Transformer时代,NLP技术发展提速。
图表:NLP领域的技术变迁和商业化落地进程
资料来源:智东西,中金公司研究部
近年NLP技术加速发展,有望真正落地智能化交互领域。NLP在深度学习之前发展缓慢,在深度学习Transformer时代后模型能力大幅提升,但应用层面变现场景不足。AI数字人应用中,语音智能化交互作为技术需求基石,能够有效地激活数字人的拟人化和智能化程度,为数字人注入“智慧”,打破NLP落地的瓶颈。2018年,语言建模进入Transformer时代。BERT在2018年机器理解测试SQuAD 中10项NLP测试拿到高分,分数已超越普通人类水平。OpenAI在2020年发布的GPT-3以1,750亿参数量登上文字生成AI新台阶,在个人开发者Kevin Lacker对其进行的图灵测试中,GPT-3能够回答大部分常识及推理问题,表现优异。
图表:Google搜索引擎使用BERT后理解能力大幅提升
资料来源:智东西,中金公司研究部
图表:GPT-3高级别参数量显著提升模型正确率
资料来源:Brown, T. B. , Mann, B. , Ryder, N. , Subbiah, M. , & Amodei, D. . (2020). Language models are few-shot learners.,中金公司研究部
智能化交互发展到哪里了?NLP为元宇宙中的交互环节注入感知与推理 “智能”,从技术来看,智能化交互技术发展远没达到天花板。
从英伟达Omniverse看AI赋能数字世界的道与术
Omniverse是英伟达与元宇宙连接的平台工具,是位于应用软件之下的技术底座和平台工具箱。平台于2020年首次推出,主要应用于仿真;2021年,Omniverse在多行业的“数字孪生”、模拟现实项目落地,背靠英伟达强大硬件实力,Omniverse将英伟达超二十年在图形、模拟仿真、计算和人工智能领域的前沿技术统一整合到一个平台中,标志着对跨行业平台型解决方案的路线布局。
2021年Omniverse Avatar(阿凡达平台)发布,英伟达引入更深层次的AI技术布局元宇宙。Omniverse Avatar将英伟达旗下语音AI、自然语言理解、推荐引擎、计算机视觉和面部动画等AI算法层技术加入数字人生态建设,从而实现结合英伟达基础图形、模拟和AI技术的复杂应用程序,人工智能助手在客户支持(Tokkio)、车辆智能服务(NVIDIA DRIVE Concierge)、视频会议(Maxine)等方向落地。
图表:阿凡达平台是基于AI连接虚拟与现实的技术底座
资料来源:NVIDIA GTC 2022大会,中金公司研究部
图表:英伟达交互式AI数字人在点餐界面的应用
资料来源:NVIDIA GTC 2022大会,中金公司研究部
技术基础:贯穿内容生成到智慧赋予的AI技术工具箱
AI技术为Avatar强势赋能,以数字世界的内容生成和智能交互为主要方向,其中NLP为核心布局点。Omniverse Avatar的关键要素均为AI驱动,包括:语音识别NVIDIA Riva软件开发工具包、自然语言理解Megatron大型语言模型、推荐引擎NVIDIA Merlin系统、计算机视觉NVIDIA Metropolis框架和数字人动画NVIDIA Video2Face和Audio2Face等技术。英伟达布局数字人的功能性核心在于交互,因此,以理解与自然表达导向的NLP技术为AI赋能的布局核心。
图表:Omniverse Avatar的AI赋能框架
资料来源:Omniverse Avatar,中金公司研究部
Avatar的语音识别基于英伟达Riva工具包,由Megatron NLP大规模预训练模型和Merlin推荐引擎共同支持。英伟达Riva是用于语音识别功能的软件开发工具包,可识别各类语言的语音,进一步,也可以将文本转化为拟人化声音输出回应。Riva语音AI在全球范围内技术领先,可通过仅30分钟音频完成数字人的声音的训练。
NVIDIA Megatron:大装置+大模型路径夯实NLP基础
►训练框架:NeMo Megatron为大模型训练打下基础
NVIDIA NeMo Megatron基于NVIDIA Megatron开发,是基于PyTorch的训练框架,可用于训练上万亿参数的Transformer架构大模型。基于用户的繁杂数据,NeMo Megatron框架可以将用户数据加入Megatron大模型进行自动数据清洗和分布式训练,并不断实现大模型的更新迭代。
►大模型:Megatron 530bn成为2021年全世界参数量最大的可定制语言模型
Avatar的自然语言理解能力基于Megatron 530bn大模型。2021年,英伟达和微软联合推出Megatron 530B(又称Megatron-Turing,MT-NLP),截至2021年,该模型是国际上参数量最大的可定制语言模型(LLM),为2021年在GPT-3 170B参数基础上的又一突破。
图表:Megatron 530B成为全球最大参数模型
资料来源:NVIDIA GTC 2022大会,CVer,中金公司研究部
►推理平台:NVIDIA Triton推理服务器为AI模型提供跨平台推理能力
2021年,英伟达创建Triton推理引擎,为世界上第一个分布式推理引擎,为AI模型提供跨平台推理能力。Triton可以自动为模型选择最佳配置,且适用于传统机器学习模型与深度学习模型。2022年,英伟达对Triton进行更新,模型分析器与多GPU多节点性能能够支持Megatron 530B大模型运行,基于2个NVIDIA DGX系统,将处理时间从基于CPU的几分钟缩短至0.5秒,技术层面有效促进了大模型的实时部署落地。
图表:NVIDIA Triton推理引擎加速大模型高效实时部署
资料来源:NVIDIA GTC 2022大会,中金公司研究部
NVIDIA Merlin:为Avatar提供深度学习推荐引擎
Merlin为Avatar平台推荐系统提供助力,能够提升推荐系统的加速和推理速度。Merlin的模型及算法库涵盖自传统机器学习至深度学习的工具,可以处理TB级数据,提供精准预测。基于Merlin框架,Avatar能够在理解、生成语言的基础上,叠加推荐系统,提出更智能的反馈建议。
Merlin框架具备大规模数据处理能力,以支撑深度学习推荐需求。据英伟达CEO黄仁勋介绍,Merlin推荐系统能够大大缩短数据处理时间,将1TB数据集的处理从1.5天缩短至16分钟,100TB数据集可从20天减到4天。
图表:Merlin系统以自研训练框架搭配预处理和推断的流程优化,提供高效数据处理能力
资料来源:NVIDIA官网,中金公司研究部
NVIDIA Metropolis:计算机视觉框架,Avatar的感知能力底座
Metropolis是端到端的计算机视觉(CV)框架,为Avatar提供感知能力。视频分析通过摄像头等传感器设备以及云端深度学习,确保感知能力的准确性和可拓展性。Metropolis框架包括预训练模型和TAO工具套件,降低开发者使用门槛,缩短开发时间。TAO工具套件是NVIDIA TAO平台的核心,用于AI模型自适应过程,很大程度上简化AI/深度学习框架的复杂程度。此外,Metropolis能够跨平台发挥感知能力。基于NVIDIA Jetson嵌入式平台,可在终端完成深度学习推理,充分利用NVIDIA的GPU服务器、数据中心与AI和设计类软件的融合生态。
图表:Metropolis框架及核心TAO工具套件提升感知效率
资料来源:NVIDIA开发者平台,中金公司研究部
NVIDIA Video2Face和Audio2Face:实现AIGC的自动化内容生成
Audio2Face以AI实现语言表情自动化生产,取代美术师工作量。Audio2Face工作原理是依托于音轨制作3D人脸动画,背后由基于大量语音语义与面部表情动画相匹配的AI训练模型支撑。创作端,只需要录制语音音轨即可实时生成面部动画,且能够实现角色转换、拓展输出、情感控制等功能,将面部表情指定给动物,调节面部表情的细腻、夸张程度,由音频输出成动画文件。
图表:Audio2Face利用AI自动生成3D人脸动画
资料来源:NVIDIA官网,VR陀螺,中金公司研究部
AI技术进步推动数字人产业迈入新阶段
数字人(又名虚拟人、虚拟形象),是存在于虚拟世界中具备多重人类特质的数字化人物。数字人以技术为底层驱动力,依托CG建模+真人或AI驱动、多模态技术等核心技术,数字人被赋予人的形象、声音、思想和交互特性。鉴于数字人拟人化的外在与智能化的内在互动特质,数字人被广泛应用于动画电影和服务行业。
数字人产业的发展脉络体现了元宇宙中应用的AI技术演进路线。纵观近年来AI技术发展的关键节点,2012年深度学习技术进入大众视野,使数字人产业从费用高企且耗时较长的CG(computer graphic,计算机动画)制作开始逐步向AI制作过渡,大幅降低了数字人的制作成本并显著提升了制作效率,激发数字人产业蓬勃生长;2018年大模型路线横空出世,GPT、BERT等一系列代表性大模型显著提升了AI的通用性和实用性,能够赋予数字人更高阶的理解、感知、决策能力,使他们在拥有类人外表的同时,和人类产生深度互动和情感连接,推动数字人产业发展驶入快车道。数字人产业的发展脉络能够很好地体现元宇宙相关的AI技术演进路线,是AI于元宇宙中具备标杆意义的应用场景。
图表:英伟达Toy Jensen数字人
资料来源:NVIDIA GTC 2022大会,中金公司研究部
图表:商汤科技元宇宙业务中的数字人
资料来源:商汤官网,中金公司研究部
技术基础:深度学习是数字人发展的分水岭
回溯数字人发展史,以深度学习为代表的AI技术引领数字人步入发展新阶段。数字人由多种技术共同驱动,数字人于上世纪80年代显现雏形,形象以手绘为主;21世纪初CG、渲染等计算机技术逐步取代人工,此阶段以日本二次元少女“初音未来”为代表,具备拟人化的声音和性格,但交互性较弱。随着深度学习(2012)、大模型(2018)等AI技术路线受到学界和业界的认可,AI内容生成(AIGC)、计算机视觉(CV)、自然语言处理(NLP)等人工智能技术将数字人的拟人化和智能化特质带入新阶段,AI合成主播、地产商虚拟销售、能自如与人互动的英伟达Toy Jensen先后诞生。
图表:数字人发展历史和关键AI技术突破
资料来源:CSDN,百度百科,第一财经,央视网,量子位网站,中金公司研究部
依据AI渗透程度,具备深度理解智能与较高自动化水平的数字人可定义为“AI数字人”。根据商汤智能产业研究院,在“拟人化”和“自动化”两个维度上,数字人可被分成L1~L5五个等级,其中L4和L5等级为“AI数字人”。早期数字人拟人化的主要进展在于形象写实和动作协调逼真,AI数字人则是将思想与理解智能注入虚拟实体,在大部分领域具备通用性智能交互能力,AI内核在商业零售、金融服务、文旅政务等领域部分取代人的功能;同时,AI在场景落地的过程中不断产生增量需求和数据,持续反哺迭代算法,打开数字人能力空间,形成正增长飞轮。
图表:数字人的等级划分,L4-L5称为AI数字人
资料来源:商汤智能产业研究院,中金公司研究部
对比国内外,国内AI在数字人中的应用尚处于较初级阶段,国外底层AI技术更为成熟且应用更加广泛。目前国内数字人多为真人动捕驱动,AI技术在数字人上的应用尚停留在模型驱动、赋予初级对话功能的阶段。出于技术限制及互联网文化属性等原因,虚拟偶像/主播及虚拟员工赛道在国内受到较多关注。国外数字人市场起步更早、底层技术更先进,多采用高保真+实时AI驱动方式,在外观真实度和互动智能度上更为领先,应用场景也更为丰富,且相比国内更强调数字人的情感陪伴或生活助理属性。综合国内外发展趋势,伴随AI技术的进一步突破,我们预计未来多模态AI数字人将成为主流,该类型数字人可拥有更高阶的智能,在元宇宙中扮演重要角色。
图表:国内外数字人代表按应用行业分类
资料来源:各数字人官方微博,各公司官网,中金公司研究部
应用案例:数字人商业价值初现,场景落地多点开花
当前阶段数字人的应用主要集中在文娱领域的虚拟偶像/IP,以及特定行业场景中的数字员工。AI技术的进步为数字人发展起到了关键作用,对于虚拟偶像/主播,AI技术能够帮助打造大众喜爱的数字人形象;同时使用中之人驱动的虚拟偶像/IP依然会和中之人形成一对一的绑定关系,其内核和灵魂仍然是真人本身,也存在真人偶像/IP的一系列缺点,而使用AI驱动则不存在上述问题。对于特定场景下的数字员工,AI技术可帮助虚拟员工跨越“恐怖谷”,在外表和动作上更加接近于真实人类,并赋予其初级语言表达以及与人简单互动的能力。
►文娱领域:AI助力虚拟偶像“Eternity”和“yoyo鹿鸣”生成形象和声音
虚拟女团“Eternity”使用AI技术打造类人外表,跨越“恐怖谷效应[1]”。虚拟女团“Eternity”由韩国科技公司Pulse9打造,该公司使用AI技术生成了100张女性面孔,并由网友投票选出其中最受欢迎的11位,于2021年组合成团,命名为“Eternity”出道,然而该偶像团体首支MV《I'm Real》未能跨过“恐怖谷效应”,受到网友评价“让人害怕”。公司对此进行改进并推出成员Dain的出道单曲《No Filter》,收获网友广泛好评,截至目前该MV在Youtube上播放量已超过300万。
虚拟偶像“yoyo鹿鸣”使用AI技术合成声音。米哈游于2020年推出的虚拟偶像“yoyo鹿鸣”,形象为灰发蓝瞳的少女,登陆哔哩哔哩仅三个月粉丝数即破百万。相比于部分虚拟偶像以中之人为声音来源,yoyo鹿鸣于2021年2月在哔哩哔哩发布的一条视频中,其声音为米哈游逆熵科技研究院使用AI技术合成,情感丰富、抑扬顿挫,已达到真假难辨的程度。
图表:虚拟女团“Eternity”
资料来源:官方Instagram,中金公司研究部
图表:虚拟偶像“yoyo鹿鸣”
资料来源:官方哔哩哔哩账号,中金公司研究部
►其他垂直行业:AI驱动数字员工应用于传媒/金融/文旅/体育等行业场景
新闻领域中,央视新闻AI手语主播为听障人士提供手语翻译服务。该AI手语主播由“百度智能云曦灵”数字人平台打造,于2022年2月首次上岗,可做到全年无休、手语可懂度达85%以上。
金融领域中,浦发银行“小浦”引领金融服务新模式。“小浦”是浦发银行和百度联合开发的数字员工,可提供网点业务咨询、短信服务提醒、APP财务顾问等多终端、多场景的金融服务。在客户常用的“账户查询交易”功能中,“小浦”可将用户交互时间从原来的5-6分钟缩短至2分钟,大大提高了人机交互的效率。
图表:央视新闻AI手语主播
资料来源:央视新闻,中金公司研究部
图表:浦发银行数字员工“小浦”
资料来源:第一财经,中金公司研究部
AI虚拟偶像及数字员工已能在特定领域提供媲美甚至超越真人的娱乐及服务,但其陪伴交互、思考决策能力仍有待加强。AI虚拟偶像能歌善舞且在外表上比人类偶像更加精致、完美,AI数字员工无需休息且拥有比人类员工更庞大的知识库、更迅速的知识更新速度等,目前AI数字人提供的娱乐和服务在特定领域已经可以媲美甚至超越真人,但在聊天陪伴和心理疏导等交互场景中大多仍无法实现逻辑较为通顺的交流,在日常服务等场景中仍不能以类人智能理解用户指令并帮助决策。我们认为,随着NLP等技术的发展,未来的数字人将在以上多维度上有所突破。
未来畅想:道术并举,内外兼修
技术演进:内容制作技术和底层AI模型有望不断迭代升级
制作技术进步:虚拟世界数字人“外在”拟人化程度近乎真实
以3D渲染为代表的AIGC制作技术进步将使得虚拟世界和数字人的“外在”更加真实。渲染方式可以分为离线渲染(Offline Rendering)和实时渲染(Real-time Rendering),前者在渲染完毕后再统一播放画面,可以将细节做得十分逼真,达到以假乱真的效果,主要用于影视制作;后者则是在渲染的同时就输出画面,可以实现和画面的实时交互,但由于实时计算对系统资源消耗较大,需要牺牲一定的画面质量,主要用于游戏制作。由于元宇宙需要实现成员和成员间以及成员和环境间的实时互动,高质量的实时渲染必不可少,而AI一方面可以通过加速渲染、提升渲染性能等方式帮助提升实时画面真实度,另一方面甚至可以在无手动干预的情况下生成虚拟世界并自动渲染,均是未来制作技术进步的重要方向。
交互能力突破:数字人的“内在”将更加丰满
以NLP为代表的底层技术突破将使得数字人的“内在”更加丰满。目前数字人在运算智能上已超越人类,在感知智能上与人类愈发接近,但在认知智能上和人类还存在着很大的差距,自主思考和与人交互的能力仍处于较为初级的阶段。例如,当今智能客服还无法取代人类客服,聊天机器人仍存在回答问题模式固定、知识储备较匮乏、多轮对话中不能有效上下衔接等一系列问题。然而我们认为,随着以NLP为代表的多模态、多语言、知识图谱等底层技术的突破,未来数字人的“内在”将更加丰满、智能程度将进一步提升。
►多模态交互:全面、立体地感知世界
多模态交互使数字人更加立体地感知世界,能赋予其类人脑的全面认知。对比人类和机器的语言习得过程,人类婴儿只需经过800万词的学习就能掌握伴随终身的语言能力,而NLP模型则需要经过百亿甚至千亿词语的训练才具备初级语言理解和生成的智能,其中人类以多模态方式学习、机器主要以单模态方式训练是重要原因。例如父母在教孩子“苹果”一词时,会拿着实物或图片并多次重复“苹果”的发音;而机器在学习词汇时则是不断用文本训练。应用多模态学习和交互技术,能够使机器/数字人具备更全面的场景认知和更强的逻辑推理能力,从而与人类更为顺畅地交互。
图表:人类的多模态学习和机器的单模态学习
资料来源:微信AI,中金公司研究部
图表:“紫东太初”为全球首个三模态大模型
资料来源:2021华为连接大会,中金公司研究部
►多语言模型:架起元宇宙的沟通桥梁
多语言模型帮助元宇宙中的人们跨越语言障碍,架起沟通的桥梁。为了真正实现“全球化、无国界”的愿景,元宇宙需要为人们提供跨语言无障碍沟通的方式;同时,数字人作为元宇宙中重要的基础设施,也需要具备提供多语言服务的能力。针对以上需求,多语言模型能够实现多种语言之间的翻译和转换,并向着支持更多语种、翻译准确率提升的方向迈进。
以Meta发布多语言模型XLS-R为例,多语言数字人有望助力突破元宇宙中的语言障碍。XLS-R基于wav2vec 2.0模型进行自监督学习,其训练语音数据量超过436,000小时,是2020年发布的最佳模型XLSR-53的10倍;可识别的语言种类高达128种,是之前模型的2倍;参数数量超过20亿,对比小模型能够更加充分地进行学习。具体表现上,XLS-R基于CoVoST-2语音翻译基准,在21门语言翻译上比之前的水平平均提高了7.4个单位的 BLEU[2] 分数;并对BABEL、MLS、CommonVoice 和 VoxPopuli上之前最知名的语音识别做出了改进,能够将错误率降低14%-34%。我们认为XLS-R模型在多语言翻译方面的突破,使得Meta公司能够更加接近它的元宇宙愿景。
图表:XLS-R显著改进BABEL上的单词错误率(%)
资料来源:Meta AI,中金公司研究部
图表:XLS-R显著提升BLEU语音翻译准确率(%)
资料来源:Meta AI,中金公司研究部
►知识图谱:赋予数字人个性与更高阶智能
通过实现垂直领域的深度学习和知识库的动态更新,知识图谱能够赋予数字人个性和更高阶的智能。知识图谱是一个语义网络知识库,它以结构化的形式描述客观世界中的概念、实体及关系,可以让机器积累对现实世界的大量认知,形成类人的理解和思考方式,从而完成感知层面到认知层面的过渡,使数字人具备个性、情感、加强逻辑推理及与人交互的能力。知识图谱一方面可以帮助机器构建庞大的知识网络,实现知识的快速检索和逻辑推理,使数字人成为垂直领域中的得力助手;另一方面能够让机器持续补充和处理用户端的流数据,实现知识库的动态更新,使数字人与用户更顺畅地交互。
图表:知识图谱示例
资料来源:大数据DT,中金公司研究部
►决策AI:让数字人知人知面更知“心”
决策AI赋予数字人预判用户行为、帮助用户决策的能力,提供知人知面更知“心”的服务。相比于感知AI主要对环境进行静态感知和表示,决策AI则涉及到与环境动态交互,并帮助作出营销、运营、规划等复杂决策。传统上,机器的任务执行和用户的指令发送为一一对应,例如过去某些应用仅会展示完全符合用户搜索内容的结果;而有了决策AI的加持,机器就可以根据用户过去的行为数据来判断其意图和下一步动作,从而为用户提供更加贴心、智能化的服务,例如目前的主流应用均会根据用户的搜索和浏览习惯进行商品和服务的个性化推荐。可以预见,决策AI技术能够赋予数字人预判用户行为、帮助用户决策的能力。
应用方向:AI伙伴陪伴“排忧”,通用虚拟助理帮助“解难”
展望未来,AI伙伴和通用虚拟助理能够与人类产生情感连接、提供个性化服务,二者有望随AI技术进步获得大规模应用推广。各垂直行业内的虚拟客服通常只能就特定问题进行较简单的问答交互,并且面向的用户较为广泛。相比之下,由更高阶AI技术驱动的“AI伙伴”能够在与人沟通交流时不断学习,实现情感陪伴上的个性化,通常以聊天机器人或AI心理咨询师等角色出现,可为使用者“排忧”;从非可视化设备发展而来的通用虚拟助理能够基于用户日常需求提供相应服务,实现生活服务上的个性化,通常以手机及智能设备厂商的虚拟助手拟人化形象出现,可为使用者“解难”。随着NLP(自然语言处理)等AI技术的进步,我们认为二者有望迎来类似于当今虚拟偶像和客服的大规模应用推广期。
风险提示
深度学习等AI技术进步不及预期。数字人等元宇宙基础要素的制作效率及智能程度提升均需AI技术加持。若以深度学习为代表的AI技术未能持续突破,AIGC制作方式应用将受限,可能导致虚拟场景等要素的制作成本高企、效率低下,大规模推广受阻;NLP等关键技术进展将较为缓慢,可能导致数字人等要素的智能程度仍处于较初级阶段,无法为人类提供有效情感沟通及通用服务,商业化应用停滞等。
下游落地应用进度不及预期。AI技术应用于元宇宙要素的生产在国内尚处于较初级阶段,体现为技术表现力欠缺、应用赛道局限。若相关公司因存在成本高昂、相关人才稀缺、内容运营能力较弱等问题未能持续推进先进AI技术应用、拓宽AI技术应用场景,或难以完成如虚拟人向多模态情感陪伴者与通用助理转变等应用升级,导致市场关注度和用户付费意愿降低,下游产业落地应用进度将较为缓慢。
[1] 指人类对机器人的正面情感会随机器人与人类相似度的提升而愈发强烈,但当该相似度达到某一定特定值时,人类对机器人的情感将转向反面,甚至产生恐惧和反感;在该相似度进一步上升,越过恐怖谷谷底后,人类对机器人的好感度又将回升。
[2] Bilingual Evaluation Understudy(双语评估替换),是一个比较候选文本翻译与其他一个或多个参考翻译的评价分数。
文章来源
本文摘自:2022年7月16日已经发布的《元宇宙系列之AI+数字原生:AIGC涌内容生成之浪,NLP筑智能交互之基》
魏鹳霏 SAC 执业证书编号:S0080121070252
于钟海 SAC 执业证书编号:S0080518070011 SFC CE Ref:BOP246
陈星宇 SAC 执业证书编号:S0080121020020
钱 凯 SAC 执业证书编号:S0080513050004 SFC CE Ref:AZA933