2014年的时候,我在互联网企业里做内容工作,当时业内很流行凯文·凯利的“一千个粉丝”理论,相信“找到一千个种子用户,产品就能够活下去”。
找到种子用户干嘛呢?核心KPI之一,就是鼓励他们创造内容,提高平台的UGC数量与质量。
普通人也轻松能创作的图文短视频,用爱发电的同人衍生,极具创意的鬼畜视频……UGC(User-generated content用户生产内容),以高效、丰富、多元的产出方式,和PGC(Professional-generated content专家生产内容)、OGC(Occupationally-generated Content职业生产内容)一起,让互联网数字内容呈现出前所未有的繁荣多彩。
一个时代有一个时代的主题,如今业内流行的内容生产模式,则是AIGC。
AI-generated content,字面意思是AI生产内容。AI写诗、AI作曲、AI绘画、AI换脸……甚至有创始人认为,游戏中导入图片生成模型的“捏脸系统”都是AIGC。
那么问题来了,让AI替人舞文弄墨,对话交互问答、创意写作、生成诗歌图文或是以假乱真的视频,不都是旧新闻了嚒,都属于自然语言生成Natural Language Generation (NLG)的应用,是NLP自然语言处理技术的一大类任务,已经应用将近30年了。
怎么突然就以AIGC的概念成为资本热捧的对象呢?
故事恐怕还是要从“元宇宙”说起。
AIGC,到底生产的是什么内容?
在内外网搜索 “AIGC”时,精准匹配的是简体中文信息,而英文AI-generated content一词,在海外平台主要还是以自动化生成文本的NLG技术为主。所以,AIGC应该是一个在中国率先流行起来的专有名词。
目前为止,与AIGC相关的创作类型主要有三种:
1.内容平台的一种自动化作业方式,比如CCTV的AIGC平台,就包括智能采编、模板生成、画质优化等等;部分语音类app,通过语音合成 (TTS)技术,提供文本自动转语音的能力;流媒体平台,通过算法对画面画质进行优化,提高清晰度等等。
2. AI科研机构的多模态应用,实现内容生成。比如中科院自动化所的跨模态通用人工智能平“紫东太初”,就能够做到“以图生音”“以音生图”。百度文心大模型的“AI画家”,则在前不久的元宵节,生成与地点相匹配的专属画作。
3. 科技企业及创业公司的数字人、虚拟人制作。通过自主开发、平台开发等形式,合成全新的人物形象,与用户开展互动。比如AI手语主播,通过AI算法将文本转化为手语信息,为听障朋友提供服务;品牌代言人,火星车数字人祝融号跟广大用户进行互动;虚拟偶像,通过生动的表情、动作、语言等展示才艺,与粉丝对话;以及智能客服、游戏陪玩等等。
通过上述AIGC应用,或许不难理解,为什么NLG往往依靠夸张新闻点(比如deepfake)偶尔进入大众视野,而AIGC一词出道即爆红了。
小红靠捧,大红靠命:AIGC的“含科量”有多高?
如前所说,自然语言生成NLG作为AI创作内容的一种主流方式,此前在大部分时间内都是行业内自娱自乐,偶尔凭借“换脸”之类的奇趣新闻火一把,但仅此而已。
而AIGC这一概念,在当下能够迅速走红,可以说是时也、运也。
首先,深度学习技术本身不断迭代,能够生成更具个性化、拟人化的内容。
随着自然语言处理技术的不断发展,近年来AI的阅读理解创作能力进步飞快,已经达到了惊人的水平,技术成熟给了AIGC广泛应用的基础。
随着AI模型GPT-3的问世,机器已经能够达到人类小学的阅读写作水平,顶级AI企业的中文普通话识别准确率能够达到98%以上,多语言、小语种、方言的识别率也不断升级。此外,情感计算、因果计算、知识图谱、元学习等多种技术开始被引入深度学习,大幅改善了人机交互的自然感。
这些新成果应用在内容创作上,就是大家能看到AI写出更流利通顺的文章、用更自然的音色去朗读一本书、更声情并茂地跟人对话、对用户输入的语句理解的更准确,一句话,终于开始摆脱“人工智障”的标签了。
第二,AI基础设施不断发展,多模态大模型的相继成熟落地。
如果只是生成单一的内容,那么AIGC或许还不至于让见多识广的大众眼前一亮。而多模态大模型的出现,让融合性创新成为可能。
多模态大模型,既需要具备NLP(自然语言理解)大模型、CV(计算机视觉)大模型等的能力,理解语言、视觉的内容,还要能够跨模态生成全新的内容,由此带来了非常多的创意空间。比如通过一部小说的文字描写,生成故事画面、人物形象、环境布景等,可以帮助创作者大大节省时间。
正因如此,多模态大模型需要处理的数据类型多,规模量大,模型参数已经达到千亿级别,需要庞大的算力来支撑。得益于全国多地对AI基础设施的重视和建设,才能够让多模态应用达到比较好的效果,进而支撑AIGC创作业态的进一步发展。
此外,AI平台化的生态搭建,以及充足广阔的产业实践空间。
大模型虽好,对于很多企业和创作者来说,想要自己从头开发一套大模型用来进行AIGC既不经济、也不现实。这时候,AI平台化、民主化就变得至关重要。
去年推出的许多多模态大模型,如紫东太初、文心、M6等,都通过AI平台进行开源,可以直接调用并通过云端算力进行训练。一些科技企业也将数字人技术开源开放,这些动作大大降低了企业和创业者的开发门槛,创作效率提升,进而助力高质量AIGC变得普及。
目前,南京、武汉等地,已经开始形成多模态应用的产业集群。而千行百业的数字化、数字经济的持续发展,也给予了AIGC前所未有的产业空间与实践场景。比如此次受资本追捧的一些AIGC公司,就瞄准了“游戏+AI”场景,通过算法生成数字人、语言互动等方式,满足玩家在虚拟世界中个性化、定制化的体验需求。而更多的产业实践,也会源源不断地产生新的数据,推动算法的迭代升级。
AI产业化和产业AI化的发展,当下已经能够支持内容创作的大变革,AIGC的流行,自然也就水到渠成了。
“含资量”不低,警惕AIGC的虚火
AI创作的大行其道,是科技发展到一定水平后的必然现象。但资本热捧,许多投融资消息突如其来,却给“AIGC”一词添上了一种别样的味道。
为什么说是“突然”呢?如前所说,AI写诗之类的NLG应用并不罕见,但一直没有被以“AIGC”一词整合包装起来。2021年7月,一位股民询问拥有虚拟数字技术开发业务的丝路视觉:在AIGC技术上是否有储备或应用?结果被该企业发言人直接反问:啥是AIGC?显然,当时“AIGC”一词就连从事相关业务的企业高管都不熟悉。
而在某问答平台上,关于“AIGC未来会扮演什么样的角色”的问题,只有一个回答,来自某投资机构,而该机构正是某AIGC沙龙的组织方,参与讨论的创始人也主要描绘了一种核心的AIGC应用场景,那就是元宇宙。
而刚刚拿下千万美金融资的某AI公司,正在布局的AIGC领域也聚焦在虚拟人技术,为游戏行业提供基于AI的智能NPC、自动化QA、对话系统和AI陪玩。完成1亿美元融资、由红杉中国领投的某独角兽,核心产品则是AI bot,表示希望作为虚拟世界的先锋,围绕元宇宙开展多维度的基建。
从这些脉络中不难看出,AIGC技术本身很真实,但长期以来一直处于默默发展、偶尔出圈的状态。能够在近期快速成为一个风口、一种网红概念,与元宇宙的爆火、资本的动向,不无关系。
在这个新故事中,一般会有如下逻辑:1.元宇宙需要很多数字人、需要个性化的数字环境;2.这些内容光靠人来开发周期太长,需要更高效的生产方式;3.AI的能力就是提质增效,适合用来创作;4.所以,AIGC有前途。
归根结底就是,元宇宙要火了,AI能做。
AI能做是真,但元宇宙到底啥时候火,可就没个准数了。
我们此前探讨过,作为一个复杂庞大的技术集群概念,元宇宙依赖很多技术的成熟,距离真正成型还很遥远。在这一天到来之前,没有人能清楚地定义什么是元宇宙,自然也不可能量化出到底需要多少虚拟人、数字人。那么,为了元宇宙而生的AIGC,到底价值几何,可能就跟元宇宙一样,是个见仁见智的玄学了。
既然AIGC的走红是技术发展的产物,那么它的上限,自然也要受到技术规律的约束。诚然,AI的发展给内容创作带来了很多可能,但技术也决定了很多内容依然是AI无法做到的:
首先,AIGC的内容质量有待提升。
OpenAI用于编写内容的通用GPT-3模型发布之后,很多内容机构都基于它开发了相应的创作模型。目前来看,主要应用还是一些重复枯燥工作的自动化,以CCTV的AIGC平台为例,主要是自动完成挖掘新闻热点,将新闻报道数据进行深度关联、辅助编辑选题策划,基于模板快速生成海报图片图表,智能生成内容标签,修复历史视频等等。
一些用于生成内容的AI编写器,创作能力实在是不太行。要么只能用于生成一些符合SEO(搜索引擎优化)的营销内容,比如YouTube视频标题、Facebook广告标题、GoogleAds标题和描述、亚马逊产品描述等等,主要是更通顺地把关键词堆叠在一起,你不会觉得某宝的宝贝标题就是一篇“大作”吧。
要么是由机器学习黑匣子生成的博客文章。对于这类文章,平台们往往也会提醒,AI无法复制情感,没有灵魂、同理心、经验等细微差别。所以也会建议使用AIGC工具的创作者,雇用人类作家来校对这些工具创建的内容。
所以至少目前为止,AIGC能提供很多帮助,但还是无法取代人类创作者的。
这是我用一个海外AI一句话生成器写出来的文章,可以说是前言不搭后语,大家给它打几分呢?
其次,AIGC的交互能力还不够自然。
虽说NLP技术有了极大的进步,人工智能聊天机器人可以帮助企业与潜在客户聊天、给辖区居民拨打电话、为电商平台用户提供售前售后咨询服务……但想必大家依然还是能够很明显地区别出,对面到底是真人还是聊天机器人。反正我本人,如果需要完成一些复杂的交流和操作,都会一开始就输入“人工客服”“找人工”等命令,而不是跟智能客服在那里“鬼打墙”。
目前,基于AI技术的人机交互还需要漫长的试错、实践、积累、迭代,更适用于一些重复率高、流程标准化、对专业度或灵活响应度没那么高的交流。比如在智能音箱里跟主人闲聊,作为虚拟偶像满足粉丝的基本情感互动需求,或是在电商场景里作为主播“念稿子”直播带货。
这里面其实已经有非常大的想象空间了,虽然距离“元宇宙”中那种“和真实的人一样”的愿景还有距离。
从应用前景来看,“含科量”满满的AIGC,打开了内容创作的想象力,将会给包括虚拟人、数字人、图文音影游等各种应用创新带来可能。
在广阔的产业和个人消费市场,AIGC正等待着展翅高飞。而“含资量”不低的AIGC风口,当元宇宙的热潮退却后,又会有多少裸泳的人,就需要时间来告诉我们答案了。
关键词: