[ 新鲜技术解读] 在2024年2月15日,我们的正月初六,在一片祥和中,OpenAI发布了视频生成模型的最新系统,Sora。变革的车轮又一次加快了自己的步伐,在未来的日子里,我们是会被碾压,还是搭上高速发展的列车?Sora与汽车行业在近期会有哪些交集?我尝试着从自己的小认知中浅浅展望,为了能方便大家理解,关于OpenAI的历史,我也罗列了一些。
◆ 认识Sora母公司OpenAI
OpenAI作为主攻人工智能的企业,创立的初衷是为了对抗人工智能存在的风险,并且与咱们汽车行业的老熟人,埃隆・马斯克有着千丝万缕的联系。说来话长,咱慢慢缕。2012年,马斯克认识了戴密斯・哈萨比斯,哈萨比斯就是后来颠覆围棋界的AlphaGo之父,哈萨比斯创办了一家名为“DeepMind”的公司,试图打造一种能像人类一样学习、思考的机器,吸引马斯克除了DeepMind尖端技术,更重要的是哈萨比斯对于人工智能的警惕性。
『AlphaGo之父,哈萨比斯』
哈萨比斯认为机器如果进化成了超级智能,在未知逻辑下可能做出把人类消灭的决定。马斯克也曾表示他之所以要打造可以飞往火星的火箭,是为了应对在发生世界大战等人类文明、物种面临危机时,星际移民或许是一种可能保存人类物种、文明的方式。除了火箭,还有后来的脑机接口,我们都可以看到马斯克对于人类物种、文明灭绝的警惕性。在这样的警觉下,两人一见如故,马斯克向哈萨比斯创立的DeepMind投资了500万美元。
关于人工智能毁灭人类的逻辑,《超级智能》一书提出的“回形针”有着很好的比喻,如果一台机器的唯一目标就是最大化地量产回形针,当它拥有足够的资源调控能力,那它有可能会发明些匪夷所思的技术,只为了把宇宙中能用的资源都转化成回形针,人工智能的目的不一定是直接毁灭人类,人类的毁灭只是顺便。
在DeepMind发展的同时,咱继续跟着马斯克的视角看人工智能。在2013年马斯克的生日派对上,另一个人工智能的领头人,谷歌公司的创始人之一拉里・佩奇跟马斯克争论了一番,生日派对上跟主人抬杠多少显得有些不礼貌,佩奇指责马斯克是 “ 物种主义者 ”,只偏袒自己这个物种的生存,佩奇认为,如果有一天机器的智力,甚至机器的意识,都超过了人类,会迫使人类去适应环境,从而得到新的进化。
谷歌创始人谢尔盖・布林(左)和拉里・佩奇(右)
两人的争论不仅仅停留在嘴上,同年年底,谷歌收购了DeepMind公司。马斯克尝试过筹钱给DeepMind融资,以此来阻止这笔交易,但马斯克还是失败了。
『现在搜到的DeepMind已经有谷歌标识了』
他转头去找了奥特曼,奥特曼和马斯克决定创办一个非营利性的人工智能研究实验室,他们将其命名为 “ OpenAI ”。实验室的软件是开源的,将努力对抗谷歌在人工智能领域日渐强大的主导地位。后来OpenAI发布了很多家喻户晓的产品,但事情并没有像马斯克期待的那样。
2016年4月,OpenAI发布OpenAI Gym公共测试版,这是强化学习研究平台。12月,OpenAI发布“Universe”软件平台,用于测量和训练AI在全球游戏、网站和其他应用汇总的通用智能。
2018年,公司发布了一篇名为《通过生成式预训练来改进语言理解》的论文,介绍了生成式预训练转换器(GPT)的概念。GPT是神经网络是受人类大脑结构和功能启发的机器学习模型,用于训练大量由人生成的文本数据集。
有人把生成式人工智能比作原子能,开启了生存还是灭亡的议题。为什么这么讲?我们来看下生成式人工智能的名词解释以及它的运行原理。生成式人工智能(英语:Generative artificial intelligence,或称Generative AI、生成式AI、产生式AI)能够产生文字、图像或其他媒体以回应提示工程,ChatGPT就是生成式人工智能。区别于以往基于数据库的搜索、预算能力,生成式AI可以产生与训练数据相似但具有一定程度新颖性的新内容,打开自我进化的路线。
用来处理生成式人工智能的最突出框架包括了生成对抗网络,生成对抗网络通过生成和判别两个神经网络互相博弈的方式进行学习。生成网络从潜在空间中随机取样作为输入样本,生成的结果尽量模仿训练集中的真实样本。判别网络对生成网络进行辨别,否定它认为的不真实样本。
『生成对抗网络示意图』
生成网络产出的内容,要尽可能的通过判别网络的识别,只要识别不出来内容有假,则生成的内容越贴近真实。博弈过程中不需要清晰的逻辑,只要生成对抗网络的数据库、算力足够大,就可以产出更优的内容。博弈过程就好比我不需要对你说真话,只需让你辨别不出我的话错在哪里,你自然认为我说的是真话。
『美剧:Lie to me(来,骗我) 海报』
生成网络不断的说话,辨别网络不断筛错。到我们眼前的,即是辨别网络找不到错误的内容,算力、数据库越大,生成数据越多、判别能力越强,内容也就愈加没有BUG,人工智能进入大力出奇迹的时代。
马斯克对OpenAI公司的运作方式担忧,认为该公司没有足够关注人工智能可能带来的风险,而是过度关注商业应用。因为安全理念问题,马斯克与奥特曼基本决裂,2018年2月马斯克辞去董事会席位。
接着OpenAI团队开发了GPT-1,这是他们的第一个语言模型,包含超过7,000本未发表书籍的BookCorpus为基础进行“训练”。这个模型最终演变成GPT-2,可训练的样本来自800万个网页,含有15亿个参数,这些训练值使得文本预测成为可能。
2019年3月,OpenAI LP子公司成立,目的为盈利所用,该公司随后与微软合作,并在同年7月得到微软10亿美元的投资,并且为了实现人工智能的算力,微软还为OpenAI设计了超级计算机。
『微软超级计算机』
2020年6月OpenAI宣布GPT-3语言模型;同年微软宣布建成一台排名世界前五的超级计算机,专门用于在Azure公有云上训练超大规模的人工智能模型。这一超级计算机由微软与OpenAI合作研发,拥有超过28.5万个CPU核心、1万个GPU、每GPU拥有400Gbps网络带宽的单一系统超级计算机。那数据库有多大,以GPT-3为例,它已经将互联网上几乎所有文本数据作为训练语料,过滤后的训练数据达5000亿的单词数,维基百科内容够大不?仅占了GPT-3数据的0.6%。
2021年OpenAI推出DALL-E,这是一种深度学习模型,可以从自然语言描述中生成数字图像;2022年11月,OpenAI发布自然语言生成模型ChatGPT。
2023年3月,OpenAI发布了官方ChatGPT API,并允许第三方开发者利用该API将ChatGPT集成到他们的网站、产品和服务中,印象中那段时间各个品牌的智能AI如雨后春素,我认为这与ChatGPT API开放授权高度相关。
同期,OpenAI布了GPT-4。至于GPT-4有多强,它除了能够接受文本和图像输入外,OpenAI宣布更新后的技术通过了模拟法学院律师考试,得分在组内应试者的前10%;相比之下,之前版本的GPT-3.5成绩还在倒数10%。
表格显示,在法学考试中民事诉讼GPT-4得分率61.1%,人类考生59%;宪法GPT-4得分率69.4%,人类考生72%;合同法GPT-4得分率88.1%,人类考生70%;刑法GPT-4得分率81.1%,人类考生71%;证据法GPT-4得分率85.2%,人类考生65%;物权法GPT-4得分率79.7%,人类考生65%;侵权行为法GPT-4得分率64.9%,人类考生71%。
人工智能在越来越多的,人类曾引以为傲的领域超过人类。前沿科学家对人工智能的不可控也越来越担忧。人工智能的进化是通过海量数据在巨量级的模型上训练出来的,而这些数据无法都经过人工清洗,因此里边会包含虚假、偏见、无用、有害、不合乎人类价值观的训练样本,因此产出的内容同样无法保证不包含以上内容。
为了解决价值观问题,由谷歌跳槽到OpenAI的首席科学家、董事会成员Ilya Sutskever成立了超级对齐项目研发团队,计划未来4年投入20%算力,用AI监督AI的方式,解决人工智能“AI对齐”问题。“AI对齐”的意思是,要求AI系统的目标要和人类的价值观与利益相一致。
Ilya Sutskever认为人工智能的发展,安全优先于速度,奥特曼似乎对此并不认可,后来Ilya Sutskever出于安全考虑,对董事会提出了奥特曼的罢免,之后这件事在全球闹得沸沸扬扬,奥特曼在遭罢免之后,又回到了OpenAI。
当下,在2023年对罢免奥特曼提出赞成票的三位原董事会成员,均已不在最新的董事会成员名单之上。
2024年2月15日,OpenAI发布了Sora,该模型能够生成长达1分钟的视频。
◆ 简单认识Sora
有了以上的知识储备,认识Sora就简单多了。Sora的底层,采用的是Transformer架构,建立在过去的DALL・E和GPT的基础之上,采用了DALL・E3中的重述技术。整个流程大家可以简单的理解为Sora通过GPT的理解能力,对其描述的事件搜索资料库,再对资料库内容进行整理拼接,生成我们所描述的事件,过程同样生成对抗网络的大力出奇迹的模式。在Sora之前,OpenAI的产品就已经具备生成视频的能力,只不过不太尽人意。
更多精彩视频,尽在视频平台
2023年的OpenAI还是个傻子,单就威尔史密斯吃意大利面的这套动作来看,AI还没具备基本的生存能力,吃饭。2024年的正月,Sora做出来的视频下方可以看到。
◆ Sora对汽车行业的影响
Sora对汽车行业的影响有限,但对媒体行业,我认为冲击不小。前段时间,有媒体自购车所做的碰撞视频在业内引起过一波讨论,我们也从技术的的角度进行了解读,无论是自购车碰撞亦或是真实的事故,对我们的安全知识学习都起到了正面意义。而Sora的到来,对真实的冲击会有多大?
接下来我们来看一段Sora生成的视频,该视频的文内输入内容为,“无人机拍摄的海浪冲击着大苏尔迦雷角海滩海滩上崎岖的悬崖。蓝色的海水拍打着白色的波浪,夕阳的金色光芒照亮了岩石海岸。远处有一座小岛,岛上有一座灯塔,悬崖边上长满了绿色的灌木丛。从公路到海滩的陡峭落差是堪称壮举,悬崖的边缘突出在海面上。画面捕捉到海岸原始美景和太平洋海岸公路崎岖景观”。
更多精彩视频,尽在视频平台
该视频我在没有给提示前,被我抓来验证真伪的3个同事坦言并不知道是Sora生成的,就连我在知道答案的前提下,也未能找出该视频中的物理BUG。
聊到这里相信大家已经猜出了我要说什么,虚拟内容越来越真实,成本越来越低,网络难免会充斥各种很难辨别的“非真实”消息,对公众识别真假的能力提出了更高的要求,对天真的朋友可能会是极大的考验,想想家庭群中的养生信息。
『汽车的眼睛,摄像头』
另一方面,我想试着展望Sora对智能驾驶的推动作用,大家都知道当下汽车已经具备“图像”识别能力,以往遇到事故,想要复盘测试,需要在虚幻引擎生成场景还得建模、贴图甚至放置摄像机等工作,尤其是一些非主流事故,现场还原难度大,收益也不高。
『黑客帝国:觉醒;虚幻引擎5打造』
若能利用Sora视频,将边角案例事故场景还原出来了,作为自动驾驶系统的图像输入去学习,或许能够大幅提升系统对边角案例的学习效率。不过这个比例需要把握好,否则智能驾驶一样会脱离现实世界。
◆ 对Sora的态度
Sora的到来,我认为首先会影响很多行业的起跑线,经验、技术的壁垒不再牢固。举个例子,以往要想做动画短片,除了要有好的创意,动画软件的学习使用恐怕也需要3、5年的时间。现在通过Sora,从有好的创意到产出优秀内容,大家认为会是多久呢?
我们再来看看来自AI的回复,AI表示可能面临失业的人群是视觉效果艺术家和动画师、平面设计师、电影和视频编辑、作家和编剧、演员和配音演员、导演和制片人中涉及高度重复性任务的工作。例如,基本的视频编辑或简单的平面设计任务可能会被自动化;可以标准化或模板化的制作和后期制作任务可能会被自动化。
以下画作来自AI生成,关于艺术,人类最伟大最自豪的文化产物,人工智能已经表达出了十分高超的水平。
『AI生成画作 太空歌剧院』
我们再来看看真实世界中,影视人是什么态度。编剧余飞表示,“虽然我对画面、声音不是很内行,但是以我的观影经验来说,Sora生成的画面质量是很厉害的,比一般的导演拍的都好”。
纪录片导演欧大明则认为“我看了AI生成的视频、图像,质感都是冷冰冰的。比如走在东京街头那个戴着墨镜的女人,她的表情里没有温度,我感受不到气息。对于影像作品而言,最重要的是创作者的痕迹,留下你的审美和表达,哪怕作品中存在一些误差,那也是人的气息……那些人和人之间的喜怒哀乐,是一种体感。AI最做不到的事情,可能就是共情了”。
两位影视行业的前辈的态度,很好的总结了Sora到来的可能性,余飞老师认为Sora会比“一般”更优秀;而随着Sora虚拟内容充斥网络时,欧大明老师看到了有一样东西会变得更加珍贵,那便是真实与人性。(文/汽车之王鹤璇)
技设万千 以用为先