AI科学家能不能理解普通人对AI的需求怎么理解?
,作者:Jessica,嘉宾:骆轶航(硅星人创始人)、李沐(BosonAI联合发起人)、宋佳铭(Luma AI首席科学家)、杨安(加州大学伯克利分校增强现实中心执行主任),原文标题:《Boson李沐、Luma 宋佳铭:AI科学家能不能理解普通人对AI的需求,怎么理解?》
从o1到Cursor,再到Canva和Notebooklm,大模型正在快速进入应用落地阶段,所有创业者和开发者甚至研究者都要思考怎么样让这个技术直面用户,更快走入消费者市场。
在加州圣克拉拉刚刚举办的2024华源年会上,硅星人创始人骆轶航与BosonAI联合发起人李沐,Luma AI首席科学家宋佳铭,以及加州大学伯克利分校增强现实中心执行主任杨安进行了一场对话,讨论了今天AI技术在进入消费者市场过程里的挑战,最新的模型发展的新趋势,以及作为创业者在创业一线感受到的冷热变化。
骆轶航:上台前我的一个朋友说,我是来负责拉低这场panel智商的。我非常同意,毕竟我自己不存在PhD或科学家背景,而是媒体和社区出身。但正是这些经历,让我能从不同角度提出一些问题。比如帮大家将前沿的AI研究转化为真正面向消费者的东西,这其实也很有趣。好的,那么首先让我向在座各位提一个问题。
大家作为既热衷于AI学术界又致力于为广大购买的人打造真正AI产品的个人,是如何将前沿AI研究转化为面向消费者的成果?这是你们日常工作的一部分吗?
杨安:我可以先回答。我目前在教育行业工作,而孩子们将成为下一代用户,也是未来公司需要雇佣的劳动力。因此,创新以及如何部署这些创新来真正帮助下一代,是我的关注点。这在某种程度上预示着以用户为中心的设计,我们一定要理解孩子们的需求。
随着技术的持续不断的发展,每个现代家庭的父母都必须成为创新者,家庭里的每个孩子也必须成为创新者,因为旧的学习方式几乎在我们眼前消失了。我们刚刚听到两位教授讲述了如何进入顶尖大学。我知道家长和学生们必须找到新的方法来展示他们的能力和资质。因此,我想发掘更多这样一些方面的内容,希望新技术能够更好地为他们服务。
宋佳铭:从我的角度来说,我认为问题是作为学术界和工业界的从业者,怎么样保持好奇心。两者的衡量标准是不同的,学术界通常是为了发表论文,让你的研究被社区认可,而工业界更多的是关于如何建立产品,并为更多人创造长期影响。因此,虽然两者都需要创新,但在工业界,某些更难的问题反而可以更容易解决,因为有长期规划,而不是专注于学术研究。在Luma我们主要关注产品。和我交谈的人提出了许多难以实现的需求,这对我们研究人员提出了挑战,因为我们当时没有办法解决这样一些问题。但也让我们有机会提出一些从根本上改变现状的新解决方案。
宋佳铭:其实就是双方相互推动。研究人员对什么是可能的有更好的理解,而产品设计师当然有全新的愿景,但有些愿景短期内很难实现。不过他们的愿景确实很出色。因此这更像是在权衡短期和长期的能力。
李沐:过去十年我主要是做AI技术工作,帮助解决不同的问题。大多数是B2B业务,比如帮助像Amazon这样的公司开发新产品,或者帮助初创公司为大规模的公司提供客户解决方案。但几个月前,我认识到,为啥不利用这些技术来解决我自己面临的问题呢?比如,我有两个孩子,我花了很多时间照顾他们。那么是否有可能用技术让孩子们更快乐,或让教育更好?我还考虑到父母,是不是能够用技术帮助老年人?现在的技术已好到足够可以服务于孩子们和老年人。
骆轶航:那么让我们更深地探讨这一个话题。在研究人员和消费的人之间的关系上,你以深度学习的布道者而闻名,那么你接触非AI专业技术人员的经历,是否有帮助你更好地理解人们对AI的需求?
李沐:是的,我一直试图帮助一些特定人群,比如硕士研究生,他们的导师通常忙于写提案,没时间教他们,所以这些学生需要帮助。另外,一些刚毕业进入工业界的学生也面临很多挑战。他们可能没机会接触最前沿的技术,但需要赶上这些新的技术浪潮。所以我考虑怎么帮助这些人,但后来我认识到,很多人并不是真的想进一步探索技术,他们只是把学习当作一种陪伴的方式,享受知识流过大脑的感觉,而不必记住所有内容。这改变了我与孩子们的相处方式。有时候我们不一定要教他们什么,而是一起享受这个过程。
骆轶航:这是你第一次这样表述自己对“布道”的想法。你其实并不是在真正要教会那些观众,而更像是他们的陪伴者,对吧?所以这是否激发了你去做一些类似于AI伴侣的东西?
骆轶航:很酷。那我们继续讨论AI伴侣的话题。你之前在社会化媒体上提到你会做一些与此高度相关的事情。AI伴侣这个想法出乎很多人的意料。因为你之前一直从事其他领域的工作,但现在你和你的团队正在尝试开发一个具备最高IQ和EQ的AI伴侣。那它会是啥样子?它的形态如何?
李沐:这是个好问题。我们目前的重点是AI技术,这只是我们想要模型前进的一个方向。我认为我们现在拥有的技术离最终目标还很远,这个目标是模型或智能体能够像人类一样,甚至并不全是人类,只要足够智能。尤其是对年轻人而言,能够被认作是他们的朋友,要达到这个目标还有很多事需要做。如果你现在看看ChatGPT,甚至是几天前宣布的ChatGPT实时功能,一开始非常令人惊艳,但过了一段时间后,你会发现它还是有很多不足,很多边缘案例处理得不好,它并不真正理解你。
所以,最终我们设想的模型并不全是那种拥有超高智商的家伙。因为在生活中,大多数情况下你不需要重复教导别人,而更多的是情感支持。因此,模型需要非常好地理解人类情感。目前这很难做到,原因是我们缺乏足够的数据。虽然我们有大量编码数据和教科书数据,但我们没足够的数据来理解人类情感和背后的逻辑推理。这使得在建模方面很难,
骆轶航:既然你提到了这些挑战,你认为你们能完成这个任务吗?你们可构建一个具备最高情商和智商的AI伴侣,而其他团队——比如Character AI之前未能实现这个目标——相比他们,你觉得你们的优势是什么?你为什么相信你们能做到更好?
李沐:我并不认为他们失败了,只是遇到了一些问题导致放弃了。Character AI的模型团队去了Google,可能继续开发有关技术,但作为一个企业,他们可能认为这个项目需要五年或更长时间才能实现。因此这并不是成功或失败的问题,而是五到十年的远景。我认为我们需要这样的AI伴侣,因为现在人们变得更加孤独和孤立。过去可能三个人就能组成一个团队,但现在一个人就能用各种工具,比如Cursor、Copilot和ChatGPT,独自构建产品。所以当每个人都可以独立工作时,你会发现没有人可以交谈。未来每个人都忙于自己的工作,没时间听你说话。AI伴侣可以成为你倾诉的对象,总结来说,我认为我们做到了。
骆轶航:好的,那么让我们转向佳铭,仍然是关于面向消费者的内容。不过在此之前,我需要提出一个技术问题,昨天Meta发布了他们的一个视频生成模型,叫做Movie Gen,令人惊讶的是,它舍弃了扩散模型,转而采用了一种新的架构,名为Flow matching。你对这一点有什么看法?毕竟你在职业生涯中做了大量扩散模型的研究。
宋佳铭:我认为在Flow matching、扩散模型以及扩散transformer这些概念之间,人们的理解存在一些误解。首先我要总结一下,流匹配与最初提出的扩散模型框架有所不同,但差别并不显著。它的不同之处在于,相同训练预算下能够在较少的采样步骤内取得更好的效果。不过类似的结果早在Stability以前的论文中就已经展示过,他们使用了一种称为“修正流”(rectified flows)的概念,这实际上与Flow matching的想法非常相似。修正流最初是由德州大学奥斯汀分校张召(Zhang Zhao)教授团队提出的,他们还进一步扩展了该概念。因此这并不是一种全新的模型。
宋佳铭:在扩散模型中,一个非常重要的概念是将噪声与原始输入混合,而流匹配和传统扩散模型之间的差异主要体现在如何混合这些输入,以及在信号与噪声的比例(通常称为信噪比)上的不同。扩散过程通常是从信噪比无限大(无噪声)到信噪比为零(无原始信号)的过渡。Flow matching也在这个框架内,不同的是它在这个过渡过程中的调度和信号缩放方式不同。
宋佳铭:流匹配作为一种算法,可能会加速训练和推理过程,这也是大家在扩散模型中试图解决的关键问题之一。比如我个人之前在解决这个问题时,通过算法改进将推理速度提升了5到10倍,之后还有很多后续工作也在改进采样速度。而与扩散模型类似,流匹配会继续在这些领域中存在,因为它与扩散模型的训练技巧非常相似。至于transformer,它是一种通用架构,目前大模型,比如自回归transformer,在语言模型中广泛使用。所以这些算法和架构虽然有区别,但它们之间是相关联的。流匹配和修正流的影响在于,它们提供了更好的超参数来训练这些模型。
骆轶航:好的,那我们来听听Alan的看法。Alan,你的研究和工业界的商业化非常接近,尤其是在AR或VR领域,并且与你提到的以人类为中心的用户体验设计密切相关。那么你是如何从潜在的AI消费者中学习的?比如那些年轻父母、青少年,甚至是新生儿,他们可能是这类AI产品的早期采用者。你是如何确保你的研究以人类为中心,并且准确达成这些目标的?
杨安:我可以举几个例子。我拿到了计算机视觉方向的博士学位,那是在26岁左右,那个时候深度学习刚刚兴起。大家都知道,随着技术的发展,教授们越来越忙于写论文,可能没有太多时间教学生。我认为,作为教授或者教育行业的从业者,我们唯一需要关注的用户就是孩子、学生,以及他们的父母。我们如何帮助他们?目前我还没有看到任何AI产品能够真正引导孩子们去学习STEM(科学、技术、工程、数学),学生的学习动机仍然依赖于学校、孩子和父母之间的合作。
在伯克利,我们创建了一些项目来激发孩子们对技术的兴趣,比如AI赛车项目。令人惊讶的是,年仅六岁的孩子们已经开始讨论自动驾驶了。我认为,通过这种方式,我们可以让学生们感受到技术的兴奋和价值,从而激发他们的学习兴趣。
在这个AI赛车项目中,我们发现从五岁到七十岁的人都能立即理解赛车的意义。无论是用无线遥控在厨房里操控赛车,还是在赛车场上以150英里的时速赛车,都能激发他们的兴趣。因此,我们的项目吸引了很多有才华的本科生和研究生参与,他们能够看到自己的贡献如何变得有趣和有价值,并将其介绍给父母或未来的雇主。
骆轶航:那么在伯克利,你会遇到来自各种背景的年轻人,他们可能学习文学、哲学、社会学等学科,有些人甚至对人工智能有抵触情绪。你如何看待这个差距?你将如何弥合这些误解?
杨安:我再给你举两个例子。其中一个是我们目前在伯克利正在进行的项目。我们在伯克利有一个顶级领域,叫做TAI,代表教学助理智能平台(Teaching Assistance Intelligence.berkeley.edu)。这个想法是利用GPT技术,为每门伯克利的课程提供24/7的GPT个人助理。要知道,在伯克利,我们有超过5万名学生,很多基础课程可能有上千名学生参与,甚至在多个班次中一起上课。为了给学生提供更好的教育,一个方式就是去中心化教育。而通过24/7的GPT助理,可以让学生在任何时候获得帮助。我认为,下一代对这些技术的抵触会比老一代小得多,就像我女儿,她一发现特斯拉可以自动驾驶,完全没有感到担忧,这对她来说是非常自然的事。我相信,当她长大后,会觉得所有的车都应该自动驾驶,而手动驾驶的车可能会变成她这一代人的“古董”。
当然,这个过程并不能应用于所有方面。比如我们目前正在与高通公司合作的一个研究项目,发现设计师和工程师之间存在很大的鸿沟。假如我们想要设计一个全新的用户界面,这并不是AR或VR的界面,也不是传统的UI,而是基于GPT的UI,类似于电影《钢铁侠》中的贾维斯。我们发现设计师在这一个项目中的第一个问题就是,他们对大语言模型(LLM)如何触发操作系统功能完全没有概念。因此,传统设计师需要接受相当系统的教育才能理解如何将GPT集成到界面中。这是我们在伯克利通过研究长期解决的一个问题,我们应该立即解决这些问题,而不能等到下一代。
骆轶航:同样的问题转向佳铭,想听听你从用户端的反馈,尤其是关于Dream Machine的用户,他们可能是个人创作者或专业的视频制作工作室。我猜测,大多数用户可能需要连续运动的角色,可能持续30秒或更长时间,或者需要更加线D图像,同时希望生成成本能大幅降低。那么这些用户的痛点是可以通过逐步改进来解决的,还是需要从零开始进行新的研究?
宋佳铭:这是个很好的问题。我认为用户的需求非常多样化,而我们实际上是在Dream Machine推出后才真正了解到用户的需求。因此,我们确实在推出时并不了解这些需求。但我们确实从用户的行为中学到了很多,他们的想象力远远超出了我们的预期。我认为有些需求可以通过扩大规模来满足,然而生成视频的成本依然很高,因为视频包含大量像素,并且需要处理庞大的上下文信息。因此,确实需要一些基础研究的改进来进一步降低成本。但我对这个领域的进展持乐观态度,因为我们看到,在过去两年中,语言模型领域的成本大幅下降,而图像生成的质量也显著提高。所以我对未来的进展充满信心。
骆轶航:太棒了!接下来我们再讨论一下未来的趋势。大家怎么看待未来AR或VR设备的发展?比如Meta刚刚发布的Orion眼镜,以及在AR设备中的内容生成和视频生成模型的结合。佳铭怎么看待这样的一个问题?毕竟luma目前没有从事硬件方面的工作。你如何看待视频生成与AR或VR设备的结合?
宋佳铭:我认为视频生成和图像生成在3D和4D生成中非常有用,未来我们肯定会看到更多的4D生成工作。过去一年里,随着视频模型的出现,确实有更多的应用场景,因此它们在AR和VR应用中也非常有用。不过,要想看到广泛的应用,我们确实需要看到这些硬件的广泛普及。
李沐:是的,这是我们与一家大型游戏工作室正在合作的项目之一。他们已经做了很多开放世界的3D游戏,但我们设想,下一代游戏不再需要1000个设计师来编写剧情,而是由逻辑模型自动生成所有的故事情节、角色、事件和互动。这是AI生成的剧情、角色、社会和人类之间的互动,应该是有趣且一致的。
骆轶航:我是三国游戏的超级粉丝,如果游戏中的每个角色都由一个足够强大的视觉模型生成,他们会彼此互动,我们也可以和他们通过自然语言进行对话,会非常有趣。
你们怎么看待多模态模型在实现通用人工智能目标中的作用?早上,李开复在台上谈到了多模态的重要性,他说多模态模型将推动大量的创新应用。你们怎么考虑?
宋佳铭:语言建模中的一个核心概念是可扩展性,基本上是你扩大数据和模型的规模,性能就会变得更好。有些人认为这是一条通往AGI的道路。不过,我们不能无限增加模型规模,但我们大家可以显著扩大数据规模。语言建模领域几乎已经用完了所有的语言数据,正在依赖合成数据生成,但在视频、音频等多模态领域,还有大量的数据尚未利用。因此,我认为多模态AGI的路径在于利用这些海量的数据。
李沐:过去半年,我们在音频多模态领域进行了一些研究,发现现在的问题是,在开始的前一分钟,多模态模型的表现都很好,能够处理情感信息。但一分钟之后,文本模型的表现更好,推理和上下文的处理依然是文本主导。因此,文本仍然是关键,其他模态可以让产品更加有用,但能否显著提升效果,暂时还不确定。