
李彦宏谈AI发展和AI应用
more
李彦宏谈AI发展

各位下午好!非常高兴再次来到上海参加世界人工智能大会。我是这个会议的常客了,经常来。但去年因出国未能参加,上一次参加 WAIC 是在 2022 年。那次大会主题是元宇宙,主办方希望我讲讲元宇宙,我说我还是讲 AI 吧,我讲不了元宇宙。当时我的主题是 AI-GC(AI generated content),我认为 AI 的技术发展路线发生了方向性改变,从过去的辨别式人工智能转向未来的生成式人工智能。这话是在 2022 年夏天讲的,五个月后,ChatGPT 和百度文心一言发布了。后来的事情大家更清楚,两年时间恍若隔世,整个世界都变了,人工智能颠覆了绝大多数人的认知。
2023 年,国内出现“百模大战”,造成社会资源的巨大浪费,尤其是算力的浪费。但也使得我们追赶世界上最先进基础模型的能力得到了建立。去年十月我宣布文心一言 4.0 发布的时候说,文心一言 4.0 的能力跟 GPT-4 相比毫不逊色。好多同行还不以为然,今天大家可以看到国内已经有多款闭源模型声称追平或超越了 GPT-4 的水平。注意,我说的是闭源的大模型,不是开源大模型。这也是今年以来争议较多的一个话题,有些外行甚至混淆了模型开源和代码开源这两个概念。
模型开源,你拿到的是一大堆参数,还是要去做 SFT 和安全对齐。你不知道这些参数是怎么来的,无法做到众人拾柴火焰高。即使拿到对应的源代码,你也不知道它用了多少数据、用了什么比例的数据去训练这些参数。所以拿到这些东西并不能够让你站在巨人的肩膀上去迭代和开发。同样参数规模之下,闭源模型的能力比开源模型更好。而如果开源想要能力追平闭源,就需要有更大的参数,这就意味着推理成本会更高、反应速度会更慢。
很多人拿开源模型来改款,以为这样可以更好地服务自己的个性化应用,殊不知这样就创造了一个孤本模型,既无法从基础模型的持续升级当中获益,也没办法跟别人去共享算力。当然,我也承认开源模型在某些场景下有它的价值,比如说一些学术研究或者教学领域,大家想要研究大模型的工作机制、形成理论,这个时候可能是有价值的。因为大家可能经常听到我们觉得大模型能力很强,但不知道为什么能力强,背后没有理论来支持。所以研究这个东西用开源的没问题。但是大多数的应用场景,开源模型并不合适。当你处在一个激烈竞争的市场环境当中的时候,你需要让自己的业务效率比同行更高、成本比同行更低。这个时候,商业化的闭源模型是最能打的。

当然,这些都不是最重要的。没有应用,光有一个基础模型,不管是开源还是闭源,一文不值。所以我从去年下半年开始讲,大家不要卷模型了,要去卷应用。但是我看到我们的媒体仍然把主要关注点放在基础模型身上,一天到晚到处去跑分刷榜,谁谁谁又超越 GPT-4 了,OPPO 又出来“骚扰”了,又出来 GPT-4 欧了等等。今天这个震撼发布,明天那个史诗级更新,但是我要问应用在哪里?谁从中获益了? 应用其实离我们并不遥远。基于基础模型的应用在各行各业各个领域都已经开始逐步渗透。两个多月前我们宣布文星大模型的日调用量超过了两亿,最近又说文星大模型的日调用量超过了五亿。仅仅两个多月的时间调用量发生这么大的变化,背后代表了真实的需求,是有人在用,是有人真的从大模型当中获益了,得到了价值。
比如在快递领域,让大模型帮助处理订单,做到了一张图、一句话寄快递,不再需要其他繁琐流程,时间从三分多钟缩短到十九秒,而且百分之九十以上的售后问题也都是由大模型来解决,效率提升非常明显。再比如在小说创作领域,一开始用开源模型做出过一些效果,后来改用文心的轻量级模型,经过十轮、上万组数据的 SFT 和 post portraying,结果有了明显提升。最近又转到文心一言 4.0 的版本,仅用了数百条的数据,4.0 就在情节和逻辑方面展现出了非凡的优势,生成的内容无论是可用率还是优质率都大大超过了文心的轻量级模型,网文作者们如虎添翼。 其实更通用的领域,比如代码生成,像文星快码这样的软件,在各个领域也在逐步渗透。百度内部有百分之三十左右的代码已经是用 AI 生成的,代码的采用率超过了百分之四十四。 不过,我们要避免掉入超级应用陷阱,觉得一定要出一个 DAU 十亿的 APP 才叫成功。我认为这是移动时代的思维,在 AI 时代,规律很可能不是这样子。超级能干的应用比只看 DAU 的超级应用恐怕要更重要。只要对产业、对应用场景能产生大的增益,整体的价值就比移动互联网要大多了。
随着基础模型的日益强大,开发应用也越来越简单了,最简单的就是智能体,这是我们最看好的 AI 应用的发展方向。制作一个好的智能体通常并不需要编码,只要用人话把这个智能体的工作流说清楚,再配上专有的知识库,一般就是一个很有价值的智能体了。这比互联网时代制作一个网页还要简单。未来在医疗、金融、教育、制造、交通、农业等领域,都会依据自己的场景、特有的经验、规则、数据等等,做出各种这样的智能体。将来会有数以百万量级的智能体出现,形成庞大的智能体生态。

而搜索呢,是智能体分发的最大入口。刚刚过去的高考季,很多大模型公司热衷于去写高考作文,我用 AI 写一个作文能得多少分。其实这个实用价值不大,人家不会允许你带一个大模型进去参加高考。但是真正的需求是大量的考生在考完之后要报志愿、选择学校选择专业,他们对一所大学、一个专业会有各种各样的问题,而每一个考生情况又不一样。这个时候就需要有一个智能体来回答每一个考生专有的问题。在高峰时期,百度的高考智能体每天回答超过两百万个考生的问题。总共只有一千万的考生,在一天当中有这么大比例的人在利用这个智能体。
AI 正在以前所未有的速度向各行各业渗透。很多人担心,如果我们日常的工作都让 AI 去做了,人是不是就没有工作机会了。这种担心不是没有道理,但是过去这段时间,我听到的担心和抱怨很多,听到的建设性意见比较少。很少有人去致力于发掘生成式 AI 带来的新的工作机会。我算是抛砖引玉吧。我觉得一方面,这次浪潮中 AI 更多地在扮演副驾驶的角色,还要人来把关,AI 只是辅助人工作而不是替代人工作,它让人的工作效率更高、质量更好。另外一方面,我们也看到一些全新的工作机会开始冒出来了,比如数据标注师。过去几年,我们帮助全国二十多个城市落地了数据标注中心,提供了大量的新的就业岗位。再比如提示词工程师,以后不用编程了,但是做好一个智能体还需要把工作流说清楚,这里头要有很强的逻辑性,要用提示词对模型进行调教。随着智能体的大量涌现,这种工作需求也会飙升。这些工作机会通常门槛并不高,做的一般也能够养家糊口,做的好的话,上限可以年薪百万。
自人类文明诞生以来,永不停止的创新就是刻在我们 DNA 当中的。从石器时代的工具到移动时代的手机,再到 AI 时代的大模型,人类不断创造各种工具来改善生活、提高生产力。但它们永远只是工具,只有在被人类所使用的时候才有价值。我们坚定地相信,AI 不是人类的竞争对手。我们构建和应用人工智能技术是为了满足人的需求、增强人的能力,让人类的生活更美好。谢谢大家!