在谈论所谓的 "基础模型 "时,最后这一点很重要,这是目前人工智能领域最热门(但报道不足)的话题之一。

根据2021年的一篇评论文章,基础模型是,"在广泛的数据上训练出来的(一般使用规模化的自我监督),可以适应广泛的下游任务。"

用非学术性的语言来说,就像学习填空练习一样,基础模型以一种后来可以应用于其他任务的方式学习东西,使它们比目前的人工智能模型更灵活。



为什么基础模型是不同的?

基础模型的训练方式解决了人工智能中最大的瓶颈之一:标注数据。

当(为了证明你不是一个机器人)一个网站要求你选择 "所有包含船的图片 "时,你本质上是在贴标签。然后,这个标签可以用来给算法提供船只的图像,这样它就可以在某个时候可靠地自行识别船只。这就是传统上人工智能模型的训练方式;使用由人类标记的数据。这是一个耗时的过程,需要许多人类来标记数据。

基础模型不需要这种类型的标签。它们不依赖人类注释,而是使用填空法和自我生成的反馈来不断学习和提高性能,不需要人类监督。

这使得基础模型对于那些还没有大范围数据的行业来说更容易获得。事实上,根据IBM研究员和IBM AI首席技术官Dakshi Agrawal的说法,根据你要训练基础模型的领域,几千兆字节的数据就足够了。

这些复杂的模型听起来可能与像你这样的用户相去甚远,但你几乎肯定在网上的某个时刻看到过基础模型在工作。一些比较有名的是GPT-3语言模型,它在被输入知名作家的作品后,可以产生非凡的模仿,或者DALL-E,它根据用户的提示产生令人惊叹的图像。

    但基础模型并不局限于人类语言。

除了创造新的娱乐之外,基础模型所带来的灵活性可以帮助加速突破性的医学研究、科学进步、工程、建筑,甚至编程。

新兴的特性

基础模型的特点是两个非常有趣的属性:涌现和同质化。

涌现是指模型所显示的新的意想不到的属性,这些属性在前几代中是没有的。它通常发生在模型规模增长的时候。一个做基本算术推理的语言模型是一个模型的突现属性的例子,这在某种程度上是出乎意料的。

同质化是一个复杂的术语,指的是一个经过训练的模型能够理解并使用英语来完成不同的任务。这可能包括总结一段文字,以著名作家的风格输出一首诗,或解释人类发出的命令(GPT-3语言模型就是一个很好的例子)。

但基础模型并不局限于人类语言。从本质上讲,我们要教计算机做的是找到过程或现象中的模式,然后在一定条件下复制。

让我们用一个例子来解开这个问题。以分子为例。物理学和化学决定了分子只能以特定的配置存在。下一步将是定义分子的用途,如药品。然后可以使用大量的医疗数据训练一个基础模型,以了解不同的分子(即药物)在治疗疾病时如何与人体互动。

    当然,像这样的模型也会产生争议。

然后,这种理解可以用来 "微调 "基础模型,以便它能够就哪种分子可能在某种情况下发挥作用提出建议。这可以大大加快医学研究的速度,允许专业人士简单地要求该模型提出可能具有某种抗菌特性的分子,或可能作为药物对某种病毒起作用。

然而,如前所述,这有时会产生意想不到的结果。最近,一组科学家使用人工智能基础模型发现罕见疾病的治疗方法,发现同样的模型也可以用来发现人类已知的最强大的化学武器。
基础的忧虑

这些模型能带来什么巨变的一个小迹象是,提供 "提示生成器 "的公司如雨后春笋般出现,这些公司利用人类为Midjourney或DALL-E等模型想出提示,可靠地输出有趣或准确的图像。

当然,像这样的模型会产生争议。最近,一些艺术家表示反对使用他们的艺术作品来训练图像生成模型。

还有一个理由是训练大规模模型所需的能源使用。再加上创建一个基础模型所需的大量计算资源,意味着只有世界上最大的科技公司才有能力训练它们。

然而,正如Agrawal所解释的那样,提高这些模型的训练和使用效率意味着它们正以越来越快的速度被更多的人使用--使能源消耗和成本都下降。

这些模型的另一个更基础的(抱歉)问题是,原始模型中的任何偏见或错误都可以转移到用它们构建的工具上。因此,如果种族主义语言被用作语言模型的训练数据,它可能会导致一些令人反感的输出,甚至对有关公司提起诉讼。

避免这种情况的方法之一是通过手动剔除不需要的训练数据,但另一种更有未来感的方法是通过使用所谓的合成数据。合成数据是由人工智能模型生成的基本假数据,以模仿真实的东西,但以一种更可控的方式。这对于确保一个基础模型在学习过程中不摄入任何攻击性或隐私敏感的数据是很有用的。

更先进的人工智能模型会抢走我们的工作吗?

嗯,是也不是。

大多数人工智能研究人员看待这些模型的方式是作为一种工具。就像电动螺丝刀意味着需要更少的时间来组装一个木质结构一样,仍然需要一个人挥舞电动螺丝刀。

以IBM的基础模型Ansible Wisdom为例。在探索是否可以教计算机编程的过程中,研究人员对一个模型进行了微调,以生成Ansible的代码片段,而这些代码片段以前必须由人工编写。有了它,开发人员可以使用自然语言要求模型,例如建议使用Ansible自动化来部署一个新的网络服务器。

Agrawal认为这将彻底改变程序员的工作。

    由于人工智能,整个创新周期将加速。例如,如果你看一下代码,通过使用基础模型,使用第一代基础模型,编码变得更快。我相信在短短几年内,它的生产力会翻倍。

该公司正在与红帽公司合作,将该模型作为一个开源项目发布,红帽公司因分发和维护开源操作系统Linux而最为著名。

这种用途类似于电动螺丝刀。它将一项平凡的任务,用一种工具将其部分自动化,以便更有效地完成任务,节省开发人员的时间,然后他们可以用于更有创造性的工作。

"它可以接管人类今天正在做的活动,而人类只会转移到其他活动上。我认为美国80%的人口曾经从事过农业。现在不到2%(根据美国农业部ERS-农业和食品部门与经济)--人类转向其他活动,与此同时,我们的生活质量也得到了改善,"Agrawal说。

基础模型有可能改变许多现在对人类来说是乏味或重复的过程。它们还提供了为我们所面临的一些最困难的问题创造激进的和未曾预料的解决方案的可能性。实际上,基础模型可能意味着知识创造和应用方式的完全范式转变。关键是要确保这些模型能够被更多的人使用,并有正确的保障措施。