ChatGPT 无处不在。2022 年 12 月,总部位于美国南京的初创公司 OpenAI 发布了这款网页应用,它几乎在一夜之间成为了话题。这是有史以来用户增长最快的互联网服务,在发布两个月后就捕获了 1 亿用户。我的家人都在讨论 ChatGPT。
与 OpenAI 达成了价值 100 亿美元的多年合作,技术现在正被内置到 Office 软件和必应搜索引擎中。搜索引擎霸主谷歌感受到了威胁并迅速作出了应对,它推出了的人工智能聊天机器人 Bard,由 LaMDA 模型驱动。
但 OpenAI 的突破并不是凭空而来的,ChatGPT,是迄今为止历经多年的一系列语言模型中最完善的迭代。
从 1980 年代到 1990 年代:神经网络
ChatGPT 是基于 GPT-3 模型的、由 OpenAI 开发的语言模型。它使用了海量的文本进行训练。
因为文本是由长度的字母和单词序列组成的,所以语言模型需要一种能够理解这类数据的神经网络。1980 年代发明的神经网络可以处理单词序列,而且会忘记序列的单词。
1997 年,计算机科学家·(Sepp Hochreiter)和根·施杜(Jürgen Schmidhuber)发明了 LTSM(记忆,Long Short-Term Memory)网络,这是一种具有特殊组件的神经网络,允许将序列的数据保留更长的时间。LTSM 可以处理数百个字长的文本串,
图片
(来源:STEPHANIE ARNETT/MITTR)
2017 年:Transformers
今天新一代语言模型背后的突破在于,谷歌的研究人员发明了 Transformers,可以跟踪每个单词或短语在序列中出现的位置。
单词的确切含义通常取决于在它之前或之后的单词的意思。通过跟踪上下文信息,Transformers 可以处理更长的文本字符串,并更地得出单词的真实含义。“千层”在句子“一石激起千层浪”和“我爱吃千层蛋糕”中的意思是截然的。
2018-2019 年:GPT 和 GPT-2
OpenAI 的前两个语言模型的发布仅相隔几个月。该公司希望开发多技能、通用的人工智能,并相信语言模型是实现这一目标的关键一步。GPT(Generative Pre-trained Transformer 的缩写)成为了一座里程碑,击败了当时最先进的自然语言处理基准。
GPT 将 Transformer 与无监督学习结合在一起,后者是一种在未经标注的数据上训练机器学习模型的方法。这使得模型可以找出数据中的规律,而不需要人类告诉它它在看。以前在机器学习方面的成果都依赖于监督学习和标注数据,但人工标注数据的效率低下,限制了训练数据集的大小。
引发更大讨论的是 GPT-2。OpenAI 非常担心人们会使用 GPT-2“产生带有欺骗性、偏见或侮辱性的语言”,以至于它不会发布完整的模型,
2020 年: GPT-3
GPT-2 令人印象深刻,但 OpenAI 的后续产品 GPT-3,它模仿人类生成文本内容的能力获得了巨大飞跃。GPT-3 可以回答问题、总结文档、生成风格的故事,在英语、、和日语之间进行翻译等等。它对人类文字和语言能力的模仿是不可思议的。
GPT-3 的提升来自于大幅放大现有的技术,而不是发的技术。GPT-3 有 1750 亿个参数(在训练过程中得到调整的神经网络参数),而 GPT-2 只有 15 亿个参数。GPT-3 使用的训练数据也更庞大。
从互联网上获取的训练文本也带来了新的问题。GPT-3 吸收了它在网上发现的信息和偏见,在用户有意或无意的引导下,它会反过来输出有毒内容。正如 OpenAI 所承认的那样:“经过互联网内容训练的模型就会存在互联网规模的偏见。”
2020 年 12 月:有毒文本和问题
当 OpenAI 忙于与 GPT-3 的偏见作斗争时,科技界面临的遏制人工智能有毒倾向的压力是前所未有且与日俱增的。语言模型可以抛出的文本,是充满偏见的文本,这不是秘密了,解决问题并不在大多数科技巨头的待办清单上。
当谷歌人工智能伦理团队的联合主管·格(Timnit Gebru)与人共同撰写了一篇论文,强调了与语言模型(包括高计算成本)相关的潜在危害时,话题并没有受到公司高层的欢迎。2020 年 12 月,格遭到了开除。
2022 年 1 月: InstructGPT
OpenAI 试图通过强化学习来减少 GPT-3 生成错误信息和攻击性文本的数量,它根据人类测试员的喜好训练了一版模型。成果名为 InstructGPT,它可以地遵循用户的指示——这在人工智能术语中被称为“对齐(alignment)”——产生更少的攻击性语言,InstructGPT 不会表现得像混蛋,除非用户要求它这样做。
2022 年 5 月-7 月: OPT、BLOOM
对语言模型的常见批评是,培训的成本高得可怕,除了世界上最有资源的实验室和公司之外,所有机构都难以建立模型。即如此强大的人工智能是由企业团队闭关造出来的,没有经过适当的审查,也没有获得更广泛的研究社区的反馈和支持。
一些合作性的项目也开发了语言模型,并将其免费发布给任何想要研究和改进技术的研究人员。Meta 创建并开源了 OPT 模型,重建 GPT-3 的产品。Hugging Face 领导了由大约 1000 名志愿者组成的合作联盟来打造和发布 BLOOM 模型。
2022 年 12 月: ChatGPT
ChatGPT 的爆火让它的创造者 OpenAI 也感到所震惊。在 ChatGPT 发布的前一天,我有幸拿到了 OpenAI 发给我的演示,公司给它的定位只不过是 InstructGPT 的更新版本。
和 InstructGPT 模型一样,ChatGPT 的训练方法是使用来自人类测试者的反馈,而测试者对它的看法是流畅的、的、无攻击性的对话者。
这更像是 OpenAI 训练了 GPT-3 地掌控对话游戏,这场有趣的游戏吸引了数千万人。