我们之前提到,物理符号系统的一个重要方法论是:先把问题形式化,然后从中归纳出算法。这样一看,尽管理论很美好,但现实却很残酷。有些问题即使可以被形式化,也无法找到对应的算法。原因有两点。第一,程序没有明确的目标。我们能让机器帮我们解决问题,却不能告诉它为什么需要这么做。机器不会开口问你,也无法确认自己是否“做对了”,它只会傻乎乎地执行指令,而无法评估完成的质量。就像下雨了,人们想找地方避雨,可能是因为不想淋湿,可能是为了保持衣服干净,甚至可能只是为了不弄乱发型。早期的机器翻译就是因为目标缺失而闹出了不少笑话。比如,将“小心地滑”翻译成了“Be careful to slide”。这些翻译之所以滑稽又令人尴尬,就是因为程序在翻译时缺乏具体语境,只能机械地按照字典中的词语翻译。第二,受到当时算力的限制,程序无法解决复杂任务。怎么定义“复杂”呢?拿国际象棋来说,程序能打败大师是因为游戏规则相对明确,每一步通常只有35种选择,只要提高运算能力,就能解出答案。但是放在围棋里就行不通了。围棋的复杂程度比国际象棋高多了,且不说格子变多了(棋盘上有192=361个点),每个点上还都有黑子、白子、无子三种可能性,所以不同的围棋局面总数是3361,这已经是一个大得难以想象的数字了。更复杂的是,围棋每走一步之后,大约会出现上百种合理的选择,国际象棋的35种跟它一比简直被打回了幼儿园水平,更何况,每多走一个回合,这一数字还会暴增一倍。围棋有多少种可能?10的几百次方。这是什么概念?有人打过一个非常直观的比方,晚上抬头看见天上的星星,不管是恒星还是行星,把组成这些星星的原子数量拿过来,都没有一盘围棋的变化数量多。
首先,科学家发现,原来大脑不是信息处理的唯一器官,还有一个器官也起到了重要作用,那就是眼睛。一开始,大家以为眼睛只是起到传输的作用,即把外界的光变成信号传到大脑里,然后由大脑负责解释这个物体是什么。后来,生物学家抓了一堆青蛙来做视觉实验,他们通过调整灯光的亮度、展示不同的栖息地照片,甚至用电磁力摆动人造苍蝇,来观察青蛙视觉系统的信息传递过程。研究结果显示,蛙眼不仅能记录视觉信息,还会过滤与分析对比度、曲率和运动等视觉特征。结果揭示,眼睛与大脑之间的沟通已经经过高度组织和解译。1959年的论文《蛙眼告诉蛙脑什么》(What the Frog's Eye Tells the Frog's Brain)详细记录了这些发现,成为一篇经典论文。[插图]
1948年,维纳出版了《控制论:或动物与机器的控制和通信的科学》(Cybernetics: or Control and Communication in the Animal and the Machine),这本书标志着现代控制论的诞生。Cybernetics(控制论)来自希腊词汇,意思为“领航”,用来描述指导或引导技术或系统的原则。在《控制论》一书中,维纳提出了“反馈”这一核心概念,解释了系统如何通过反馈机制自我调节和控制。他认为一切都可以描述为一个系统,分解为具有输入和输出的“黑匣子”,然后使用信息流、噪声、反馈、稳定性等理论来理解。
机智的你可能已经发现,著名的亚马逊数据标注众包平台也叫Mechanical Turk。用户在官网完成资格认定后,就可以在任务广场上挑选数据标注任务,被采纳后还能拿到几美元的悬赏金。只是很多任务需要你具备复杂的领域背景知识,你很可能找一圈后悻悻而归。这种“人工的”智能一点儿都不性感,直到2017年。彼时谷歌在顶级机器学习会议NIPS(神经信息处理系统大会,后更名为NeurIPS)上发表了论文《你只需要注意力机制》(Attention Is All You Need),并指出:我们为什么要考虑“输入”和“输出”的联系?为什么不参考人类理解语言的方式,比如先让模型“学习”一句话内单词间的语义联系?这就是“自注意力机制”,研究者给它起了个霸气的名字:Transformer“变形金刚”。Transformer要学习任意单词和其他单词在同一句话之内共同出现的概率,从而发现海量的单词与单词之间由于某种因素而共同出现的概率。假设我们要翻译句子:The animal didn't cross the street because it was too tired。“it”指的是什么?是“街道”还是“动物”?这对人类来说是非常简单的判断,对以前的人工智能来说却有点儿难。而基于Transformer的ChatGPT,在处理“it”时,其“自注意力机制”就能自动将“it”与“动物”联系起来。
为何ChatGPT系列模型性能表现优秀?实际上,ChatGPT又偷偷拐回了“人工的”智能——在GPT-3大数据“预训练”之后,用人类反馈的方式加强训练。秘籍写在2022年3月的OpenAI论文《利用人类反馈训练语言模型使其遵从指令》(Training language models to follow instructions with human feedback)中。从结果来看,这种方法非常奏效,经过非常细致的预训练和调优,ChatGPT系列模型能力大幅提升,各项性能位居“排头兵”。
知识卡片:大模型相关技术RAG(Retrieval-Augmented Generation),检索增强生成,是当下热门的大模型前沿技术之一。2020年,脸书的基LoRA(Low-Rank Adaptation),低秩适应,是一种广泛使用的针对大语言模型进行高效微调的技术,最开始出自2021年的论文《LoRA:大语言模型的低秩自适应》。我们知道大模型的参数很多,动不动就是千亿级别,要对这么多参数权重进行训练微调开销很大。LoRA的提出是基于这样一个假设,大模型本身是过参数化的,参数矩阵是低秩的,即包含的信息量其实没有那么多。因此,通过矩阵分解,用两个新矩阵的乘积来得到近似原来的参数矩阵,这两个新矩阵的参数量是远小于原矩阵的。于是,我们在微调阶段仅需更新这两个新矩阵包含的参数即可,这显著提高了训练的效率。础人工智能研究团队发表名为《知识密集型自然语言处理任务的检索增强生成》的论文,文中首次提到这一概念。检索增强生成模型结合了大语言模型和信息检索技术。具体来说,当大模型需要生成文本或者回答问题时,它会从一个庞大的文档集合中检索相关的信息,然后利用这些检索到的信息来指导文本的生成,提高预测的质量和准确性。RLHF(Reinforcement Learning from Human Feedback),是一种结合了人类反馈和强化学习的新型学习方法,被认为是ChatGPT成功背后的“秘密武器”之一。RLHF的优势在于它能够利用人类的反馈来指导模型的训练,使得模型能够更好地理解人类意图并生成符合人类期望的文本。RLHF在模型和人类之间架起一座桥梁,让人工智能快速掌握了人类经验。MoE(Mixture-of-Experts),专家混合,在1991年的论文《本地专家模型的自适应混合》中被首次提出,它将复杂的预测建模任务分解为若干子任务,并为每个子任务训练一个专家模型。MoE的核心是一种“分而治之”的思想,除了专家模型,MoE架构中还包括了门控模型(Gating Model),门控模型负责为当前任务选择最适合的专家模型。随着大模型的参数越来越多,其算力以及电力消耗已经逐渐到了一个大家无法接受的量级,为了降本增效,大模型底层架构的更新已经势在必行。MoE架构与大模型的结合可谓老树发新芽,逐渐成为大模型开发者的新宠,在实践中展示出了非常大的潜力。
每个人心里都会有一个挥之不去的问题:机器会有意识吗?如果让我来回答这个问题,我可能要从“意识能够被图灵机计算吗”这一问题来开始。1967年,美国科学家希拉里·普特南提出了心灵的计算理论,认为心灵是一个由大脑神经活动实现的计算系统。1975年,他的学生杰瑞·福多提出“心语假说”,认为思维有着类似语言的结构——“心语”,可以使用语言符号形式化表征复杂的思想。2011年,图灵奖获得者朱迪亚·珀尔在《为什么》(The Book of Why)一书中写道,人类在进化早期就意识到世界并非由枯燥的事实堆砌而成,这些事实通过错综复杂的因果关系网络融合在一起,人类则通过观察能力、行动能力和想象能力获取这些因果关系,组成人类思维的基石。但这些都无法确定思维是否可以计算。