人工智能是对复杂信息处理问题的研究,这些问题常常植根于生物信息处理的某个方面。该学科的目标是确定值得研究、并有可能解决的信息处理问题,然后将它们解决。
信息处理问题的解答自然地分为两部分。第一部分是对特殊计算的基础性质的表征,并对它在物理世界中的基础作出理解。这一部分工作可以看作对要计算什么和为什么计算所作的抽象的系统阐述,我把它称为计算“理论”。第二部分由实现计算的特殊算法构成,所以它说明了怎样做的问题。算法的选择通常视运行这一过程的硬件而定,而同一计算可由多种算法来实现。另一方面,计算理论只取决于以它为解的问题的性质。贾丁和西布森(Jardine and Sibson 1971)解构簇分析主题时,用的正是这种方法,他们的术语“方法”就是指我所说的计算理论。
为了弄清这种区别,我们看一看富里埃分析的例子。富里埃变换的(计算)理论为大家所熟知,它的表达与计算它的具体方式无关。然而实现富里埃变换的算法有好几种,如快速富里埃变换(Cooley and Tukey 1965)是一种串行算法,并行“空间”算法是以相干光学机制为基础的。所有这些算法完成的都是同一计算,选用哪一种算法,则取决于所使用的硬件。顺便说一句,我们也注意到了串行和并行的区别是处在算法层次上的,而不是计算的深层特性。
因此严格地讲,一个人工智能结果是由以下方面组成:分离出特殊的信息加工问题,系统阐述用于该问题的计算理论,构造实现这一理论的算法,以及通过实践证明算法是成功的。对于一个特殊问题,算法理论一经建立,就再也不必重复做它,这是很重要的一点,也是可能取得进步的原因,在这方面,AI结果的表现与数学的或任何硬自然科学的结果有其相似之处。在确定一个问题的计算理论是否已得到恰当的系统阐述时,必须采用某种判断方式。“吃掉对方的王”这一陈述规定了国际象棋的目标,但是这很难说是国际象棋计算问题的恰当表征。这里所需要的那种判断,看来与确定一个数学成果是否可作为一个新的实质性定理的判断十分类似,同时,如果未对这种判断的基础作出说明,我并不感到有什么不妥。
有关由什么构成AI结果的这一看法,可能是大多数科学家都可以接受的。乔姆斯基(Chomsky 1965)有关英语句法的“语言能力”理论的观点,恰恰就是我所说的这一问题的计算理论。它们都具有不涉及繁冗的算法细节的性质,然而在表现出语言能力(即实现计算)时,必须有算法的运行。这并不是说发明合适的算法是件容易的事,而是说,在我们可能发明算法之前,必须确切知道算法被假定用来做什么,而这一信息是通过计算理论来获取的。一个问题以这种方式解构之后,我将称它具备了1型理论。
美中不足的是,虽然许多生物信息加工问题具有1型理论,但是它们之所以具有这种理论的原因,却一点也不清楚。如果出现这种情况:在解决一个问题时,有众多过程同时行动,而这些过程的相互作用就是它本身的最简单描述,那么我称这种情况是2型理论。预见蛋白质怎样折叠的问题,是2型理论很有希望的候选者。当一个大肽链在媒质中震动摇摆时,有大量的因素对其施加影响。在每一瞬间,只有少数几个可能的相互作用是重要的,但是它们的重要作用却具有决定性的意义。若要建构一个简化理论,必须忽略一些相互作用;但是如果在进行折叠的某个阶段上,大多数相互作用都是关键性的,就证明简化理论是不恰当的。值得一提的是,当前最有希望的蛋白质折叠研究是以蛮力方式进行的研究,它建立了一个相当细致的氨基酸模型,有与其序列相关联的几何形状,有与周围液体的疏水相互作用,以及随机热扰动,等等,然后让这一整套过程运行,直到获得一个稳定的构形为止(Levitt and Warshel 1975)。
AI的根本性困难在于,一个问题是否具有1型理论,是永远不能确切肯定的。如果找到了1型理论,那当然很好;但是如果没有找到,并不意味着它不存在。到目前为止,大多数的AI程序都相当于2型理论,而采用2型理论的危险是,它们可能将一些最终为该问题的正确1型解构提供钥匙的关键性决策埋藏在那些每当设计具体程序时不可避免的成堆的小型管理决策之下。这个现象使得AI研究难于深入进行,也难于判断。如果我们证明,一个给定的信息加工问题是由一个特殊的、界定清晰的计算理论解决的,那么结果就能得到保证。反之,如果解决问题时出现的是一组冗长繁琐的过程,我们就不能完全肯定对于一个或多个相关问题不再有简单的基础计算理论存在了,因为这理论的系统阐述显得有点朦朦胧胧。对于任何一个2型理论的候选者来说,程序的性能显得重要得多。因为它唯一能够表现出的优点可能就是行之有效,所以只有它做到这一点,它才是有价值的。常常出现这种情况:一项AI研究得出的结果是一个没有多少理论含量的大程序,它对该问题的处理得出的是2型结果,但是这个程序或者性能太差,不能给人留下什么印象,或者(更糟的是)甚至无法实现。对这种研究项目的判断只能是很粗陋的,因为它们的长远作用几乎看不到。
这样我们就清楚了,AI在从事研究信息处理问题时,易于出现两种类型的求解方式。其一是传统意义上的规范的基础理论。视觉研究中有一些这样的例子:霍恩(Hom 1975)的描影构形法,表述图像密度变化和局部形状的基本框图的观念(Marr 1976),厄尔曼(Ullman 1976)的测定光源法,宾福德(Binford 1971)的广义柱体表述法,在此基础上的玛尔和西原(Marr and Nishihara 1978)的三维结构内部表述和处理,近期的立体视觉理论(Marr 1974;Marr and Poggio 1976),以及波焦和赖卡特(Poggio and Reichardt 1976)的家蝇视觉定向行为分析。这些结果的一个特征是,在对智能功能的全面探讨中,它们往往处在较低层次上,这个层次常常是那些意在研究“更高级、更核心”的智能问题的人所不屑一顾的。对于这种批评,我们的回答是,低层次问题表现的也许的确是较容易的类型,但这正是要首先研究它们的原因。只有在解决了更多的这类问题之后,我们才会对研究较深层问题时出现的问题有更清楚的了解。
但是即使这样一些比较明显的1型理论,其中也包含着2型理论。例如,玛尔和西原的三维表述理论提出,深层基本结构是建立在一个可以看作直线型的分布式的、以对象为中心的坐标系之上的,同时这一表述方式显然在图像分析过程中得到处理。除非也能证明这种描述可以根据图像来计算,并能按照所要求的方式来处理,否则这种理论就只不过是推测而已。要这样证明,会牵涉到数个中间理论,其中有些可望最终成为1型状态,但另一些只能勉强地看作是2型状态。例如,根据对象在图像中形成的轮廓线确定恰当的局部坐标系的问题,其中有一部分目前就存在着1型理论(Marr 1977)。但是,对一些在基本框图上运作、以帮助图形从背景中分离出来的基本分组过程,为它们推导1型理论,也许是不可能的。图形背景“问题”可能不是单一的问题,而是几个子问题的混合,它们结合起来实现了图形的分离,就像不同的分子相互作用而结合从而引起蛋白质折叠一样。事实上,没有理由认为图形背景问题的解答应当从单一的基础理论中得出。其原因是,它必须包含对许多有关图像事实的过程性表述,而这些图像最终还是经由物理世界中的事物所具有的聚合性和连续性演化推导而成的。这中间包含着多种知识和不同的技术,我们只好把它们一一拣出。随着每一点的积累,整体性能就得到改善,同时所能处理的图像的复杂性也在提高。
我们已经看到,如果一个问题实际上具备的是1型理论,那么寻求它的2型理论就会是危险的。这种危险最突出地表现在过早地强行进入高层次问题,因为这时作为它最终的1型理论基础层的那些概念没有或几乎没有形成,结果将是全然不能对实际所涉及的问题作出正确的系统阐述。然而,意识到较低层次上存在着反面危险,也是同样重要的。例如,在目前的视觉加工理论中,基本框图观念看来是相当不错的,但是人们也许会对使它解码的分组过程的美学特征产生怀疑。有很多这样的过程,它们的细节多少有些混乱,这样就会出现一些看起来是任意的取舍(例如,在垂直方向或水平方向形成组织)。一个明显的2型理论的例子就是我们提出的:组织与视觉的辨别是建立在这些分组过程,以及在图像基本框图中应用于该信息的一阶辨别之上的(Marr 1976)。这样,与朱尔兹(Julesz 1975)规范的(I型)理论相比,它的吸引力就小一些,朱尔兹的理论认为,只有当组织的密度分布在一阶或二阶统计中存在差异时,它们才是可以辨别的。但是正如朱尔兹本人看到的那样,有一些模式虽然带有不同的二阶统计数据,仍然是无法辨别的。事实上,我本人所做的工作也可以看作是试图精确定义出什么样的二阶统计结构特征造成了辨别力(参阅Schatz1977,待印)。
我们终于迫不得已放弃了朱尔兹那个简明理论的长处,但是我感到我们不应由于在这一研究水平上需要对相当杂乱无章的细节进行开发而过于沮丧。我们已经知道,对视觉信息的其他方面——运动、立体感、荧光性、颜色——进行计算时,肯定有各别的模数存在,所以也就没有理由要求它们都建立在单一理论的基础上。诚然,人们也会预期到情况的另一面,在不断前进的进化过程中,新的模数出现了,它们能够涵盖更多方面的数据,以使动物在范围更广的环境中生存下去。仅有的重要限制是,系统作为一个整体,应该粗略地模数化,这样增添起新工具来就能比较容易。
所以即使我们找不到1型理论——也许就不存在这样的理论,我们也不必放弃努力,特别是在较外围的感觉信息处理的阶段上,当然也不排除在接近中枢神经的地方。更重要的是,即使有1型理论存在,也没有理由说这一理论同包含更多中枢神经现象的理论有着密切的联系。例如,在视觉中,有的理论认为三维表述是以直线型坐标系为基础的,并且说明了怎样处理它们,这种理论与基本框图理论无关,或者因此也与从图像到表述的大多数其他中间阶段无关。这里特别要指出,假定近似的外围过程理论对较高层次的操作有什么重要作用,是尤其危险的。例如,由于朱尔兹的二阶统计学思想是如此简洁,又与大量数据相吻合,人们也许受其影响提出这样的问题:二阶相互作用的思想是否可以以某种方式作为较高过程的核心思想。在这样做时,不应当忘记视觉组织辨别力的真正解释,在本质上可能是全然不同的,即使该理论对视觉性能作出的正确预言非常之多。
我们所以在这一点上花如此长的篇幅,是因为它影响着另一争议点——自然语言语法所具有的理论类型问题。我们假定人类语言的目的是将一个原本不是一维的数据结构转换成一维形式,以便按顺序发声的方式传递,然后在听者头脑中被重新译作某种近似的副本。根据这一观点,完全有可能并不存在转换语法试图要定义的那种类型的英语句法的1型理论——这个理论规定了一些类似的硬性惯例,涉及的是执行这一冗长的但却极其重要的操作的一些实用方法,而不是关于智能性质的深层原理。抽象的句法理论有可能是一种幻想,朱尔兹的二阶统计学理论近似于一套实现组织视觉过程的行为,句法理论只是在这种意义上近似于真实情况,而这一套过程归根结底就是这个理论的全部内容。换句话说,自然语言语法具有的很可能是2型理论,而不是1型理论。
即使生物信息处理问题只有2型理论,还是有可能从它的解答中推论出比解答本身更多的东西。这种情况的出现是因为,在实现一组过程中的某个点上,那些附加在机器上的以使机器运行的设计规定,会开始对实现方式的结构产生影响。这一观察结果为语言学家和人工智能圈内的学者进行的两种类型的研究增添了不同的视角。如果句法理论确实是2型的,那么有关CNS的任何重要的内在意义,都有可能从实现它的组成过程的方法细节中得到,这些内在意义往往只有通过实现这些过程才能得到开发。
本观点意义所在
如果接受了关于AI研究的这一观点,就可以根据较为清楚的判据来判断它的成果。已离析出什么样的信息处理问题?解决它的规范理论已经形成了吗?如果形成了,支持它的论据的充分程度如何呢?如果规范理论尚未给出,那么支持一组过程解答的证据是什么,或者指出它不存在单一规范理论的证据是什么呢?以及,所提出的这套机制工作得顺利吗?对于像理解故事这样相当高层的问题,当前的研究往往是纯探索性的。也就是说,在这些领域中,我们的知识还相当贫乏,我们甚至还无法开始归纳出恰当的问题,更不用说解决它们了。必须看到,个人的冒险,这是人类作任何尝试时都难以避免的局面(几乎可以肯定,所有做探索的先驱者本人在寻找实用性问题方面都是不成功的),但是这是最后成功所必不可少的前奏。
AI(现在已满16岁了)的大部分历史是由探索性研究构成的,其中最著名的有斯莱格尔(Slagle 1963)的符号积分程序,魏岑鲍姆(Weizenbaum 1965)的Eliza程序,埃文斯(Evans 1968)的模拟程序,拉斐尔(Raphael 1968)的SIR,奎连(Quillian 1968)的语义网络,和威诺格拉德(Winograd 1972)的Shrdlu。(回顾)所有这些程序,其特点是或者太简略,构不成有价值的1型理论,或者虽然非常复杂,可是性能太差劲,也不能严格地作为2型理论看待。AI早期出现的真正成功的2型理论,也许只有沃尔兹(Waltz 1975)的程序。但是我们从这些经验中学到了很多东西——大多是反面教训(例如,关于智能有可能是怎样工作的这一问题的已知的前20个观点,要么太简单要么是错误的),当然也包括若干正面经验。MACSYMA代数处理系统(Moses 1974)无疑是成功和有用的,它植根于一些程序,如斯莱格尔的程序。这个领域中出现的错误,不在于进行了这样一些研究——它们构成了AI发展的基本方面,而主要在于错误地判断了这些研究的价值,因为早期研究本身几乎没有归纳出任何可解的问题,这一点现在已经很清楚。这些内部判断失误的原因,部分在于这一领域早期成果受到的外部压力,但是这终究是一些政治问题,这里不打算讨论。
然而,我认为,人们在对这些判断的错误作出判断时,又错误地采取了过于苛刻的态度。它们只是必要的热情所产生的难以避免的结果,其出发点是认为这一领域具有持久的重要性,在我看来这是正确的。人类锲而不舍的所有重要事业,都是锲而不舍地以基于信念、而不是基于后果的个人献身精神作为开始的。AI正是这样的例子。只有偏狭的、爱挑剔的、缺乏冒险精神的人才会用它作为反对我们的理由。
当前趋势
探索性研究是重要的。这一领域中的许多人都怀有这种期望:在我们理解智能的核心思想深处,至少会有一个、也可能是若干个关于怎样组织和表述知识的重要原理,从而在某种意义上弄清了什么是有关我们智力一般性质的重要东西。乐观主义者或许在一些程序如萨斯曼和斯托尔曼(Sussman and Stallman 1975)的程序、玛尔和西原(Marr and Nishihara 1978)的程序中,在明斯基(Minsky 1975)就核心问题提出的全面见解中,还可能在尚克的一些工作(Schank 1973,1975)中,看到这种原理的少许端倪,虽然我有时感到尚克没有抓住要点。尽管还有些疑云,如下一些观点看来正在兴起(它们在很大程度上归功于早期的探索性研究):
1、有关推理、语言、记忆和感知的“组块”应该比当前心理学理论所容许的大多数情况更大一些(Minsky 1975)。它们还必须是非常灵活的——至少与玛尔和西原的直线型三维模型一样灵活,或许更加灵活。由“框架”、“端点”这些术语提出的简易机制当然过于死板了。
2、对一个事件或一个对象的感知必须包含对它的几种不同描述的联立计算,这些描述涉及事件或对象的用途、目的或环境的一些不同方面。
3、(2)中提及的各种描述既有粗略形式,也有精细形式。在根据(1)中的要求选择恰当而全面的情节梗概时,以及正确规定那些造成这些情节梗概被选定的对象和行动所起的作用时,这些粗略描述是一个很重要的环节。
用一个例子可以更清楚地说明这些观点。如果某人读到:
(A)一只苍蝇在玻璃窗上讨厌地嗡嗡叫。
(B)约翰拿起报纸。
其直接推论是:约翰对这只苍蝇的态度基本上是厌恶的。假如他拿起的是电话机,推论就不会这么肯定。我们都会承认,读到这些句子时,一段“伤害昆虫”的情节梗概以某种方式展开来,它是通过苍蝇讨厌地嗡嗡叫以最粗略的方式提示的。这一情节梗概包含一个参照物,是某个有可能把这个小虫子在玻璃上压扁的东西,这一描述适用于报纸,而不适用于电话机。我们还可以得出这样的结论:在提到(在视觉场合是“看到”)报纸时,不仅以内部方式把它描述为报纸,以及对它具有的形状和轴作某种粗略的三维描述,而且它也被描述为轻的、柔韧的扁平物体。因为句子(B)之后也可能是“坐下来阅读”,所以报纸也可能被描述为阅读材料;照此类推,还可以作为易燃物,或其他东西。既然我们一般事先不知道一个对象或行动的哪个方面是重要的,所以在相当一段时间里,已知对象会引起若干种不同的粗略内部描述。对行动来说,情况也是类似的。重要的也许是要注意到,对拍苍蝇、阅读或点火的描述不是非得与报纸联在一起不可,对报纸来说,只有与每一情节梗概中的作用相匹配的描述才是有用的。
尚克的“基本行动”的重要之处,依我看,既不是它们的数目凑巧不是很大这个事实,也不是每一幕的情节完全通过归纳为这些行动而得到表现的这一思想(我根本不相信这一点),甚至也不是它们所关联的情节梗概包含了当前情境的全部答案这一思想(这正是灵活性丧失作用的地方)。事件和对象的基本的、粗略的目录所具有的重要性,存在于这种粗略描述在最终接近并构造或许是精心剪裁的特定情节梗概时所起的作用,其方式很可能是这样的:存储于基本模型中的图像和信息经过适当的相互作用之后,玛尔和西原理论中的一般三维动物模型最后可能变成一只十分特殊的柴郡猫。在句(A)之后,原先只不过是对无辜苍蝇的厌恶态度,随着报纸信息的加入,就变成了一个拍苍蝇的特定场景。
玛尔和西原把为报纸提供多重描述的问题称为报纸的“参照窗口问题”。怎样做得最好,什么样的描述能够适合于不同词汇或不同感知对象,目前尚无确切了解。这些见解是探索性研究的结果,它们引出的问题尚需作准确的系统阐述,还谈不上得出令人满意的解答,但是现在可以肯定,某些这种类型的问题的确是存在的,也是重要的,而且看来最终很可能会出现一个有关这些问题的相当有影响的理论。
模仿还是探究
最后,我打算作出进一步的区分,这对于选择研究问题,或取是判断已完成工作的价值看来都是重要的。这个问题就是,研究工作,特别是对自然语言理解、问题求解或记忆结构的研究,很容易蜕化成为编写程序,这种程序只不过是一种没有启迪作用的对人类行为方式的某个小方面的模仿而已。魏岑鲍姆(Weizenbaum 1976)现在认为他的程序Eliza就属于这一范畴,而我也的确看不出反对他的理由。基于同样的立场我也批评了纽厄尔和西蒙在产生式系统方面的工作,以及诺尔曼和鲁梅哈特(Norman and Rumelhart 1974)在长时记忆方面的某些工作,这些批评引起较多的争论。
其原因如下。如果我们认为信息处理研究的目的是系统阐述和理解特定的信息处理问题,那么处于核心地位的正是那些问题的结构,而不是实现这些问题所经历的机制。这样,需做的第一件事就是找到那些我们有把握解决的问题,弄清怎样去解决它们,并根据这种理解来查看我们的行为方式。这些问题最丰富的源泉就是我们熟练自如地(因而是无意识地)完成的操作,因为如果没有健全的基础方法,很难弄清可靠性怎样能得到保证。另一方面,对问题求解的研究已趋于集中在那些我们在智能上理解得很好、但做起来却很差的问题上,像心算和折算,或是集中在像几何定理证明问题或棋类游戏上面,在这些问题中,人的技巧似乎建立在庞大的知识和技能基础之上。我认为,这是现在还不去研究人类怎样完成这些任务的特别有说服力的理由。我不怀疑,在做心算时,我们正在熟练地做某件事,但它不是算术,而且在我看来,对这件事是什么,我们连哪怕一个方面也远没有理解。所以我们应首先专注于比较简单的问题,这是我们有希望取得真正进步的地方。
如果无视这一限制,最终得到的将是一些不太像样的机制,它们唯一的长处是,我们做不到的事情它们也做不到。依我看,产生式系统的特点正好与这种情况相符。即使按它们本身的说法,把它们看作机制,也还是有许多不尽如人意的地方。作为编程语言,它们设计得太差劲,难以使用,同时我也无法相信,人类大脑会在如此低等水平上用如此拙劣的实现方式担负起决策的任务。
供学生做问题求解使用的产生式系统和供视觉神经生理学家使用的富里埃分析,这两者之间也许可以作一类比。以图像的空间频率表述方式做简单操作,可以模拟不少有趣的视觉现象,它们看上去就像是由我们的视觉系统表现出来的。这些现象包括检测重复性、某些视错觉、离散的线性叠加信道的观念、整体形状与精细的局部细节的分离、大小不变性的简单表达。在图像分析中,空间频域之所以被忽略,是因为它对视觉的主要工作——根据密度分布形成“存在的是什么”的描述,实际上不起作用。这个过程有可能怎样完成,这种直觉是视觉生理学家们所缺乏的,而这一点又是如此重要。产生式系统展示出不少有价值的思想——取消直接的子程序调用、采用黑板交流渠道,以及某个短时记忆观念。但是正因为产生式系统表现出这些副作用(就像富里埃分析“表现”某些视错觉),所以并不意味着它们与实际上正在进行的事情没有什么关系。例如,据我个人推测,短时记忆能像一个存储记录器一样起作用,这个事实在它的诸种功能中可能是最不重要的。我估计,有若干“智能本能反射”作用于短时记忆拥有的条目,对此我们还一无所知,而这些本能反射最终会被看作对它来说是至关重要的事情,因为它们起着主导作用,如为一个条目打开参照窗口。依我之见,从与产生系统有密切关系的角度来研究人类的表现是白费时间,因为这等于是在研究一个机制,而不是在研究一个问题,因而不可能导致1型结果。这种研究试图透彻了解的那些机制将会通过研究问题而被揭示出来,正如视觉研究不断进步是由于它攻克的是视觉问题,而不是视神经机制。
对同一批评意见的反思可见之于诺尔曼和鲁梅哈特的著作,他们研究的是长时记忆中可能存在的信息组织方式。我们再次看到,危险在于没有对有关的明显的信息处理问题提问。相反,所建议的提问和作答根据的是机制——这时它被称为“主动结构网络”,它是如此简单和笼统,以致缺乏理论实质。他们或许会说,如此这般的“联系”似乎是存在的,但是他们无法说明,联系是由什么构成的,也无法说明因为要解决问题X(是我们所能解决的),需要一种用如此这般的方式组织的记忆,所以该联系必须如此;如果谁具有这种联系,某些明显是卓有成效的,这些事实包括关于长时记忆的事实,同时(例如)谢泼德(Shepard 1975)、罗希( Rosch,付印中)和沃林顿(Warrington 1975)的工作,在我看来都是这方面非常成功的例子。但是和实验神经生理学一样,如果信息加工研究还没有确认和解决恰当的问题X,实验心理学就不可能对这些事实作出解释。依我之见,找出这样的问题X,并解决它们,就是AI应该尝试去做的事情。
*本文节选自玛格丽特·博登《人工智能哲学》,刘西瑞,王汉琦译,上海译文出版社2001年版。为阅读及排版便利,本文删去了注释与参考文献,敬请有需要的读者参阅原文。