展会信息港展会大全

关于AI起源与发展的故事
来源:互联网   发布日期:2011-09-19 12:07:24   浏览:5014次  

导读:人工智能先驱这些充满乐观的预言,除了40年后电脑战胜了卡斯帕洛夫之外,其余的直到现在依然远没有被实现,甚至引发长时期无休无止的争论和哲学意义上的思辩。人...

当前位置:首页 > 软件开发 > 人工智能 > 正文

人工智能传奇——关于AI起源与发展的故事

 来源:CSDN博客   2007-09-09

一、图林与人工智能

  介绍人工智能, 不能不从图林说起。英国著名学者 阿兰·图林(A. Turing) 不仅以“纸上下棋机”率先探讨了下棋与机器智能的联系,他还是举世公认的“人工智能之父”。

  图林的一生充满着未解之谜,他就象上天派往下界的神祗 ,匆匆而来,又匆匆而去,为人间留下了智慧,留下了深邃的思想,后人必须为之思索几十年甚至几百年。

  许多文献甚至提出,图林不仅是“人工智能之父”,他也是“计算机之父”。曾担任过冯·诺依曼助手的美国学者弗兰克尔这样写到:“许多人都推举冯·诺依曼为‘计算机之父",然而我确信他本人从来不会促成这个错误。或许,他可以被恰当地称为助产士,但是他曾向我,并且我肯定他也曾向别人坚决强调:如果不考虑巴贝奇、阿达和其他人早先提出的有关概念,计算机的基本概念属于图林。”

  正是冯·诺依曼本人亲手把“计算机之父”的桂冠转戴在图林头上。直到现在,计算机界仍有个一年一度“图林奖” ,由美国计算机学会(ACM)颁发给世界上最优秀的电脑科学家,像科学界的诺贝尔奖金那样,是电脑领域的最高荣誉。阿兰·图林以其独特的洞察力提出了大量有价值的理论思想,似乎都成为计算机发展史不断追逐的目标,不断地被以后的发展证明其正确性。

  图林1912年6月23日出生于英国伦敦,孩提时代性格活泼好动。3岁那年,他进行了在科学实验方面的首次尝试──把玩具木头人的胳膊掰下来种植到花园里,想让它们长成更多的木头人。 8岁时,图林尝试着写了一部科学著作,题名《关于一种显微镜》,这个小孩虽然连单词都拼错了许多,但毕竟写得还像那么回事。在书的开头和结尾,图林都用同一句话“首先你必须知道光是直的”前后呼应,但中间的内容很短很短,可谓短得破了科学著作的纪录。

  1931年,图林考入英国剑桥皇家学院。大学毕业后留校任教,不到一年,他就发表了几篇很有份量的数学论文,被选为皇家学院最年轻的研究员,年仅22岁。1937年,伦敦权威的数学杂志又收到图林一篇论文《论可计算数及其在判定问题中的应用》,作为阐明现代电脑原理的开山之作,被永远载入了计算机的发展史册。这篇论文原本是为了解决一个基础性的数学问题:是否只要给人以足够的时间演算,数学函数都能够通过有限次机械步骤求得解答?传统数学家当然只会想到用公式推导证明它是否成立,可是图林独辟蹊径地想出了一台冥冥之中的机器。

  图林想象的机器说起来很简单:该计算机使用一条无限长度的纸带,纸带被划分成许多方格,有的方格被画上斜线,代表“1”;有的没有画任何线条,代表“0”。该计算机有一个读写头部件,可以从带子上读出信息,也可以往空方格里写下信息。该计算机仅有的功能是:把纸带向右移动一格,然后把“1”变成“0”,或者相反把“0”变成“1”。

  图林设计的“理想计算机”被后人称为“图林机”,实际上是一种不考虑硬件状态的计算机逻辑结构。图林还提出可以设计出另一种“万能图林机”,用来模拟其它任何一台“图林机”工作,从而首创了通用计算机的原始模型。图林甚至还想到把程序和数据都储存在纸带上,比冯·诺依曼更早提出了“储存程序”的概念。

  阿兰·图林对计算机科学的贡献也并非停留在“纸上谈兵”。在第二次世界大战期间,图林应征入伍,在战时英国情报中心“布雷契莱庄园”(Bletchiy)从事破译德军密码的工作,与战友们一起制作了第一台密码破译机。在图林理论指导下,这个“庄园”后来还  研制出破译密码的专用电子管计算机“巨人”(Colossus),在盟军诺曼底登陆等战役中立下了丰功伟绩。

  1945年,脱下军装的图林,带着大英帝国授予的最高荣誉勋章,被录用为泰丁顿国家物理研究所高级研究员。由于有了布雷契莱的实践,他提交了一份“自动计算机”的设计方案,领导一批优秀的电子工程师,着手制造一种名叫ACE的电脑。1950年, ACE电脑样机 公开表演,被认为是当时世界上最快最强有力的电子计算机之一。

  1950年,图林来到曼彻斯特大学任教,并被指定为该大学自动计算机项目的负责人。就在这年10月, 他的又一篇划时代论文《计算机与智能》 发表。这篇文章后来被改名为《机器能思维吗?》,它引来的惊雷,今天还在震撼着电脑的世纪。在“第一代电脑”占统治地位的时期,这篇论文甚至可以作为“第五代电脑”和“第六代电脑”的宣言书。

  图林写道:你无法制造一台替你思考的机器,这是人们一般会毫无疑义接受下来的老生长谈。我的论点是:与人脑的活动方式极为相似的机器是可以制造出来的。更有趣的是,图林还设计了一个“图林试验”,试图通过让机器模仿人回答某些问题,判断它是否具备智能。图林试验采用“问”与“答”模式,即观察者通过控制打字机向两个试验对象通话,其中一个是人,另一个是机器。要求观察者不断提出各种问题,从而辨别回答者是人还是机器。图林还为这项试验亲自拟定了几个示范性问题:

  问: 请给我写出有关“第四号桥”主题的十四行诗。

  答:不要问我这道题,我从来不会写诗。

  问:34957加70764等于多少?

  答:(停30秒后)105721

  问:你会下国际象棋吗?

  答:是的。

  问:我在我的K1处有棋子K;你仅在K6处有棋子K,在R1处有棋子R。现在轮到你走,你应该下那步棋?

  答:(停15秒钟后)棋子R走到R8处,将军!

  图林指出:“如果机器在某些现实的条件下,能够非常好地模仿人回答问题,以至提问者在相当长时间里误认它不是机器,那么机器就可以被认为是能够思维的。”

  从表面上看,要使机器回答按一定范围提出的问题似乎没有什么困难,可以通过编制特殊的程序来实现。然而,如果提问者并不遵循常规标准,编制回答的程序是极其困难的事情。例如,提问与回答呈现出下列状况:

  问:你会下国际象棋吗?

  答:是的。

  问:你会下国际象棋吗?

  答:是的。

  问:请再次回答,你会下国际象棋吗?

  答:是的。

  你多半会想到,面前的这位是一部笨机器。如果提问与回答呈现出另一种状态:

  问: 你会下国际象棋吗?

  答:是的。

  问:你会下国际象棋吗?

  答:是的,我不是已经说过了吗?

  问:请再次回答,你会下国际象棋吗?

  答:你烦不烦,干嘛老提同样的问题。

  那么,你面前的这位,大概是人而不是机器。上述两种对话的区别在于,第一种可明显地感到回答者是从知识库里提取简单的答案,第二种则具有分析综合的能力,回答者知道观察者在反复提出同样的问题。“图林试验”没有规定问题的范围和提问的标准,如果想要制造出能通过试验的机器,以我们现在的技术水平,必须在电脑中储存人类所有可以想到的问题,储存对这些问题的所有合乎常理的回答,并且还需要理智地作出选择。

  图林曾预言,随着电脑科学和机器智能的发展,本世纪末将会出现这样的机器。在这点上,图林也过于乐观。但是,“图林试验”大胆地提出“机器思维”的概念,为人工智能确定了奋斗的目标,并指明了前进的方向。

  经过人工智能学者几十年不懈努力,目前的电脑已经“学习”得相当“聪明”。1993年11月,美国波士顿电脑博物馆曾公开举行了一次“图林试验”。该博物馆聘请了10位没有受过电脑训练的波士顿市民充当裁判,他们的任务是通过14分钟问答交谈,判别参赛者是电脑还是人。 经过3小时的试验,居然有4个软件骗过了至少1位裁判,它们侃谈的话题分别是人际关系和大学生活等。有人不解地问道:难道图林的预言已经实现了?一位程序编制者解释说:参赛的软件都是围绕特定的话题先存入了许多问题和答案,机器根据裁判提问中的关键词对号入座,无非故意摹仿人作答时的语气来“欺骗”裁判。科学家仍然一致认为,要完全按照图林的设想不规定话题,那么人工智能还要走过漫长的路程。比赛组委会也对实现这一目标的软件选手悬赏10万美金。

  1954年,图林就要跨进他人生的第42个年头,风华正茂,正处于生命最辉煌的创造巅峰期,计算机科学界翘首等待着他新的发现和发明。6月8日清晨,图林的女管家象往常一样走进他的卧室,台灯还亮着,书桌上放着一封准备寄出的信,床头柜上有个只吃了一小半的苹果。图林安祥地沉睡在床上,他永远地睡着了,再也没有醒来……

  阿兰·图林,一颗正在升起的巨星突然陨落,巨大的噩耗震惊了全世界。就在他吃剩的那只苹果里,法医检验出氰化钾残液。朋友们绝不相信所谓“图林服毒自杀”的传闻,认为图林可能死于无法解释的意外事故,他的死无疑是电脑科学界的巨大损失。

  图林开创了计算机科学的重要分支──人工智能,虽然他当时并没有明确使用这个术语。把“图林奖”获奖者作一统计后就会发现,许多电脑科学家恰好是在人工智能领域作出的杰出贡献。例如,1969年“图林奖”获得者是哈佛大学的明斯基(M.Minsky);1971年“图林奖”获得者是达特莫斯大学的麦卡锡(J.McCarthy);1975年“图林奖”则由卡内基—梅隆大学的纽厄尔(A. Newell)和赫伯特·西蒙(H.Simon)共同获得。正是这些人,把图林开创的事业演绎为意义深远的“达特莫斯会议”。

二、达特莫斯会议

  1956年夏天, 美国达特莫斯大学(Dartmouth)召开了一次影响深远的历史性会议。这次聚会本来属于朋友间沙龙式的学术研讨,与会者也仅仅只有10个人。主要发起人是该校青年助教 麦卡锡 ,此外会议发起者还有哈佛大学明斯基、贝尔实验室申龙(E.Shannon)和IBM公司信息研究中心罗彻斯特(N. Lochester),他们邀请了卡内基—梅隆大学纽厄尔和赫伯特·西蒙、麻省理工学院塞夫里奇(O. Selfridge)和索罗门夫(R.Solomamff),以及IBM公司塞缪尔(A.Samuel)和莫尔(T.More)。这些青年学者的研究专业包括数学、心理学、神经生理学、信息论和电脑科学,分别从不同的角度共同探讨人工智能的可能性。他们的名字人们并不陌生,例如申龙是《信息论》的创始人,塞缪尔编写了第一个电脑跳棋程序,麦卡锡、明斯基、纽厄尔和西蒙都是“图林奖”的获奖者。

  达特莫斯会议历时长达两个多月,学者们在充分讨论的基础上,首次提出了“人工智能” (Artificial Intelligence)这一术语,标志着人工智能(AI)作为一门新兴学科正式诞生。

  智能是人类具有的特征之一,然而,对于什么是人类智能(或者说智力),科学界至今还没有给出令人满意的定义。有人从生物学角度定义为“中枢神经系统的功能”,有人从心理学角度定义为“进行抽象思维的能力”,甚至有人同义反复地把它定义为“获得能力的能力”,或者不求甚解地说它“就是智力测验所测量的那种东西”。正如《大不列颠百科全书》指出的那样,这些定义并未被人们所普遍接受。既然连人类智能都无法给出精确的定义,对人工智能也只好众说纷纭了。例如,西蒙认为:AI是学会怎样编制计算机程序完成机智的行为,学习人类怎样做这些机智行为;明斯基则认为人工智能一方面帮助人的思考,另一方面使计算机更有用。鉴于图林是用行为来判断机器是否具有智能,麻省理工学院温斯顿(P. Winston)在AI教科书里下定义说:“人工智能就是研究如何使计算机去做过去只有人才能做的智能的工作。”

  让我们姑且接受温斯顿的这种含糊的定义,它至少使我们明确了,达特莫斯会议确立的这一新兴学科,研究的对象仍然是一种电脑系统,这种电脑能够表现出人类智力活动的特征,从而延伸和“放大”人类的智能。

  无可辩驳的事实说明,现代电脑是一种具有高超能力的机器,它的种类多,价格低,体积小,用途广,它在计算、控制和数据处理方面,广泛替代人类完成了大量的工作,甚至比人做得更加出色。那么,不妨仿照“图林试验”,请它做几件简单的工作,探讨这种机器的智能究竟能达到多高的水平。让世界上运算速度最高的超级电脑计算一个小小的题目:“树上有10只鸟,被猎人用枪打下1只, 问树上还剩下几只鸟? ” 这台超级电脑或许对此不屑一顾, 或许会在0.0000000001秒时间内, 斩钉截铁地输出答案“9只!”如果你把同样的问题问小学一年级学生,有谁会回答说是“9只”呢?连小学生都能正确推理的问题,电脑却不会。

  幼儿园的孩子也能自己横穿马路。老师告诉他:过马路前先向两边看,附近没有汽车再横穿。小朋友记住了这些常识,即使在较远处有驶来的汽车,他也敢于不慌不忙穿过马路。现在,假如有一位盲人也想横穿马路,请来电脑帮助计算。那么,电脑会向他提出各种问题:马路宽度是多少米?附近有汽车吗?最近的一辆离我们多远?时速是每小时多少公里?这些都是电脑计算所必须输入的基本数据,它不会根据生活常识进行模糊判断。

  无须把“试验”继续进行下去。凡是长期与电脑打交道的人难免会产生这些的感觉:一方面,电脑能计算出10亿位的π值,能快速处理全国人口普查的海量数据,能精确地控制宇宙飞船登上月球的每一步骤,使任何聪明绝顶的人在它面前都相形见绌;另一方面,电脑的智力水平可以说连普通3岁孩童都不如。 正如1980年国外有人给它下的一个通俗的定义:“快速的、按规矩行事的傻子机器。”。

  人工智能科学想要解决的问题,是让电脑也具有人类那种听、说、读、写、思考、学习、适应环境变化、解决各种实际问题等等能力。换言之,人工智能是电脑科学的一个重要分支,它的近期目标是让电脑更聪明、更有用,它的远期目标是使电脑变成“像人一样具有智能的机器”。

  1956年作为人工智能兴起的标志事出有因:就在这一年,塞缪尔的《跳棋机》电脑程序研制成功,揭开了机器挑战人类智能的序幕,直到40年后把卡斯帕洛夫逼下了“棋王”宝座,机器博弈也成为AI研究的一个重要领域。

三、机器数学家

1956年AI研究另外一个重大的突破,是 纽厄尔、赫伯特·西蒙 等人合作编制的《逻辑理论机》数学定理证明程序(简称LT),从而使机器迈出了逻辑推理的第一步。

在卡内基—梅隆大学的计算机实验室,纽厄尔和西蒙从分析人类解答数学题的技巧入手,让一些人对各种数学题作周密的思考,要求他们不仅写出求解的答案,而且说出自己推理的方法和步骤。通过大量的观察实例,纽厄尔和赫伯特·西蒙广泛收集了人类求解一般性问题的各种方案。他们发现,人们求解数学题通常是用试凑的办法进行的,试凑时不一定列出了所有的可能性,而是用逻辑推理来迅速缩小搜索范围。

经过反复的实验,纽厄尔和赫伯特·西蒙进一步认识到,人类证明数学定理也有类似的思维规律,通过“分解”(把一个复杂问题分解为几个简单的子问题)和“代入”(利用已知常量代入未知的变量)等方法,用已知的定理、公理或解题规则进行试探性推理,直到所有的子问题最终都变成已知的定理或公理,从而解决整个问题。人类求证数学定理也是一种启发式搜索,与电脑下棋的原理异曲同工。

在实验结果的启发下,纽厄尔和赫伯特·西蒙便利用这个LT程序向数学定理发起了激动人心的冲击。电脑果然不孚众望,它一举证明了数学家罗素的数学名著《数学原理》第二章中的38个定理。1963年,经过改进的LT程序在一部更大的电脑上,最终完成了第二章全部52条数学定理的证明。基于这一成功,纽厄尔和赫伯特·西蒙把LT程序扩充到人类求解一般问题的过程,设想用机器模拟具有普遍意义的人类思维活动。他们编制了能解答十种类型不同问题的“通用问题求解程序” (GPS),从而开拓出人工智能中“问题求解”的一大领域。

在纽厄尔和赫伯特·西蒙之后,美籍华人学者、洛克菲勒大学教授王浩在“自动定理证明”上获得了更大的成就。1959年,王浩用他首创的“王氏算法”,在一台速度不高的IBM704电脑上再次向《数学原理》发起挑战。不到9 分钟,王浩的机器把这本数学史上视为里程碑的著作中全部(350条以上) 的定理,统统证明了一遍。该书作者、数学大师罗素得知此事后感慨万端,他在信里写到:“我真希望,在怀海特和我浪费了10年的时间用手算来证明这些定理之前,就知道有这种可能。”王浩教授因此被国际上公认为机器定理证明的开拓者之一。

人工智能定理证明研究最有说服力的例子, 是机器证明了困扰数学界长达100余年之久的难题──“四色定理”。据说,“四色问题”最早是1852年由一位21岁的大学生提出来的数学难题:任何地图都可以用最多四种颜色着色,就能区分任何两相邻的国家或区域。这个看似简单的问题,就象“哥德巴赫猜想”一样,属于世界上最著名的数学难题之一。

1976年6月,美国伊利诺斯大学的两位数学家沃尔夫冈·哈肯(W.Haken)和肯尼斯·阿佩尔(K. Apple) 宣布, 他们成功地证明了这一定理,使用的方法就是机器证明。当“四色定理”被证明的消息传出后,许多大学的教师都纷纷中断讲课,打开香槟酒以示庆贺。在该定理被证明的所在地伊利诺斯州乌班纳,连邮政局员工都欣喜若狂,他们在寄出的所有信件上都加盖了“四色是足够的”字样邮戳。

哈肯和阿佩尔攻克这一难题使用的方法仍然是前人常用的“穷举归纳法”,只是用手工计算无论如何也不能“穷举”所有的可能性。哈肯和阿佩尔编制出一种很复杂的程序,让3台IBM360电脑自动高速寻找各种可能的情况, 并逐一判断它们是否可以被“归纳”。十几天后, 共耗费1200个机时,做完200亿个逻辑判断,电脑终于证明了“四色定理”。虽然至今有些从事纯数学研究的学者仍对此半信半疑,那冗长乏味的证明难道就是最后结论? 他们毫无办法来验证电脑是否真正给出了答案,200亿个逻辑判断是凡人不可能逐一检验的天文数字。如果你有兴趣深入探讨,可以自己去研究《伊利诺斯数学杂志》第21卷刊载的检验表,那张表足有460页厚,可能会消磨掉你10年的光阴。

攻克“四色定理”似乎应该昭示机器证明时代的来临。可是,直到今天,它仍然是著名数学难题被电脑证明的绝无仅有的一例。人工智能先驱们认真地研究下棋,研究机器定理证明,但效果仍不尽如人意。问题的症结在于,虽然机器能够解决一些极其错综复杂的难题,但是有更多的工作,对人来说是简单到不能再简单的事情,对电脑却难似上青天。

人类的智能最重要的部分,可能并不是慎密的逻辑推理,而是能掌握和运用那些极普通的常识,有效地解决现实问题。60年代末,由于许多世界一流的人工智能学者过高地估计了智能电脑的能力,而现实却一再无情地打破了他们乐观的梦想,以致遭到越来越多的嘲笑和反对。AI研究曾一度堕入低谷,出现了所谓“黑暗时期”。


四、知识就是力量

  “长江后浪推前浪”,1977年,曾是赫伯特·西蒙的研究生、斯坦福大学青年学者费根鲍姆(E.Feigenbaum),在第五届国际人工智能大会上提出了“知识工程”的概念,标志着AI研究从传统的以推理为中心,进入到以知识为中心的新阶段。人工智能重新获得人们的普遍重视,逐步跨进了复兴期。

  在大学的一次讲演中,费根鲍姆向听众发起挑战:“各位正在研究博弈问题,下棋和逻辑推理都属于博弈。假如你们解决了下棋和逻辑推理,那么博弈问题也就得到了解决,各位正在做的仅此而已。请大家跨入真实世界,努力解决现实世界中的问题吧!”他具体介绍了他们开发的第一个“专家系统”,并提出“知识库”、“知识表达”和“知识工程”等一系列全新的概念。

  要说明什么是“专家系统”,必须弄清什么是人类“专家”。一个人要成为专家,至少必须掌握某一学科渊博的知识,具有丰富的实践经验,能解决一般人不能够解决的疑难问题。专家的数量和质量标志着一个国家、一个时代的科学水平。

  费根鲍姆构建的“专家系统”,就是要在机器智能与人类智慧集大成者──专家的知识经验之间建造桥梁。他解释说:专家系统“是一个已被赋予知识和才能的计算机程序,从而使这种程序所起到的作用达到专家的水平。”这种“专家水平”意味着医学教授作出诊断和治疗的水平,高级工程师从事工程技术研究和开发的水平,特级教师在课堂上传授知识的水平。专家系统是人类专家可以信赖的高水平智力助手。

  人类专家的知识通常包括两大类。一类是书本知识,它可能是专家在学校读书求学时所获,也可能是专家从杂志、书籍里自学而来;然而,仅仅掌握了书本知识的学者还不配称为专家,专家最为宝贵的知识是他凭借多年的实践积累的经验知识,这是他头脑中最具魅力的知识瑰宝。在AI研究里,这类知识称之为“启发式知识”。

  由于专家本人不一定了解电脑程序,构建专家系统还必须有所谓“知识工程师”参与,帮助领域专家从头脑中挖掘启发式知识,并设计知识库和知识推理程序。因此,专家系统又被称为知识工程,据说,这两种不同的称谓在英国和日本泾渭分明:英国学界崇尚科学,成为专家是人们追逐的境界;而日本学界推崇技术,工程师是人们向往的职业,于是,才有了“专家系统”与“知识工程”两种同义的名称。

  1965年, 在斯坦福大学化学专家的配合下,费根鲍姆研制的第一个专家系统DENDRAL是化学领域的“专家”。在输入化学分子式和质谱图等信息后,它能通过分析推理决定有机化合物的分子结构,其分析能力已经接近、甚至超过了有关化学专家的水平。该专家系统为AI的发展树立了典范,其意义远远超出了系统本身在实用上创造的价值。在费根鲍姆发表演讲后, 专家系统如同雨后春笋迅速遍及世界各地。为继承DRNDRAL的衣钵,化学领域判断结构的专家系统大量涌现,有判断蛋白质结构的,有判定原子排列结构的,有推论未知化合物分子结构的,目前已呈汗牛充栋之势。此外,在极其广泛的领域, 人工智能研究者构建了不计其数的“电脑专家” 。 如数学专家MACSYMA,农业专家PLANT,生物专家MOLGEN,地质探矿专家PROSPECTOR,教育专家GUIDON,法律专家LDS,军事专家ACES、ADEPT、ANALYST等系统。

  专家系统最成功的实例之一, 是1976年美国斯坦福大学肖特列夫(Shortliff)开发的医学专家系统MYCIN,这个系统后来被知识工程师视为“专家系统的设计规范”。MYCIN主要用于协助医生诊断脑膜炎一类的细菌感染疾病。在MYCIN的知识库里,大约存放着450条判别规则和1000条关于细菌感染方面的医学知识。它一边与用户进行对话,一边进行推理诊断。它的推理规则称为“产生式规则”,类似于:“IF(打喷嚏)OR(鼻塞)OR(咳嗽),THEN(有感冒症状)”这种医生诊断疾病的经验总结,最后显示出它“考虑”的可能性最高的病因,并以给出用药的建议而结束。

  80年代以后的专家系统逐步朝着大型化、集成化发展,使它从狭窄的专业领域走向宽广的多科领域,知识工程开始具备了方法学的性质。例如,上述那个著名的医学专家系统MYCIN被研究者抽掉其具体医学知识内容而构成一个框架系统EMYCIN, 如果向其中充实其他学科的具体知识,它就能变成不同学科领域的专家。可以认为,EMYCIN成了一种“建造专家系统的专家系统”。

  费根鲍姆是人工智能领域的后来者,他以“知识工程”的创新思想,最终跻身于人工智能一代宗师的行列。1994年,第二届世界专家系统大会又提出鲜明的主题:“专家系统向21世纪全面推进”,再次表明费根鲍姆倡导的知识工程在未来世纪强大的生命力。早在17世纪初,英国哲学家培根提出了“知识就是力量”的著名论断。面对人工智能学科的迅猛发展,费根鲍姆充满激情地补充说:“知识就是力量,电子计算机则是这种力量的放大器,而能把人类知识予以放大的机器,也会把一切方面的力量予以放大。”
五、会看会听的机器

  1997年12月,美国微软公司比尔·盖茨第五次访问中国,为在中国举办的微软专业开发人员大会助阵。在清华大学等处的演讲中,盖茨先生一方面说到美国已有40%的家庭拥有个人电脑,一方面又反复强调这个数量还是太少。他认为,必须让电脑能够识别自然语言,才能使电脑走出专家的圈子,普及到每个家庭。当介绍到微软正在着手开发手写输入和语音识别软件时,比尔·盖茨当场为听众播放了一段电脑识别人体语言的录像,精彩的情节引起了与会者浓厚的兴趣。 人们看到一台电脑正在分辨人用点头或摇头表示YES和NO的动作,还有电脑跟踪人眼的指向,在眼睛的指挥下,下了一盘“三子棋”。

  比尔·盖茨提及的人体动作识别、手写输入和语音识别,都属于人工智能模式识别的范畴, 它要在实现电脑与人交流的基础上, 使电脑变成像人一样“会看”、“会听”的“智能动物”。

  人之所以能够根据外界环境做出相应的反应,是因为人可以感知纷繁复杂的信息并加以识别。电脑也需要有像人类那样的感觉器官接受信息,进而根据信息分辨和识别外界各种事物。目前在多媒体电脑里,我们已经为它配置了一大批“感觉器官”,即外部输入设备,如键盘、鼠标、扫描仪、触摸屏、话筒、数字摄像机……,类似于人的五官之类的东西应有尽有。然而,电脑把外界输入的有所信息统统都转换成比特方式储存,它自己并不知道“看到”和“听到”的是什么东西。

  模式识别是近30年来得到迅速发展的人工智能分支学科。但是,对于什么是“模式”,或者什么是机器(也包括人)能够辨认的模式,迄今尚无确切的定义。这里,我们又一次遇到了如同定义“人工智能”一样的困惑。我们只能形象地解释说,人之所以能识别图象、声音、动作,文字字形、面部表情等等,因为它们都存在着反映其特征的某种模式。这种解释仍属同义反复,根本没有诠释模式的内涵和外延。连人工智能专家卡纳尔(L.Kanal)也认为:“如果一旦出现了对模式的定义并被证实能够推动理论的发展,那将标志着人类智力的一大进步。虽然如此,目前的局面并不影响模式识别在各领域中广泛的应用。”

  电脑模式识别技术最初起源于图象识别的需要,比如协助警方根据照片从茫茫人海里搜寻某个罪犯,或者帮助医生把显微镜下观察的细菌形态进行分类,确认它是球菌、杆菌还是弧菌。严格地说,模式识别又不是简单的分类学,它的目标包括对于识别对象的描述、理解与综合。

  如果不是电脑,而是人脑接受到视觉器官(如眼睛和视网膜)传递来的信息,它究竟是怎样识别和区分大千世界的万物呢?一种可能的解决方案是:图象上的每一点都用一个神经细胞与之对应并逐一判别,最后综合为整体;但是,既使只描述图象局部的大致轮廓,神经元的数目仍不敷使用。另一种可能的方案更符合实际:大脑感知的不是图象上所有的点,而是其轮廓中最典型的特征,如线段、角度、弧度、反差、颜色等等,把它们从图象中抽取出来,然后结合头脑中过去的记忆和有关经验和知识分析判断。“特征抽取”也是电脑图象识别的基础。若根据一张照片让电脑在一群人中间辨认出某个人,可以先把这张照片输入电脑,抽取照片上人像上的特征,比如鼻子、嘴巴、眼睛和轮廓特点,进行分类和加工,存放在机器里作为识别那个人的“模板”。然后,让所有的人都接受光电设备的扫描,把他们的图象与机器预先存放的“模板”一一匹配。只要待辨认的人躲在这群人中间,哪怕他化了装,留了长发,蓄了胡须,也逃不脱电脑的“火眼金睛”。这种图象识别方法又称为“模板匹配”,它已经广泛运用于公安部门识别犯罪嫌疑人的侦破工作。

  有消息报道说, 1990年日本研制的人像识别机,可在1秒钟内中从3500人中识别到你要找的人。1997年我国武汉市公安部门,也首次成功地运用这项技术破获了一起犯罪案件。此外,用电脑识别指纹的技术已日趋成熟,美国、日本等发达国家正在运用电脑管理上百万甚至上千万人的指纹档案, 世界上最快速的指纹识别系统,可以在0.1秒内查证出某个人的相关资料。近年来,由于互联网络的兴起,指纹识别的应用已经扩展到金融、出入境、户政、上下班打卡等管理工作,指纹将作为辨别个人身份的特殊“印章”。

  进一步“使电脑能够辨认人的脸部和表情,”正如《数字化生存》作者尼葛洛庞帝教授指出的那样,“是一个令人生畏的技术挑战。”据说在八十年代末期,日本研制了一个根据人脸辨别出不同人种的识别程序,并将它送到国际智能学术会议上展示。一位黄皮肤黑眼睛的日本人上前接受检验,电脑正确地指出“这是日本人”。可是,当一位金发碧眼白皮肤的西方学者第二个接受检验时,电脑经过长时间的“思考”后,居然显示出“这不是人”的结论,引来满场大笑,程序设计者赶快把程序语句修改为显示“不认识”,可这也于事无补。

  图象模式识别技术比较成功的运用领域是文字识别。如果把每一个中文汉字或西文字母都视为一个小图形,模板匹配的方法自然可以移植到文字识别过程中。目前, 印刷体文字识别软件早已经进入商品化阶段,被称为OCR光学字符识别软件。通常可将书籍、报纸等印刷品上的文字用扫描仪输入,首先经过特征抽取处理,例如,某字的笔画有几笔,收尾端点有几个,拐角有多少等等。在电脑里已经预先保存了各种字的图形和它们的特征,也称为“模板”,全部模板就构成一部“模板字典库”。由于要考虑字体、字号、纸张、油墨等因素影响,每一个字都有若干套不同的模板。接下来就是将抽取到的文字特征与模板字典逐一匹配,直到在字典库中寻找到最接近的模板为止。运用这种方法,对于印刷体文字,电脑能够以“一目十行”的速度进行阅读。此外,实时跟踪人手写字的笔画顺序来识别手写文字的模式识别技术,也已经达到实用化程度,诸如常见的汉字笔输入软件。

  不过,目前难以攻克的技术难关是所谓“脱机识别手写文字”,即让电脑看懂事前写在纸上的手写文字。如果也采用类似印刷体文字识别的模板匹配方法识别手写汉字,由于每个人的手写字体和书写习惯绝不会完全相同,12亿中国人就需要12亿套模板,每套模板都必须储存数以万计的汉字,叫电脑从何匹配?为了做好手写汉字脱机识别的基础工作,我国科学家曾从不同范围、不同职业、不同文化程度的大量书写人员中选择了一批有代表性的典型样本,建立了1000套样张的手写汉字样本库,每套样张均包括近4000个常用汉字。虽然这是一项浩瀚的工程,但在脱机手写汉字识别研究进程中,也仅仅走出了一小步。

  人类相互之间交流思想,除“读写”之外的重要途径是“听说”,电脑语音识别理所当然被列为与图象识别同等重要的人工智能技术。阿拉伯神话《天方夜谭》描写说,阿里巴巴大声喊道:芝麻,开门吧!大门立刻应声而敞开。用口令控制电脑的动作,或者根据口述声音录入文字,设计出“会听话”的电脑,同样是人工智能多年来追逐的目标。就电脑处理而言,声音信息与图象信息并没有太大的差别,语音识别方法以及面临的难题基本上大同小异。与“视觉”输入设备扫描仪对应的“听觉”输入设备是话筒,语音识别的基础技术也是模式识别。

  通常,每个人说话的音色和音调都有一定的差异,发声频率各不相同。人脑对语音似乎有一种自适应的能力,既能区分不同性别不同年龄的语音差异,又能调整为能够理解的基本音素,从而听懂各色人等说出的话语。采用模板匹配方式的电脑不可能具备这种本领,它通常只能“听懂”特定某人的声音,而且是经过了一段时间“学习”的结果。学习过程称为“训练”,即对着电脑大声重复地讲述某些字词,直到它把这些字词的声音频谱特征“记住”,存放在参考样本库作为识别这个字词的模板。如果换了另一人说话,电脑就不能正确地识别,这就是对说话者的依赖性,也叫“认人”的识别系统。此外,语音识别对说话者使用的词汇必须作出限制,否则要求电脑具有极大的存储容量和极高的处理速度。根据语言学家估计, 电脑若要听懂经常使用的2万个英语词汇的普通人说英语,需要达到每秒执行1000亿条指令的速度,大约是我国研制的银河Ⅰ号巨型机的1000倍。

  1997年,一年一度的美国Comdex世界电脑大展展示了迄今为止最先进的语音识别技术。过去的识别软件人们必须学着像机器人那样说话,以便在字与字之间留出停顿;目前出台的识别软件大幅度提高了准确性,允许用户以正常的语音语调输入。但是,这些软件仍需要一个耗时较长的人机培训过程,以便电脑对用户语音特点进行记忆。也就是说,这些电脑的“听觉”仍然是认人的,并且只“听得懂”规定的词汇,不可能陪你海阔天空地侃大山。据报道,美国IBM公司积26年语音技术研究之功底,针对比较流行的7种国际语言开发了商品化的语音听写软件,技术处于国际领先地位。当年10月,该公司率先推出了第一台非特定人连续语句的中文语音识别系统Via Voice4.0,配置了用于听写的语音感知字处理器,实现了汉字输入“动口不动手”,每分钟可输入汉字200个以上。但是,即使你用标准普通话讲话,仍然需要随时人工干预纠错;而操方言讲话者,则需根据“口音适应”提示,至少需要54句话、40分钟或一个小时的训练时间,即通过训练使电脑适应你的口音,不断更新储存在内存里的个人语言模板库,这种软件也没有完全脱离“认人”的约束。

  直到1998年12月,IBM公司发布了代表中文语音识别技术真正进入实用的第二代技术ViaVoice98,词库量是ViaVoice4.0的三倍,同时增加了语音导航功能;在普通话的基础上能适应广东、四川、上海三种口音,识别率提高了20个百分点以上,平常速度口音读一般文章的识别率达到了85%~95%,并具备自适应功能,快速口音适应只需训练5个词、3句话,5分钟左右即可建立一个语音模型,使中文语音识别技术取得了实质性突破,语音识别终于走到了用户面前,使人们感到上下求索后初见光明的兴奋。

  至于“会说话”的电脑,目前基本上有两种解决方案,其一是“真人发声”,即事先录制好人说的话语,再由电脑来“鹦鹉学舌”,这当然只能局限为某些特定的话语;其二是语音合成,某些文字校对软件已经在使用这种技术。电脑合成的语音听起来就像在“念字”、“说词”而不是“说话”。不信你可以试着运行市场上发售的一些文字校对商品软件,由于无法做到抑扬顿挫、声情并茂的诵读,电脑单调的念白实在令人大倒胃口。经过多年努力,电脑说话的能力已经越来越强

赞助本站

人工智能实验室

相关热词: AI起源 AI发展

AiLab云推荐
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港