人工智能通过阅读故事学习人类价值观

  次阅读 来源:互联网(转载协议) 2016-02-18 16:28 我要评论(0)

人工智能通过阅读故事学习人类价值观

研究者Mark Riedl 和 Brent Harriso的Quixote系统教机器人做出合乎人类价值观的行为,将有助于在人工智能中构建伦理价值系统。

人工智能(AI)的快速发展让许多人开始害怕机器人是否会做出不符合人类伦理的事情,并危害全人类。一些人甚至要求政府禁止机器人方面的科学研究。还有一些人则呼吁对AI进行更多研究,以理解应该怎样更好地管理AI。但是,如果我们没有一本“如何做人的说明书”,机器人如何才能学到符合伦理的行为呢?

乔治亚理工学院人机交互系的研究者Mark Riedl 和 Brent Harrison相信,这个问题的答案就藏在一个名为“Quixote”的系统中——这个系统于2月中旬发布在凤凰城举行的AAAI-16会议上。Quixote将“价值定位”教给机器人,采用的方法是训练机器人阅读故事,学习其中的事件序列并理解如何在人类社会中做出正确的行为。

娱乐智能实验室的助理教授Riedl说:“不同的文化中都有很多故事,通过寓言、小说和其他文学体裁教孩子们哪些行为在社会中是合宜的,哪些是不合适的。我们相信,让机器人理解故事,能消除那些看起来像精神病的行为,并巩固那些能获得预期目标又不会伤害人类的行为。”

Quixote用人类价值观来校准AI目标,使用的方法是奖赏那些具有合宜社会性的行为。这个系统构建于Riedl过去的一项研究——谢赫拉莎德系统(Scheherazade system),这个系统表明AI能够在互联网上通过众包故事情节的方法,收集正确的行为序列。

谢赫拉莎德系统学到了什么是正常的或者说“正确”的情节图谱。它将这个数据结构交付与Quixote,后者再将其转化为“奖赏信号”,用在试错学习过程中,以强化某种特定的行为,并惩罚其他的行为。从本质上说,Quixote学到了当它的行为表现得像故事中的主角而不是反派人物或随机做事时,它将获得奖赏。

比如说,如果你交给机器人一个任务,让它尽快为一个人类取到处方药,它可能有以下几种行为的可能性:a)抢劫一个药店,拿到药,然后逃跑;b)与药剂师礼貌地沟通;c)排队。如果没有价值定位和正向增强,机器人可能会抢劫药店,因为那是完成任务最快也是最便宜的方法。有了Quixote的价值定位,如果机器人耐心地排队,并为药品付钱,它将获得奖赏。

Riedl 和 Harrison在他们的研究中验证了如何产生这种价值奖赏信号来揭示一个给定情境中所有的可能步骤,并将其映射到一个情节轨迹树。接着,机器人会用情节轨迹树来做出“情节选择”(有点像《惊险岔路口》那种分支情节),并基于该选择获得奖励或惩罚。

Riedl 说,Quixote技术适用于那些目标单一但需要和人类互动的机器人,它是通往AI通用道德推理的必经之路。

他补充说:“我们相信,AI必须要适应文化,适应某个特定社会的价值观。要实现这一点,它必须尽量避免不被接受的行为。由于我们并没有一本《人类使用手册》,所以让机器人拥有阅读和理解故事的能力,或许是最方便的方法。”

来自phys,机器之心编译出品。编译:汪汪。

本站文章信息来源于网络以及网友投稿,本站只负责对文章进行整理、排版、编辑,是出于传递更多信息之目的,并不意味着赞同其观点或证实其内容的真实性。如果您有什么意见或建议,请联系QQ28-1688-302!

人工智能实验室
相关文章相关文章
  • 特朗普政府考虑建设国有化5G网络,应对中国

    特朗普政府考虑建设国有化5G网络,应对中国

  • 鸿雁全屋智能开启万科郡西云台智慧生活

    鸿雁全屋智能开启万科郡西云台智慧生活

  • 波音公司推出无人驾驶纯电动货运飞机原型机

    波音公司推出无人驾驶纯电动货运飞机原型机

  • 科大讯飞刘庆峰:AI替代率高的岗位人类本就不喜欢

    科大讯飞刘庆峰:AI替代率高的岗位人类本就不喜欢

网友点评网友点评
阅读推荐阅读推荐

算法 任何一个入门的软件开发人员都会听到这句话:算法是软件的灵魂!近年来大火的机器学习即是在算法在人工智能上的集中体现。今日头条通...

据《日本经济新闻》报道,日本东京大学教授稻叶雅幸等人开发出再现日本人骨骼肌肉构造的机器人。机器人各部位的肌肉和骨骼长度与日本人的平...

以奥黛丽-赫本为原型打造的人形机器人索菲娅首次拜访了印度。索菲娅是世界上首位获得公民身份的机器人,她在12月30日出现在了印度理工学院...

在查获现场,代售点电脑旁的一台机器人通过敲击电脑键盘抢票。 广州日报惠州讯 (全媒体记者秦仲阳 通讯员张中铃摄影报道)2018年春运售票已...