# 如何衡量人工智能

Published at: 2026-02-26 00:00:00


## 标题

如何衡量人工智能

## 摘要

文本介绍了图灵测试、洛夫莱斯测试及改良版洛夫莱斯2.0，指出当前AI虽能通过图灵测试，在创意领域应用广泛，但难通过洛夫莱斯2.0测试，因缺乏幽默、同理心等人类特质，学者正以创造力衡量AI智能。

## 封面图外部URL

https://dagle.baklib.com/-/dam/assets/organization_vd3cg8--main-version/eyJfcmFpbHMiOnsiZGF0YSI6eyJpZCI6MzIyNjAsInBhdGgiOiJpbWFnZS5wbmciLCJ0aW1lc3RhbXAiOiIyMDI0LTEyLTA1IDE0OjUwOjM5ICswODAwIn0sInB1ciI6Im9yZ2FuaXphdGlvbl92ZDNjZzgtLW1haW4tdmVyc2lvbiJ9fQ--1c43726e10ac0adb4ec170e7aba3eceebcba239fb18e21006ac643267b5e24c6/image.png

## 页面内容

## 图灵测试
衡量机器智能最著名的测试之一仍是图灵测试，由现代计算之父艾伦·图灵提出。这位在2014年电影《模仿游戏》中由本尼迪克特·康伯巴奇扮演的传奇人物，设计了这项开创性的评估标准。当一台机器能够成功模拟人类行为，以至于让我们误以为它是真实人类时，它就通过了测试。就在电影上映的同一年，名为&quot;尤金·古斯特曼&quot;的聊天机器人成功通过了测试，它伪装成一位英语不流利的乌克兰青少年。人群为此沸腾了整整一小时，直到后来发现这个机器人远未达到类人智能水平，实际上相当&quot;笨拙&quot;。如今，大多数聊天机器人都能通过这项测试，但即使是最顶尖的系统也难称得上真正获得了&quot;A+&quot;评级。图灵的方法论曾被批评将人工智能降级为魔术戏法般的存在，且过于简化。但我们应该记得，这项测试是时代的产物，其持续的相关性恰恰证明了图灵遗产的持久影响力。
## 洛夫莱斯测试
接下来是洛夫莱斯测试，这个恰如其分的命名源自一位代表创造力与计算科学交汇的女性。阿达·洛夫莱斯是浪漫主义诗人拜伦勋爵的女儿，19世纪中期曾与查尔斯·巴贝奇合作开展其命运多舩的分析机项目。她认为，机器人必须超越其预设指令，或突破既定程序，才能被视为具有智能。

&gt; 分析引擎没有任何创造发明的企图。它只能执行我们命令它去做的任何事情。

**艾达·洛夫莱斯** 洛夫莱斯测试是由包括后来开发了IBM“危险边缘”问答挑战赛冠军沃森（Watson）的大卫·费鲁奇在内的一个计算机科学家团队在2002年设计的。只有当机器能够生成一个原创想法，而其人类创造者无法解释它是如何做到时，才能通过这个测试。这将证明它能够独立思考，超越自身的代码。虽然这个测试有用，但它没有承认AI的新奇创造可能仅仅是一个偶然。佐治亚理工学院教授马克·里德尔提出的[一项近期修改](https://arxiv.org/abs/1410.6142)——洛夫莱斯2.0——引入了随机约束，例如“创作一个故事，其中男孩爱上了女孩，外星人绑架了男孩，女孩在一只会说话的猫的帮助下拯救了世界。” “法官”是一个没有参与AI编程的人，并且知道他们正在与一个AI互动。AI必须是凭借设计而非偶然来创造，就像无限猴子定理（该定理指出，一只猴子在无限长的时间内随机敲击打字机，最终会打出莎士比亚的全部作品）。不出所料，洛夫莱斯2.0要棘手得多，因为它要求理解被询问的内容，并且重要的是，要理解所提取数据的语义。
## 人工智能能否真正比肩人类智能？
越来越多的AI研究人员和学者正在将创造力——横向思考、建立非典型联系以及产生原创输出的能力——作为衡量智能的一个替代指标。这是一个有趣的转变，不再仅仅通过计算或机械技能来衡量AI的成功。在创意产业中，人工智能的应用如今已无处不在：AI可以[制作电影预告片](https://www.youtube.com/watch?v=gJEzuYynaiw)、[发明古怪的食谱](https://www.buzzfeed.com/andyneuenschwander/people-are-losing-it-over-this-computers-hilarious-attempt)（有人想尝尝朝鲜蓟凝胶热狗吗？）、[像伦勃朗一样作画](https://www.pcworld.com/article/420466/ai-just-3d-printed-a-brand-new-rembrandt-and-its-shockingly-good.html)，还能[创作俗气的流行情歌](https://www.scientificamerican.com/article/a-compendium-of-ai-composed-pop-songs/)。它可以扮演艺术家的角色，或者在商业环境中，成为设计师或营销人员的得力助手。例如，[Baklib利用人工智能为其搜索功能提供动力，并替客户完成繁重的图片标记工作](https://www.baklib.com/s/dam)。虽然这一切都非常令人印象深刻，但很难想象一个人工智能如何能出色地通过洛夫莱斯2.0测试。迄今为止，机器学习领域最受赞誉的里程碑之一是谷歌的人工神经网络通过[自我学习来识别猫](https://www.wired.com/2012/06/google-x-neural-network/)。然而，这与匹配人类智力相比仍有光年之遥。人工神经网络只能执行那些首先被“数学化”并编码的任务。幽默、同理心和共同理解——也被称为社会认知——这些基本的人类特质[已被证明难以用数学形式化](https://www.technologyreview.com/2014/06/17/111688/what-am-i-thinking-about-you/)。这就是为什么教会机器撰写一篇基本新闻报道所需的文化主观性和敏感性都具有挑战性，更不用说创作一部畅销小说了。测试自然智能已经足够复杂；而人工智能则完全是另一个层面的游戏。但这或许正是关键所在。这类测试的价值可能并不在于它们给出的结果——其作用在于为人工智能的发展提供参照，并促使我们重新思考我们对人工智能所设定的标准。如果自由意志和个体性是智力或创造力不可或缺的组成部分，那么很难想象由人类编程的机器能达到这一标准。也许我们应该更多地关注有限人工智能的实际应用（例如[谷歌 Duplex](https://financialpost.com/technology/google-virtual-assistant-duplex-books-appointments-over-phone-in-creepily-realistic-voice/)），而不是执着于追求那种具有自我意识、与我们一样聪明，或能复制我们思维、感受和创造方式的机器，这更像是一个存在主义层面的追求。想了解更多关于深度学习和人工智能在[数字资产管理（DAM）](https://www.baklib.com/glossary/dam)及创意产业中的未来吗？请在此处[下载Baklib的免费指南](https://www.baklib.com/s/dam)。


