百度“文心一言”的人工智能达到什么水平？我用中学题目测了一遍，结果发现...（组图）

2023-03-18 来源：项栋梁基本常识原文链接评论4条

大语言模型的开发和训练是极其困难的，而中文大语言模型的训练因为种种原因，困难程度还要高一个等级。

百度“文心一言”的人工智能达到什么水平？我用中学题目测了一遍，结果发现...（组图） - 1

一方面，全球互联网的信息中，中文信息所占的比例是相对较小的。在学术论文、各行各业专业网站等成体系的知识里，中文所占的比例就更小了。从“喂养”人工智能的语料丰富程度来对比，中文在起跑时就已经落后了一截。

另一方面，中文真实世界的信息电子化程度还相对比较低。不管是人也好，人工智能也好，想要通过互联网了解一个真实的中国都比较困难。

举个例子：我写健康科普的时候想要查询最新的《中国居民膳食营养指南》，发现中国营养学会的官网并没有提供查询工具，也没有提供指南的PDF版，只有纸质书的购买链接。与之对应的，某英文国家的居民膳食营养指南就能很便捷地查询到电子版。

也因此，一个基于互联网信息的人工智能想要帮助我们解答在中文世界里遇到的真实问题，自然就没那么容易。

作为中文世界第一个交卷的人工智能大语言模型，百度的文心一言显现出和ChatGPT的差距是意料之中的事情。

我更关心的是：文心一言到底被训练到了怎样的智能程度，距离可以帮助我们解答现实中的问题到底还有多远？

百度“文心一言”的人工智能达到什么水平？我用中学题目测了一遍，结果发现...（组图） - 2

电影《人工智能》海报带着这样的目标，我用自拟的一套中学水平的题目测试了一下文心一言，看看它解决语文、数学、英语、物理、化学、历史问题到底能拿多少分。

没想到，答得最好的居然是历史题。

一、语文题我选了一个比较特别的成语【空穴来风】来测试文心一言。

百度“文心一言”的人工智能达到什么水平？我用中学题目测了一遍，结果发现...（组图） - 3

意料之外的惊喜，文心一言给出了一个满分的回答，把空穴来风本来的意思和被广泛误用之后的意思都列了出来，并且举了两个很好理解的案例。整个回答的结构也让人非常舒服。作为对比，我用百度搜索了同样的问题，得到的结果就远不如文心一言的答案。

百度“文心一言”的人工智能达到什么水平？我用中学题目测了一遍，结果发现...（组图） - 4

在这个场景里面，文心一言起到了信息汇总和分析的作用，这是人工智能相比传统搜索引擎的优势所在。接着我又测试了写作文的能力，给的是经典题目《难忘的一天》，指定了一些人物和时间的细节。

百度“文心一言”的人工智能达到什么水平？我用中学题目测了一遍，结果发现...（组图） - 5

这个题目，文心一言给出了一个像模像样但是只能打50分的回答。一方面，它正确理解了《难忘的一天》含义，另一方面，它并没有理解我特意设置2月14日这一天的用心，也没有注意到主人公的年龄只有15岁并不适合进酒吧。如果我想用百度搜索来解决这个问题，就只能这么搜索，然后再用范文拼凑修改一篇。没有原创性，但不会犯15岁进酒吧这样的错误。

百度“文心一言”的人工智能达到什么水平？我用中学题目测了一遍，结果发现...（组图） - 6