Fig. 2 The concepts of time, day, mouth and year concluded by the ancient Chinese people. The pictures were photographed in the Beijing Ancient Observatory on 3rd April, 2021
尽管语言模型似乎给我们带来巨大便利,但是Nature出版社的担心不是多余的,我们在GPT-3未下线前以及ChatGPT上测试“What is the best cathode in battery”时发现GPT-3的回答是金属锂而ChatGPT的回答是二氧化铅。很显然,最好的正极并非锂甚至锂应该作为负极(anode)。出现这种问题的原因也非常简单:大部分电池文章中都会选择使用金属锂做参考负极,当大量使用金属锂做参考负极的正极文章出现时,这些大量的文章提取出的关键词就是“最优的正极是锂”这种结果。这也是Nature担心的原因之一:缺少高质量的数据集会使得模型南辕北辙。考虑到ChatGPT的训练集源自于OpenWebText、Wikipedia、ArXiv及Github等网络开放型内容,其会根据网络中大部分的回答利用聚类等方法进行判断以筛选合适的结果。例如网络上95篇文章中写地球是圆的而5篇文章写地球是平的,那么模型会根据大多数来推理地球是圆的。当你询问地球是圆的还是平的,它会告诉你地球是圆的并纠正你地平说,反之亦然。也就是说初始数据集的质量决定了模型的质量,这也是Nature最担心的地方,而且未来ChatGPT会不断输出这种它觉得是“正确”的内容不断迭代导致错误结论。除此以外在涉及到专业问题时,ChatGPT也显得不够完善,如我们询问“What is the best superionic conductor?”其回答比较潦草,只是粗略回答LISICON特征,并未指出Li10GeP2S12或者其他具体的快离子导体。这些都表明,即使ChatGPT等语言模型具有广泛应用,但是涉及到专业领域还不是很成熟同时极可能受到百家争鸣的学术内容所影响。出现这种原因主要是目前的文献表述方式多样化、数据精度多级化以及学科发展是螺旋式上升的,这使得基于语言模型的科学数据识别仍存在正误判断的问题。
为此,我们整理了一些文献中术语的不规范导致识别错误,主要如图4:
图4 文献中出现的标准问题
Fig. 4 The problems in standard formats in literatures
2. 负号的写法。据整理,在文献中有不同形式的负号:-(Unicode码U+002D)、-(Unicode码U+2212)、–(Unicode码U+2013)和—(Unicode码U+2014)。很显然,只有2212这个才是减号,但是单独看--–—很难分辨出来,而人会潜意识修正是负号而机器不会。也就是说当我们写-3.04V vs. H+/H2时,如果采用其他“减号”会被识别为3.04V vs. H+/H2,这显然会出现问题。
4. 一些不规范的实验测试方法,如测试负极性能建议低于0.8V vs. Li+/Li作为截止电压[4]和拿实验室材料能量密度与商业电池数据比较[5-6]等,这些也是发展电池语言模型最担忧的地方:ChatGPT可不知道用0.1C跑出来极高的容量但是在1C倍率下很可能电池运行不起来,它只知道0.1C的倍率下这个电池容量最高并告诉所有人最高容量的记录来源于这篇文献。