adccarry 发表于 2024-9-20 11:13:03

【学术争鸣】李泓 等:基于大型语言模型的工具对电池研究的机遇与挑战

【学术争鸣】李泓 等:基于大型语言模型的工具对电池研究的机遇与挑战

作者:吴思远 王雪龙 肖睿娟 李泓

单位:中国科学院物理研究所

DOI:10.19799/j.cnki.2095-4239.2023.0071

摘 要:近期,ChatGPT和GPT-3等大型自然语言模型的出现在学术界引发巨大热议;此外,Nature出版集团指出可以使用ChatGPT辅助文章撰写,这表明人工智能特别是自然语言处理将在学术文献领域引起巨大改变。对于电池领域来说,目前这些工具在电池以及储能领域有什么作用,它们在电池领域存在哪些问题以及如何改进这些问题尚未有文章讨论。我们近期在文献自动化整理与模型试用的基础上归纳了电池领域开展信息自动整理归类的问题与挑战、面对大型语言模型电池领域特别是储能从业人员如何面对以及学习。我们强调由于一些术语未按照标准化书写导致电池领域获取高质量数据集存在较大阻碍,这些将限制着电池研究中引入大型语言模型技术的发展。

关键词:二次电池;自然语言处理;自动化

1简介

      近期,大型自然语言模型的出现在学术界引发了巨大的讨论,这些模型如Facebook的GPT-3和OpenAI的ChatGPT能够做到问答和自动生成一些综述型论文。特别地,Nature出版社明确表明不可以把ChatGPT列入作者但是需要在方法或者致谢处指出使用的模型,这表明大型模型可能在学术研究引起巨大改变和推动作用。

      作为一个新兴的技术,Nature的担心是必要且谨慎的。一方面大型语言模型可以在极短的时间内生成一篇论文并投稿,这不仅仅对出版社的工作带来全新的挑战,同时带来的变化是与科研人员竞争的不仅仅是同行业科研人员,还有这种大型语言模型;另一方面,目前的语言模型存在着一些不精准的内容,这些内容会影响到知识的传播。考虑到ChatGPT等是基于已有的网络文本、维基百科、文献以及论坛等网络开放内容生成,其最大的作用应该还是在已经有的内容上整理总结,对于创新的工作特别是基础科学,尚未有较大的影响。我们根据我们的认知和理解整理了这种大型语言模型可能取代的工作及前景列入图1。这种大规模语言模型主要分为四个领域的应用:问答、整理、校正与归纳。目前这种大型语言模型使用最多的还是类似于一问一答的形式,你问一句,它答一句,相当于一部浓缩了互联网的百科全书;此外,在问答过程中,你也可以让它帮忙收集整理知识,甚至协助我们撰写综述;除此之外,如果有一些错误的地方,它也可以根据网络上大部分的,默认为“正确”的内容予以修正;最后,如果它收集足够多的知识将其整理成一个知识网络,就有可能实现“强人工智能”,自己收集整理知识。



图1   大型语言模型潜在应用

Fig.1   The applications of large language model(s)

      大型语言模型的出现标志着技术的革新和部分行业的更迭,这需要引起储能特别是电池从业者的重视:我们应该如何面对这种新型技术,这些技术的原理是什么,目前存在的问题和挑战又是什么,如何更好地利用这些工具等等这些问题都没有讨论。为此,我们根据过去半年的自然语言模型构建和使用的经验,撰写此篇展望抛砖引玉,以期待储能特别是电池领域能更好地使用和构建自然语言模型。

2人工智能与自然语言处理简介

2.1

人工智能简介

      尽管人工智能是近年来出现的新名词,但实际上古代勤劳的中国人民已经在广泛使用大数据和人工智能指导农业和交通。

      “朝霞不出门,晚霞行千里”,短短的十个字就囊括了光折射与人、太阳与云层相对位置的关系。虽然古代人们没有发展出完善的大气和物理知识,但是通过对大量日常观察数据的总结,归纳出一系列经验和规律,这体现了大数据的本质。

      二十四节气的出现也标志着古代科学运用大数据的辉煌成就。比如春分是指太阳直射赤道,全球昼夜等分。虽然说古人没有系统的地理知识,但是通过日积月累得出3月21日附近昼夜等分,过了春分逐渐白昼变长,这种通过大量经验的整理归纳出事物之间的关联性也体现出大数据的本质,而这些关联本质上是客观规律的反应。图2是在北京古观象台拍摄的照片,它们反映了古代劳动人民利用大数据整理的关于时间和日月年的理解,这些早期利用大数据的事件,也一直影响到如今。



图2   古代劳动人民总结的时间与日月年的概念,2021年4月3日摄于北京古观象台

Fig. 2   The concepts of time, day, mouth and year concluded by the ancient Chinese people. The pictures were photographed in the Beijing Ancient Observatory on 3rd April, 2021

       人工智能与上述唯一的差别在于是否由机器整理。随着数据量的增加,数据之间关联性也越来越复杂,光靠人力整理的难度也指数上升,计算机的发展为人工智能的发展起到了推进作用。1990年香港电影《赌侠》中陈刀仔去玩百家乐,侯赛因为了让其输,利用摄像头拍摄了其搓牌画面并分析其可能的点数。我们在图3中复盘了这一过程。可以看成,即使下面大部分被遮住,其最上面露出的部分也各有差异。也就是说,当我们用手搓牌时,会用下面一张牌慢慢下滑逐渐露出下面这张如图3下半部分所示。通过分析上面的部分可以预测这张牌的点数概率,如同电影所述,55%是2,38%是Q,7%是9。也就是说,侯赛因团队做了一个人工智能模型,给出搓牌的上半部分就能预测下面的点数。此外相信看过的读者也记得一个细节:陈刀仔用牙签挡住了牌使得点数判断错误,这也是Nature等担忧的地方:一些干扰数据会影响模型结果,甚至引导错误结论。



图3   扑克牌点数及部分被遮

Fig. 3   The points in poker and partially covered

2.2

自然语言处理基本原理

      自然语言处理,顾名思义就是处理人类产生的而非计算机的语言。相比于计算机语言,自然语言存在着非结构化、无标准形式的特点。一个最显著的例子是购物网站的机器人回答:当你询问发什么快递时,机器人捕获到关键词“快递”就会回答“发xx快递”。这种利用关键词和聚类分析的模型已经广泛的应用到我们生活中的方方面面,其原理也比较简单:抓取关键词来回答,这个也经常会出现一些误判,也就是大家常说的“人工智障”。

      近期出现的大型语言模型与上述不同,是利用时序关联也就是上下文来预测判断语句,早期的AI写诗也是相同的原理。比如说:李泓的研究领域是__,考虑到叫李泓的人不止一个,无法分辨出后续的内容,如果按照上述的方法会选择热度或者互联网上搜索最多的“李泓”,这种利用聚类的方法是根据两者的关联性分析内容而不考虑语序和上下文,对一些冷门的研究人员不利,也就是会出现马太效应。而如果我将其改成中科院物理所李泓的研究领域是__,这样出来的结果就具有唯一性,也就是模型考虑了上下文并利用上下文限制给出答案。另一个比较显著的例子是朝阳,如果搜索朝阳有两个地方:北京市朝阳区和辽宁省朝阳市。考虑到北京的朝阳在互联网上的信息较多,如果单纯写“朝阳发货吗?”系统可能会默认是北京的朝阳区。如果可以通过一些上下文,比如两个朝阳差异的地方如朝阳国际机场,就可以判断出是哪个朝阳。

      我们在收集整理电池文献时发现这种现象极为普遍,尤其是涉及到催化、超级电容器等一些相近学科的文献时会特别明显。例如催化领域会涉及到氧还原反应ORR,部分锂氧电池也会有ORR,那么单独从ORR反应中无法获知是电催化还是锂氧电池,但是如果从上下文捕获到容量(capacity)等其他特征,那这篇文章大概率是电池类的文献。

2.3

目前自然语言处理模型存在的问题

       尽管语言模型似乎给我们带来巨大便利,但是Nature出版社的担心不是多余的,我们在GPT-3未下线前以及ChatGPT上测试“What is the best cathode in battery”时发现GPT-3的回答是金属锂而ChatGPT的回答是二氧化铅。很显然,最好的正极并非锂甚至锂应该作为负极(anode)。出现这种问题的原因也非常简单:大部分电池文章中都会选择使用金属锂做参考负极,当大量使用金属锂做参考负极的正极文章出现时,这些大量的文章提取出的关键词就是“最优的正极是锂”这种结果。这也是Nature担心的原因之一:缺少高质量的数据集会使得模型南辕北辙。考虑到ChatGPT的训练集源自于OpenWebText、Wikipedia、ArXiv及Github等网络开放型内容,其会根据网络中大部分的回答利用聚类等方法进行判断以筛选合适的结果。例如网络上95篇文章中写地球是圆的而5篇文章写地球是平的,那么模型会根据大多数来推理地球是圆的。当你询问地球是圆的还是平的,它会告诉你地球是圆的并纠正你地平说,反之亦然。也就是说初始数据集的质量决定了模型的质量,这也是Nature最担心的地方,而且未来ChatGPT会不断输出这种它觉得是“正确”的内容不断迭代导致错误结论。除此以外在涉及到专业问题时,ChatGPT也显得不够完善,如我们询问“What is the best superionic conductor?”其回答比较潦草,只是粗略回答LISICON特征,并未指出Li10GeP2S12或者其他具体的快离子导体。这些都表明,即使ChatGPT等语言模型具有广泛应用,但是涉及到专业领域还不是很成熟同时极可能受到百家争鸣的学术内容所影响。出现这种原因主要是目前的文献表述方式多样化、数据精度多级化以及学科发展是螺旋式上升的,这使得基于语言模型的科学数据识别仍存在正误判断的问题。

      为此,我们整理了一些文献中术语的不规范导致识别错误,主要如图4:



图4   文献中出现的标准问题

Fig. 4   The problems in standard formats in literatures

      1. 对Li电位书写。按照电化学规范,对Li电位的正确写法是vs. Li+/Li,但很多文献中也出现了vs. Li/Li+的写法。如果没将错误的写法列入识别内容中,则会出现识别不出来的问题。

      2. 负号的写法。据整理,在文献中有不同形式的负号:-(Unicode码U+002D)、-(Unicode码U+2212)、–(Unicode码U+2013)和—(Unicode码U+2014)。很显然,只有2212这个才是减号,但是单独看--–—很难分辨出来,而人会潜意识修正是负号而机器不会。也就是说当我们写-3.04V vs. H+/H2时,如果采用其他“减号”会被识别为3.04V vs. H+/H2,这显然会出现问题。

      3. 一些其他写法,如使用什么符号表示空位,不同的人有不同方法;科学计数法表示电导率,标准写法是1.2*10-2S/cm,一些作者为了换算方便写成12*10-3S/cm。

      4. 一些不规范的实验测试方法,如测试负极性能建议低于0.8V vs. Li+/Li作为截止电压和拿实验室材料能量密度与商业电池数据比较等,这些也是发展电池语言模型最担忧的地方:ChatGPT可不知道用0.1C跑出来极高的容量但是在1C倍率下很可能电池运行不起来,它只知道0.1C的倍率下这个电池容量最高并告诉所有人最高容量的记录来源于这篇文献。

      需要说明的是,尽管以上都可以通过枚举等方式来避免,对于一些未列举的可能会有遗漏。特别地,对于最后一点,仍希望从作者到出版社能通过一些限制以促进电池行业的发展。

3机遇与挑战

      以上我们讨论了作为一个新兴发展的领域——人工智能特别是自然语言处理的基本原理和一些存在的问题。这些问题的存在是一个如图4列出标准化的问题,只有从作者到出版社一起携手制定并遵守标准才能更好地促进电池领域科学大数据的精准获取。同时,我们也要强调:许多人所担心的这些人工智能的出现并不一定会立即影响电池从业者,但部分从事重复性工作的职位仍有被取代的可能。随着人力成本的不断提升,生产资料所有者会通过一些方法降低用人成本,客服就是“前车之鉴”。虽然说客服没有完全被机器人取代,但是大家肉眼可见地发现各种平台和电话出现机器人回答与对话。这种大规模语言模型会以相同的途径,像温水煮青蛙一样慢慢淘汰从事重复性工作的职业,同时,考虑到上述所列举的特别是电池领域高水平数据集获取的问题,这种取代相较于其他行业会具有更长时间。这给我们带来了一些机遇与挑战:如何在产业升级和新型技术发展的浪潮中提升自我、不被淘汰。图5是我们整理的关于新能源从业者面对这种大规模语言模型存在的机遇与挑战及其关联。



图5   新能源从业者的机遇与挑战

Fig. 5   The opportunity and challenge for battery researchers

3.1

客服——前车之鉴

      提到人工智能,很容易想到客服这个行业。很久之前,都是人工来回答一些基础的问题。随着人力成本和计算机的发展,越来越多的客服由机器人代替,并且人工智能的发展使得机器人客服越来越智能。我们认为这种大型语言模型作为一种高级的客服是必然的,它将互联网的内容浓缩整理,让自己成为一部百科全书,这也是ChatGPT最广泛的玩法。但是也如我们前面所述,目前相较于通用性回答,这种模型一旦落入专业领域,就会出现上述讨论的错误或者答非所问的情况,这也给广大的电池从业者带来一些机遇:构建高质量的电池领域的数据集并生成电池专属语言模型。

3.2

资料整理——逐渐淘汰

      在进入一个新领域前,最开始做的事情是搜集已有的工作和文献,这将消耗大量的时间且往往结果并非完整。相较之下,这种大型语言模型将已有的文献收集好并归类,当读者需要就可以自动生成一些综述和介绍。当然,考虑到上述的一些标准化的问题,目前大型语言模型生成的内容并非100%可信,这也更加意味着对于电池从业者来说是一份机遇:一方面我们可以利用这种模型辅助我们的科研生产工作,对于文献整理归纳会高效得多;另一方面,由于一些上述的噪音的存在,目前电池专属的语言模型尚未完善,这需要电池从业者共同努力,逐渐形成高质量数据集并产生专属模型。当专属模型生成后,每隔一段时间,大型语言模型会将自己新收集的内容整理归纳并形成行业报告以供从业者参考。

3.3

校正与编辑——既是帮手也是杀手

      计算机是按照一定的流程去做事情,对于一些重复性结构化的事情,是计算机最擅长也是最容易占领的地方。未来诸如一些结构的整理,文章的修正也会慢慢被语言模型和自动化所取代。这里我们需要强调的是:如3.2类似,对于文字排版的工作目前基本能够取代,但是对于诸如识别出文章中的错误,大型语言模型会和生成综述一样,前期并非完全正确。这也是我们呼吁电池从业者在标准化上达成共识的原因。

3.4

整理与归纳——最终归宿

      考虑到这种模型是基于已有知识的总结与浓缩,大型语言模型的最终归宿应该是自主收集、整理、归纳知识点。这也对模型提出了更高的要求,不仅仅能整理分类,还能凝练知识点、预测发展趋势并生成综述性文章。相较于3.2的行业报告和发展进展,这部分要求结合行业发展的时间线与工作的关联及相关性,以此推导出未来的行业发展动态和趋势。这是3.2所描述的后续发展,不再需要从业者根据大型模型罗列的工作进展分析行业趋势,而是具有强人工智能形式的自主研究生成一些内在的,更高层次的关联。当然,这部分也会最后实现。

3.5

对策与建议

      面对新的技术,我们结合自身认识在图6总结了电池从业者的对策,主要从四个层次逐层发展。



图6   电池从业者的对策

Fig. 6   The countermeasures for battery researchers

       第一层次是一些重复性、结构化的工作,随着劳动成本的上升,这部分如同温水煮青蛙一样逐渐被取代。第二层次是利用这种大型语言模型辅助我们完成一些文献的收集与整理,这部分仅需要我们学会使用别人的模型即可。利用这些模型,我们可以快速地了解一个行业动态,同时我们也要清楚认识目前通用性模型存在着不足,也就是我们之前所讨论的:缺乏高质量数据集。在第二层次基础上,学习一些基本的人工智能知识并构建属于自己的高质量数据集,我们就可以进入第三层次:构建专用模型。按照我们学习的经历,入门机器学习和自然语言处理所需要的基础和时间不高,短则1个月,慢则半年。一些开源的机器学习框架如scikit-learn、TensorFlow 、PyTorch 和Keras 都有较好的入门手册甚至是中文版本介绍,这些手册会很好地引导初学者入门这一领域。此外,如我们前面所述,目前的问题在于缺乏高质量的数据集,而这部分数据集只能由专业人员制作。以我们的经验,一个电池文献分类模型大约需要30天时间,我们每天标记了300篇文章构成高质量的电池文献数据集就能很好地服务于电池从业人员。当拥有高质量数据集时,我们花费很少时间即可浏览电池领域新的文章,这极大地节约了时间成本。也就是说,通过收集整理一些电池文献并将其标准化,去掉一些如图4所列举的不合理书写和浮夸式宣传,就可以形成专用于电池领域的语言模型。尽管已有多篇电池文献多次强调标准化问题,目前仍存在一些非合理的实验方法如测试负极性能时将截止电压提高超过0.8V以提高性能和不科学的比较如拿实验室性能与商业化电池数据比较导致阻碍高质量数据集生成,这也为电池从业者提供新的机遇:唯有电池领域从业者才能找到痛点并改正,生成电池语言模型的高质量数据集只能电池从业者来做。最后是最高层次的应用:让语言模型在行业报告的基础上生成有行业趋势等的综述类文章,当然这同时也需要较高的计算机和数学理论。

    我们最后需要强调:这种取代并非一蹴而就,而是以一种温水煮青蛙形式的慢慢取代。按照已有的文献经验,更新一次需要5-10天,而且是在具有GPU架构的集群上更新。如果按30元/小时租用价格计算,更新一次的成本近万元。这也意味着模型更需要高质量的数据集来减少更新成本。当然这种较高的更新成本也意味着模型具有滞后性:模型不能做到最新进展跟踪而电池领域恰恰是一个较快发展的领域。因此,我们再次呼吁:从出版社到作者构建标准化流程的必要性以及在电池领域构建大型语言模型必须将以上过程标准化和规范化以促进高质量数据集构建,只有形成较高质量的小数据集,才有可能实时做到模型更新并有效服务于新能源从业者。

4结论

      我们就目前出现的大型语言模型的发展和自然语言处理的基本原理进行了一些基本的介绍,希望这篇观点论文可以起到抛砖引玉的作用,让更多电池从业人员了解和熟悉目前人工智能在文本识别与生成的发展现状。同时,我们也强调这种模型对从事重复性工作的从业者来说是一种“温水煮青蛙”形式的取代,也希望从作者到出版社能够按照电池的规范化测试和比较以促进行业发展。最后,我们为不同层次的工作提供了一些对策。

页: [1]
查看完整版本: 【学术争鸣】李泓 等:基于大型语言模型的工具对电池研究的机遇与挑战