如何驾驭大语言模型工具
生成式人工智能(AIGC)发展迅猛,除了ChatGPT,国内的大语言模型也相继涌现:文心一言、通义千问、讯飞星火等都受到了用户和企业的关注。对于各类大语言模型(LLMs),我们往往惊叹于它们的能力,但却很容易忽略两个问题:
如何了解不同LLM的局限?
如何评估不同LLM以选择最适合企业使用的?
本文将从五个方面展开,尝试回答以上问题。
01
保持与供应商沟通的透明度
在文本分析工具推出的早期,行业里充斥着艰涩难懂的专业术语和天花乱坠的炒作,多家供应商都声称自己是最佳选择。与过去相比,生成式人工智能提高了用户的使用便捷性,但它们并不是在所有应用案例中都准确,提示方式也会影响到其产出的质量。
益普索一直以来的建议(未来也是)是要求供应商清晰地阐明其产品的输出和局限性,而不仅仅阐述其优势。具体的考虑因素包括:
清晰地陈述该模型被训练的用途(无论供应商声称的用途是怎样的,我们强烈建议由您自己来测试或查看他人的验证结果,因为LLM的准确性随使用案例而不同);
了解用于训练模型的数据的性质和数据量(以及任何局限),以确定哪些见解直接来自语料库,哪些超越了语料库本身。两者都有产生幻觉(技术创造出的错误“事实”)或误导的可能性;
通过证据证明模型能否随着新数据的加入而继续学习并做出适应性调整。如果模型是固定的,则需要重新测试应用程序以确保它们仍能像之前测试的那样运行,因为数据更新可能会导致某些方面的质量下降;
了解您的数据将如何反馈到此类更新和模型的训练中;
关注现有业务系统如何利用LLM,如通过API访问、支持数据工程师建立链接等,使得LLM可以按照业务需求运营。
尽管许多LLM表现出了明显的灵活性和智能,但部署时仍然需要从一开始就明确定义业务和研究目标。因此,即使是接受人工纠正的预训练模型,在从初始模型训练到交付研究结果的过程中,保持人的参与都至关重要。因为幻觉是一个持续存在的风险,"保持人的参与"可以使结果维持在正确的轨道上。这种人工智能(AI)与人类智慧(HI)的融合是益普索人工智能哲学的核心。
考虑到上述几点,数据隐私和安全是许多开放访问模型的主要问题,应在它们的使用条款中进行强调。我们建议买方制定企业合同、企业治理和基础架构,以确保敏感的客户、员工和财产的数据信息得到充分保护。
02
重视训练数据
垃圾输入会带来垃圾输出。
所有文本分析都是训练数据的函数。如果所涉及的数据不具有代表性或与您的业务问题不相关、或者没有包含足够的细节来对问题做出回答,那么文本分析将无法针对您的目标完成交付,这是数据本身的原因,不是分析造成的。在训练和调试的过程中,我们发现在回答超出基础数据的问题时,LLM会提供有趣的假设,但也会有更大的可能性提供误导信息。
我们倾向于信任数据训练会带来可靠的输出,但是需要注意的是,在底座LLM中就会存在文化和群体偏见。在训练自己的模型时,数据质量和代表性问题至关重要。了解什么数据被用来训练LLM能够帮助增加信任感,数据质量和数量是LLM交付正确回答的基础。
在使用LLM时,您可以从供应商那里了解获得最佳和最准确回答的提示和问题。
此外,语言也是一个考虑因素。虽然许多LLM在训练过程中用到多语言数据源,但这并不意味着它们在每种语言中的性能水平相同。就像文本分析一样,至关重要的是要明确您希望使用的语言并检查LLM是否以适当的方式为它们提供支持。在某些情况下,让用户使用他们的第二语言与LLM交互,能够获得更好的评估效果。
03
对模型进行严肃评估
我们对于生成式人工智能的评价大多是基于其直观有效性(输出是否合理),然而这种判断是更主观的、经验型的和碎片化的。文本分析多年来一直接受严谨评估,这也应该应用到对LLM的评估上。我们的经验是,要从文本分析中获得最大价值,必须系统地评估其在特定使用案例中的质量。
图1提供了一个用于评估情感和其他文本分类质量的框架。它不是一个简单的准确性得分,而是可以让您系统地了解整体质量以及哪些地方可能存在问题。要创建这样的测试,需要对“基准真相”进行评估。这样的测试目前对于LLM并不常见,但却是至关重要的。
在前面提到的例子中,我们测试了各种LLM和第三方供应商,建立了不同语言中的评估基准。图2展示了一个品类测试在一种语言中的示例,使用混淆矩阵评估人工智能生成的情感编码是否准确预测了“基准真相”,该图进一步展示了图1的每个测试所示的质量差异。这个示例表明将不同工具相互比较并与客观标准进行对比,将有助于判断何时何地该工具提供了足够的质量,以及在哪些情况下它们存在不足。
04
平衡准确性和覆盖范围
在发展的初期,文本分析未能兑现其极高准确率的承诺。事实上,任何承诺100%准确率或覆盖率的供应商都会出现一些后续问题。
多年的文本分析经验告诉我们,在准确性和覆盖范围之间需要进行平衡。例如,对一个类别要求的准确性越高,分析师就越有可能排除噪音及相关评论,结果准确性上升了,但覆盖范围减小了。相比之下,当我们建立更广泛的类别时,容许一部分噪音和注解的加入,准确性会下降,但覆盖范围会增加。这种平衡的成功与否依赖分析师的技能和最终用户的期望。
我们需要对最终用户对LLM或生成式人工智能提供评论的预期进行管理。它可能看起来很确定、听起来很有把握,甚至可能出现在华丽而迷人的用户界面中,但这并不意味着我们可以对每个答复都信以为真,特别是当这些答案旨在为员工或客户的决策和行为提供信息时。
05
建立符合业务需求的交互和交付
文本分析的一个最大的变化是它的使用方式。文本分析刚刚起步时,一个简单的电子表格或幻灯片就足以囊括数百万条评论内容。然而今天,文本分析不仅止步于一张静态的幻灯片,例如在客户体验领域,它是一种用来改善客户体验的动态工具。实时文本分析可以直接交付到最终用户手中,从而在潜在问题出现时立即做出响应并解决问题。
LLM和生成式人工智能继承了文本分析的优势,利用现有的可配置界面进行实时交互。需要将这些界面以及为适当功能提供支持的模块交到正确的用户手中。例如:
客服中心的工作人员在处理可能存在问题的情况时可能需要一个系统来帮助他们提供最佳的干预措施,这个系统可以帮助他们在面对具体问题时做出最好的反应;
提供洞察的专业人士可能需要文本汇总工具来快速有效地对来自多个数据源的洞察进行综合;
分析师可以从交互界面直接得到优化代码或自动输出的建议。
在生成式人工智能不断发展的今天,文本分析领域正迎来前所未有的机遇和挑战。通过对模型质量、数据质量、系统评估、准确性与覆盖范围的平衡以及符合业务需求的交互建立进行深入思考和实践,我们可以更好地应对这些挑战,并最大程度利用这些新工具。
了解更多益普索AI研究最新进展,欢迎报名GO AI系列活动。
4月8日 北京站
4月10日 上海站
4月12日 武汉站
4月15日 广州站
4月17日 香港站
获取最新行业报告
掌握市场深度洞察
欢迎扫码订阅
合作请联系:ipsos_china@ipsos.com
获取完整版报告(英文版),请点击“阅读原文”
页:
[1]