大模型来了,企业现有的AI模型工具和平台还可以复用吗?

鹰隼 · 发表于 2023-7-10 07:37:42

原创｜梁准

在过去的几个月里，大型语言模型（LLM）领域的发展呈爆发式的增长，企业也开始快速引入大模型技术，尝试探索和发展基于人工智能最新成果的新型企业运营支撑能力。我们看到，企业IT部门经常思考的一个问题是：我们过去的工具、平台还适用吗？是否可以延用现有的系统？还是需要重新另起炉灶？
现有的NLP应用架构很多企业一直在进行NLP（自然语言处理）方向的人工智能技术与应用的探索和实践，在这个过程中，逐渐发展出自己的NLP 技术栈、建模平台（MLOps）和应用管道。

NLP 开发人员传统上使用的是针对特定任务定制的技术栈架构，比如文本分类、命名实体识别和命名实体消歧等自然语言处理任务，都会有独立运行的管道流。这样的技术栈，通常由数据预处理管道、机器学习管道以及存储嵌入结构化数据的各种数据库组成。这个技术栈架构可以输出结构化数据，包括三元组、单词嵌入、句子嵌入、序列到序列的输出、语言模型概率、注意力权重等等。开发人员通常将这些结构化输出存储在 ElasticSearch、Postgres 或 Neo4J 等数据库中，构成用户或服务可以查询的知识图谱，进而实现文档分类和实体识别等关键流程的自动化应用。
传统的NLP应用模型开发，由于需要大量的标签数据和模型训练调优，往往导致开发周期长，各企业的数据处理模式和技术都是封闭的，使得大家都在制造“低水平的小轮子”上不断重复。新的大语言模型应用架构大语言模型的应用场景已从最初解决“文本生成”类任务，扩展到常规NLP应用，包括前文所提到的：文本分类、语义分析，以及命名实体识别这类数据清洗/数据治理类任务。支持大语言模型应用的架构模式也逐渐成熟，这个新的架构一般由四个部分组成，分别是：数据预处理管道、嵌入端点 + 向量存储、LLM 端点和 LLM 编程框架。与旧的架构比较，新架构存在两个重要变化：第一，新的技术栈已不依赖于结构化数据存储的知识图谱，像GPT-4，Claude和Flan T-5这样的LLM比早期的模型（如GPT 2）编码的信息都要大很多。其次，新的技术架构建议使用预训练大模型作为基础模型，而不是在企业自己的ML管道中重新开发并训练模型。这意味着开发人员可以基于具备强大泛化能力的通用模型，训练专门的信息提取模型（例如命名实体识别、关系提取和情感分析），实现在较短的时间内上线体验更好的NLP解决方案。
大模型来了,企业现有的AI模型工具和平台还可以复用吗?w2.jpg

ThinkMachine的思考
从上面的分析我们可以看到，企业在传统的NLP领域积累的技术、平台和工具有一部分是可以复用的，但其中更多的部分需要在引入大模型技术时进行重构，以适应大模型技术场景的特定需求。可喜的是，社区中已经有很多的开源工具，可以支持企业搭建自己的大语言模型技术栈，企业用户可以充分利用这些开源工具，探索如何与其他AI系统、报表分析系统、业务系统进行协同联动，如何以大语言模型的自然语言能力作为企业应用的操作系统，以及如何利用“涌现”构建企业专有的智能助手应用。我们始终认为，从旧架构，向新架构的变化，带来的不应该是负担，而是进化出更强竞争优势的新机会。
参考资料：
1、Emerging Architectures for LLM Applications | Andreessen Horowitz (a16z.com)https://a16z.com/2023/06/20/emerging-architectures-for-llm-applications/

航空人生

空管人生

WEFLY

大模型来了,企业现有的AI模型工具和平台还可以复用吗?

相关帖子

浏览过的版块

关于我们

客服QQ

Email

快捷入口

关注我们

认证信息