查看: 1095|回复: 0

【模型工具】如何高效开发代理模型?评估样本量和代理模型类别的影响

[复制链接]

343

主题

382

帖子

1067

积分

金牌飞友

Rank: 6Rank: 6

积分
1067
飞币
683
注册时间
2017-7-18
发表于 2022-12-19 17:45:14 | 显示全部楼层 |阅读模式
原文信息

题目:Efficient Surrogate Model Development: Impact of Sample Size and Underlying Model Dimensions

作者:Sarah E.Davis

作者单位:Department of Chemical Engineering, Auburn University, Auburn, AL 36849, USA

期刊:Computer Aided Chemical Engineering

时间:2018

导读

代理模型通过合理准确的简单函数来概括未知或复杂的输入和输出关系。这一工具帮助各类复杂的工程设计问题从原始的大规模实验方法逐渐转向有针对性的小批量方法,极大地减少了计算负荷。随着代理模型在各类问题中的应用越来越广泛,如何比较各类代理模型,选择高效、可靠且适合的代理模型成为了现阶段亟待解决的问题之一。

文章简介

本文研究了抽样方法、样本量和简化函数特征对代理模型预测准确性的影响。该研究测试了8种代理模型,包括:人工神经网络(ANN),使用优化(ALAMO)的代数模型自动学习,径向基网络(RBN),极限学习机(ELM),高斯进度回归(GPR),随机森林(RF),支持向量回归(SVR)和多元自适应回归样条曲线,使用8类代理模型分别模拟34个测试函数的输出。用于构建代理模型的数据使用LHS、Halton和Sobol3种采样方法得到。

样本量与训练效果的关系如图1所示,当样本量较小时,使用Sobol序列生成的数据点训练的代理模型能够得到最佳预测效果。随着样本量的增加,抽样方法对代理模型模拟效果的影响逐渐降低。

本文研究了抽样方法、样本量和简化函数特征对代理模型预测准确性的影响。该研究测试了8种代理模型,包括:人工神经网络(ANN),使用优化(ALAMO)的代数模型自动学习,径向基网络(RBN),极限学习机(ELM),高斯进度回归(GPR),随机森林(RF),支持向量回归(SVR)和多元自适应回归样条曲线。使用8类代理模型分别模拟34个测试函数的输出。用于构建代理模型的数据使用LHS、Halton和Sobol3种采样方法得到。

样本量与训练效果的关系如图1所示,当样本量较小时,使用Sobol序列生成的数据点训练的代理模型能够得到最佳预测效果。随着样本量的增加,抽样方法对代理模型模拟效果的影响逐渐降低。

图1 不同采样方法对代理模型效果的影响

训练样本与训练时间的关系如图2所示,各类代理模型的训练时间都随着样本数量的增加呈指数增长。平均而言,使用ELM构建的代理模型训练最快,ALAMO训练速度最慢。

【模型工具】如何高效开发代理模型?评估样本量和代理模型类别的影响w2.jpg

图2 样本大小对模型训练时间的影响

该研究还探讨了不同输入数据(图3)、不同类型最优值的原始模型(图4)对模型效果的影响。总体上,对于具有不同输入数据量、不同类型的原始模型,使用ANN和ALAMO开发的代理模型的准确性都是相对较好的。

【模型工具】如何高效开发代理模型?评估样本量和代理模型类别的影响w3.jpg

图3 函数输入个数对代理模型效果的影响

【模型工具】如何高效开发代理模型?评估样本量和代理模型类别的影响w4.jpg

图4 原始函数性质对代理模型效果的影响

编者点评

本文对比了抽样方法、样本量、原始模型的性质、输入函数复杂性等对代理模型效果的影响。由于不同问题的特征不同,因此该文章的结论不适用于所有问题,但构建代理模型过程中可参考该篇文章的思路,对比并调整各类超参数,从而得到较好的代理模型。

原文地址:

https://doi.org/10.1016/B978-0-444-64241-7.50158-0

或点击“阅读原文”查看

【模型工具】如何高效开发代理模型?评估样本量和代理模型类别的影响w5.jpg

【模型工具】如何高效开发代理模型?评估样本量和代理模型类别的影响w6.jpg

城市水系统领域

最新研究动态

UrbanWaterGroup

长按二维码关注
您需要登录后才可以回帖 登录 | 加入联盟

本版积分规则

快速回复 返回顶部 返回列表