【模型工具】如何高效开发代理模型?评估样本量和代理模型类别的影响
原文信息题目:Efficient Surrogate Model Development: Impact of Sample Size and Underlying Model Dimensions
作者:Sarah E.Davis
作者单位:Department of Chemical Engineering, Auburn University, Auburn, AL 36849, USA
期刊:Computer Aided Chemical Engineering
时间:2018
导读
代理模型通过合理准确的简单函数来概括未知或复杂的输入和输出关系。这一工具帮助各类复杂的工程设计问题从原始的大规模实验方法逐渐转向有针对性的小批量方法,极大地减少了计算负荷。随着代理模型在各类问题中的应用越来越广泛,如何比较各类代理模型,选择高效、可靠且适合的代理模型成为了现阶段亟待解决的问题之一。
文章简介
本文研究了抽样方法、样本量和简化函数特征对代理模型预测准确性的影响。该研究测试了8种代理模型,包括:人工神经网络(ANN),使用优化(ALAMO)的代数模型自动学习,径向基网络(RBN),极限学习机(ELM),高斯进度回归(GPR),随机森林(RF),支持向量回归(SVR)和多元自适应回归样条曲线,使用8类代理模型分别模拟34个测试函数的输出。用于构建代理模型的数据使用LHS、Halton和Sobol3种采样方法得到。
样本量与训练效果的关系如图1所示,当样本量较小时,使用Sobol序列生成的数据点训练的代理模型能够得到最佳预测效果。随着样本量的增加,抽样方法对代理模型模拟效果的影响逐渐降低。
本文研究了抽样方法、样本量和简化函数特征对代理模型预测准确性的影响。该研究测试了8种代理模型,包括:人工神经网络(ANN),使用优化(ALAMO)的代数模型自动学习,径向基网络(RBN),极限学习机(ELM),高斯进度回归(GPR),随机森林(RF),支持向量回归(SVR)和多元自适应回归样条曲线。使用8类代理模型分别模拟34个测试函数的输出。用于构建代理模型的数据使用LHS、Halton和Sobol3种采样方法得到。
样本量与训练效果的关系如图1所示,当样本量较小时,使用Sobol序列生成的数据点训练的代理模型能够得到最佳预测效果。随着样本量的增加,抽样方法对代理模型模拟效果的影响逐渐降低。
图1 不同采样方法对代理模型效果的影响
训练样本与训练时间的关系如图2所示,各类代理模型的训练时间都随着样本数量的增加呈指数增长。平均而言,使用ELM构建的代理模型训练最快,ALAMO训练速度最慢。
图2 样本大小对模型训练时间的影响
该研究还探讨了不同输入数据(图3)、不同类型最优值的原始模型(图4)对模型效果的影响。总体上,对于具有不同输入数据量、不同类型的原始模型,使用ANN和ALAMO开发的代理模型的准确性都是相对较好的。
图3 函数输入个数对代理模型效果的影响
图4 原始函数性质对代理模型效果的影响
编者点评
本文对比了抽样方法、样本量、原始模型的性质、输入函数复杂性等对代理模型效果的影响。由于不同问题的特征不同,因此该文章的结论不适用于所有问题,但构建代理模型过程中可参考该篇文章的思路,对比并调整各类超参数,从而得到较好的代理模型。
原文地址:
https://doi.org/10.1016/B978-0-444-64241-7.50158-0
或点击“阅读原文”查看
城市水系统领域
最新研究动态
UrbanWaterGroup
长按二维码关注
页:
[1]