关于机器学习“模型再训练”的终极指南

发布时间：2021-03-05 15:53:47 所属栏目：传媒来源：互联网

导读：型的训练，通常是通过学习某一组输入特征与输出目标之间的映射来进行的。一般来说，对于映射的学习是通过优化某些成本函数，来使预测的误差最小化。在训练出最佳模型之后，将其正式发布上线，再根据未来生成的数据生成准确的预测。这些新数据示例可能是用户

型的训练，通常是通过学习某一组输入特征与输出目标之间的映射来进行的。一般来说，对于映射的学习是通过优化某些成本函数，来使预测的误差最小化。在训练出最佳模型之后，将其正式发布上线，再根据未来生成的数据生成准确的预测。这些新数据示例可能是用户交互、应用处理或其他软件系统的请求生成的——这取决于模型需要解决的问题。在理想情况下，我们会希望自己的模型在生产环境中进行预测时，能够像使用训练过程中使用的数据一样，准确地预测未来情况。

当我们将模型部署到生产中时，往往会假设未来将使用到的数据会类似于过去模型评估期间所使用的数据。具体来说，我们可能会假设，特征和目标的分布将保持相当的恒定。但是这种假设通常不成立。趋势会随着时间的推移而变化，人们的兴趣会随着季节的变化而变化，股票市场会起伏不定。因此，我们的模型必须适应这些变化。

世界是持续变化的，因此模型部署应视为一个连续的过程，而不是完成第一次部署之后就扭头去开展下一个项目。如果机器学习团队的工程师发现数据分布与原始训练集的数据分布有明显出入，则需要重新训练模型。这个现象——通常被称为模型漂移(model drift)——可以缓解，但是会带来额外的开销，如监视基础设施、监督和流程等等。

在本文中，笔者想对模型漂移下定义，并讨论如何去识别和跟踪模型漂移。然后，我将描述如何重新训练模型，来减轻漂移对预测性能的影响，

（编辑：济源站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!