首页 » 互联通信 » 一文读懂:机械进修模型构建全流程

一文读懂:机械进修模型构建全流程

北京清尚建筑装饰工程通讯 2025-03-20 0

扫一扫用手机浏览

文章目录 [+]

上文以薅羊毛项目为例,大略先容了AI产品构建的全流程,个中模型构建、模型评估等重点环节只是一笔带过。
本日我们来理解一下模型构建环节的详细内容。

模型构建,实在便是从繁杂的数据中提取那些最能阐明数据实质的特色,再利用算法建立出对未知数据有准确预测能力模型的过程。

一文读懂:机械进修模型构建全流程 一文读懂:机械进修模型构建全流程 互联通信

模型构建紧张包括5个阶段,分别为算法选择、特色工程、模型演习、模型验证和模型领悟。

一文读懂:机械进修模型构建全流程 一文读懂:机械进修模型构建全流程 互联通信
(图片来自网络侵删)

一、算法选择

以上文薅羊毛项目为例,基于其需求定义,模型须要打算出用户是薅羊毛用户的概率,并根据概率高低分为正常、疑似、高危三类,终极技能同学决定采取逻辑回归算法来实现该需求。

逻辑回归算法具有打算速率快、可阐明性强的优点,适用于办理需求中的多分类问题,而且还可以对用户“为什么封号”的质疑,有较强的阐明性。

目前大家对算法有个观点就可以,后续篇章中会对常见的算法进行较详细的先容。

二、特色工程

确定算法之后,我们就可以进入特色工程阶段了。

特色工程是模型构建过程中最主要的部分,如果我们可以挑选到足够优质的特色,不仅可以提升模型性能,还能降落模型的繁芜度,大幅简化构建过程。

数据和特色决定了模型的上限,而模型和算法只是逼近这个上限而已。

所有模型的输入都是数量化的信息,以是我们须要通过某种办法,把各种类型的数据转化成数量化的信息,这个过程便是特色工程。

以薅羊毛项目为例,我们可以通过用户是否在夜间活动、操作频率、历史订单、完成活动速率、同一台终端是否登录多个账号等一系列特色,来表达是薅羊毛用户的可能性,这便是建立了薅羊毛用户的特色工程。
我们可以通过这些特色来判断用户的可疑程度。

特色过程包括以下四个流程:

数据洗濯:数据预处理的主要环节,紧张是对数据进行重新审查和校验,检讨数据同等性、处理无效值和缺失落值等。
特色提取:从原始数据中提取有用的特色,将其转化为一组更具代表性和可阐明性的特色。
特色提取的目的是减少原始数据的维度,提高数据的表达能力,帮助算法进行更好的完成任务。
特色选择:筛选出对分类或回归有主要贡献的特色,从而降落数据集繁芜度,提高模型的泛化能力。
天生演习集和测试集:把整理过的数据分为演习集和测试集,为模型演习做末了的准备。

布局机器学习模型的目的,是希望从原始数据中梳理出问题的构造,学习到问题的实质,那些优质的特色实在便是对问题实质的最好诠释,而如何找到优质特色自然也就成为了模型构建的核心事情。

特色工程的内允许多,也非常主要,建议自己主动去查一下资料,详细理解一下数据洗濯、数据提取、数据选择的各种方法,对该环节理解越深入,和算法同学的沟通越顺畅。

三、模型演习

模型演习是通过不断演习、验证和调优,让模型达到最优的过程。

这里的“最优”,指的是模型拟合能力和泛化能力的平衡点。

拟合能力:模型在已知数据上(演习集)表现的好坏泛化能力:模型在未知数据上(测试集)表现的好

如果想让模型有足够好的拟合能力,就须要构建一个繁芜的模型对演习集进行演习,但是模型越繁芜就会越依赖演习集的数据,就越可能涌现演习集的表现很好,但在测试集上表现差的情形,泛化能力比较差,这种情形叫做“过拟合”。

如果想让提高模型的泛化能力,就要降落模型繁芜度,减少对演习集的依赖,但如果过度降落繁芜度,又可能导致“欠拟合”的情形。

过拟合:模型把数据学习的太彻底,乃至把噪声数据的特色也学习到了,就导致不能很好的识别未知数据,模型泛化能力低落。
演习集表现很好,但是测试集很差。
读的是“去世书”,并没有真正节制书里的精髓,自然就无法很好的运用了。
产生过拟合的缘故原由一样平常有:特色过多,模型繁芜度过高,样本数据无法代表预定的分类,样本噪音滋扰过大等。
欠拟合:模型不能很好的捕捉数据特色,不能很好的拟合数据。
在演习集的表现就很差,须要连续努力“学习”。
产生欠拟合的缘故原由一样平常有:模型繁芜度过低、特色量过少等。

算法工程师就这样不断的调度模型参数、演习,再用交叉验证的办法,逐渐找到拟合能力和泛化能力的平衡点,这个平衡点便是我们演习模型的目标。

交叉验证:一种评估机器学习模型性能的有效方法,可以用于选择最佳模型参数、模型选择以及避免过拟合等问题。
包括大略交叉验证、留出交叉验证、自助交叉验证等方法。

四、模型验证

经由繁芜的模型演习,我们终于得到了一个所谓的“最优解”,但是怎么证明这个最优解便是真正的最优解呢?我们须要模型验证阶段来确认这个“最优解”的真假。

模型验证一样平常通过模型的性能指标和稳定性指标来评估。

模型性能,便是模型预测的准确性。

分类模型性能评估:分类模型的预测结果是详细的分类,一样平常利用召回率、F1、KS、AUC等评估指标,来判断分类模型的性能。
回归模型性能评估:回归模型的预测结果是连续值,一样平常利用方差和MSE等评估指标,来判断回归模型的性能。

模型稳定性,指的是模型性能可以持续多久,一样平常利用PSI指标来评估模型的稳定性。

产品经理须要对模型验证环节格外关注,须要深入理解评估指标、打算逻辑,并能根据指标的数据判断模型效果是否达标。

这里只大略描述了模型验证的观点和意义,后面会详细讲解模型评估的核心指标。

五、模型领悟

为了提升模型的准确率和稳定性,有时会同时构建多个模型,再把这些模型集成在一起,确保模型有更优的整体表现。

比如薅羊毛项目这种分类模型,可以用最大略的投票方法来领悟,票数最多的种别便是终极的结果。

我们只须要知道一些常用的模型领悟方法即可,比如加权均匀法、Bagging等,感兴趣的话可以自己查一下。

六、总结

本文粗略先容了模型构建的算法选择、特色工程、模型演习、模型验证和模型领悟等5个环节,个中产品经理须要重点关注特色过程和模型验证环节,建议连续查阅资料,加强理解。

下篇文章,我会详细先容模型评估环节的详细内容,敬请期待。

本文由 @AI小当家 原创发布于大家都是产品经理,未经容许,禁止转载

题图来自 Unsplash,基于 CC0 协议

该文不雅观点仅代表作者本人,大家都是产品经理平台仅供应信息存储空间做事。

标签:

相关文章