【猎云网(微信号:ilieyun)】 (编译:余一二) 从事IT领域工作二十年以来,我发现人工智能技术逐步从概念转向实际——机器学习技术位于前沿,并且变得更易于使用,即使对于没有专业知识的团队也是如此。 随着越来越多的团队使用预测模型,领导者和管理者必须意识到可能会扭曲团队工作结果的常见问题。为了实现可靠的机器学习过程,以下是要避免的九个常见陷阱,以及可采用的最佳实践方法。 陷阱1:抽样偏差任何机器学习项目的起点都是选择训练数据。通常,组织机构有一些可用的数据,或者可以识别相关的外部供应商,例如国营企业或行业协会。这是问题开始的地方。 建模团队及其业务赞助商必须定义要使用的数据集。选择一个会歪曲或低估实际案例的数据集会很容易引起偏差,这会扭曲结果。例如,一个访问只选择在特定位置行走的人群,但却将他们当作健康人群的过度代表。 解决方案:为避免采样偏差,团队必须保证他们是真正地随机选择数据,而不是仅仅因为使用简单就使用特定案例。对于指导有效的数据选择而言,理想数据集的清晰定义和模型的逻辑至关重要。通过在早期阶段与企业所有者合作,让几位评审人员验证选择标准,机器学习团队可以确保他们的数据采样方法有用并可靠。 陷阱2:不相关的功能选择在许多情况下,由于变量选择的细微差别,建模师遇见了许多困难。许多技术需要大量功能集来推动学习过程。但是,为了收集足够的学习数据,确保您获取了正确且相关的功能可能非常具有挑战性。 解决方案:构建一个性能良好的模型的过程需要仔细的探索和分析,以确保您选择和设计适当的功能。了解领域和包含主题专家,是选择正确功能最重要的两个驱动因素。此外,诸如递归特征消除(recursive feature elimination,RFE),随机森林(random forest),主成分分析(principal component analysis,PCA)和自动编码器等技术有助于将建模工作集中在少数几个更有效的功能上。 陷阱3:数据泄露机器学习团队可能会偶然地收集建模数据,使用的标准是团队试图预测结果的一部分,因此,模型会显示出优秀到失真的性能。例如,一个团队可能错误的包含了一个在旨在预测疾病的模型中指示某些疾病治疗的变量。 解决方案:建模团队必须仔细构建他们的数据集,在模型估计结果之前仅使用训练时实际可用的数据。 陷阱4:缺少数据在某些情况下,由于缺少某些记录,数据集会变得不完整。错误地调整该条件或假设没有缺失值,建模师可能会对结果的认知产生重大偏差。例如,缺失的数据可能并不总是随机的,例如,当调查受访者不太可能回答某个特定问题时。因此,平均估算可能会误导模型。 解决方案:如果您无法设计培训计划以确保使用完整的数据集,则可以采用统计技术,包括丢弃缺失值的记录,或使用适当的插补策略来估算缺失的数据值。 陷阱5:不准确的缩放和标准化构建用于机器学习工作的数据集通常需要团队收集不同类型的输入端,这些输入端有着不同的衡量尺度。在建立模型之前,如果未能调整变量的值以允许通用比例,线性回归(linear regression),支持向量机(support vector machine,SVN),或k近邻(k nearest neighbors,KNN)等算法会受到很大影响。这些问题的出现在于范围大的话会导致功能的高度变化,因此,它们可能变得多余。例如,如果您将两者都当作未处理的投入使用,那么薪水的数据可能会获得比年龄更重的权重。 解决方案:在开始建立模型之前,您必须小心地对数据集进行标准化。您可以通过常用统计技术(如标准化或功能缩放)来转换数据集,这取决于数据的类型和团队的首选算法。 (责任编辑:admin) |