解决机器学习问题的方法指南

曼西·普里亚

解决机器学习问题的方法指南

曼西·普里亚

如今，算法就像流行语一样。每个人都在学习不同类型的算法——逻辑回归、随机森林、决策树、SVM、梯度提升算法、神经网络等。每天都有新的算法出现。但数据科学不仅仅是将不同的算法应用于数据。在应用任何算法之前，您必须了解您的数据，因为这将有助于您以后提高算法的性能。对于任何问题，都需要重复相同的步骤——数据准备、模型规划、模型构建和模型评估，以提高准确性。如果我们直接跳到模型构建，一次迭代后我们就会失去方向。以下是我解决任何机器学习问题的几个定义步骤：我建议的第一步是充分了解业务市场，正确理解您的问题。没有这样的场景：这是数据，这是算法，然后砰！正确的业务理解将帮助您在接下来的步骤中处理数据。例如，如果您对银行系统一无所知，您将无法理解是否应该包括客户收入等特征。下一步是收集与问题相关的数据。除了公司内部的数据外，你还应该添加外部数据源。例如，对于销售预测，你应该了解产品销售的市场情况。GDP 可能会影响你的销售，也可能是人口影响。所以，收集这类外部数据。还要记住，你使用的任何外部数据都应该在未来部署模型时可供你使用。比如，如果你在模型中使用人口，明年你也应该能够收集这些数据，以便在明年获得预测。我见过很多人只使用内部数据，而没有意识到外部数据对他们的数据集的重要性。但实际上，外部特性对我们的用例有很好的影响。现在，当你收集了与问题相关的所有数据时，你必须将其分为训练和测试。许多数据科学家遵循 70/30 规则将数据分为两部分：训练集和测试集。虽然许多人遵循 60/20/20 规则将数据分为三部分：训练集、测试集和验证集。我更喜欢第二种选择，因为在这种情况下，您可以使用测试集来改进模型，并使用验证集在实际场景中对模型进行最终验证。使用它。我正在研究违约贷款预测问题。我的准确率为 78%。我把我的问题带给了处理与贷款相关的金融系统的人。

免责声明: 此摘要通过人工智能工具翻译，尚未经过审核或验证

电气工程与电子技术学报

解决机器学习问题的方法指南

探索科技

期刊亮点