曼西·普里亚
如今,算法就像流行语一样。每个人都在学习不同类型的算法——逻辑回归、随机森林、决策树、SVM、梯度提升算法、神经网络等。每天都有新的算法出现。但数据科学不仅仅是将不同的算法应用于数据。在应用任何算法之前,您必须了解您的数据,因为这将有助于您以后提高算法的性能。对于任何问题,都需要重复相同的步骤——数据准备、模型规划、模型构建和模型评估,以提高准确性。如果我们直接跳到模型构建,一次迭代后我们就会失去方向。以下是我解决任何机器学习问题的几个定义步骤:我建议的第一步是充分了解业务市场,正确理解您的问题。没有这样的场景:这是数据,这是算法,然后砰!正确的业务理解将帮助您在接下来的步骤中处理数据。例如,如果您对银行系统一无所知,您将无法理解是否应该包括客户收入等特征。下一步是收集与问题相关的数据。除了公司内部的数据外,你还应该添加外部数据源。例如,对于销售预测,你应该了解产品销售的市场情况。GDP 可能会影响你的销售,也可能是人口影响。所以,收集这类外部数据。还要记住,你使用的任何外部数据都应该在未来部署模型时可供你使用。比如,如果你在模型中使用人口,明年你也应该能够收集这些数据,以便在明年获得预测。我见过很多人只使用内部数据,而没有意识到外部数据对他们的数据集的重要性。但实际上,外部特性对我们的用例有很好的影响。现在,当你收集了与问题相关的所有数据时,你必须将其分为训练和测试。许多数据科学家遵循 70/30 规则将数据分为两部分:训练集和测试集。虽然许多人遵循 60/20/20 规则将数据分为三部分:训练集、测试集和验证集。我更喜欢第二种选择,因为在这种情况下,您可以使用测试集来改进模型,并使用验证集在实际场景中对模型进行最终验证。使用它。我正在研究违约贷款预测问题。我的准确率为 78%。我把我的问题带给了处理与贷款相关的金融系统的人。