您可以使用多种算法进行欺诈检测。但是,没有最好的欺诈检测机器学习算法,因为使用哪一种取决于您手头的数据。下面是一些比较流行的算法,但这绝不是一个详尽的列表。
逻辑回归
逻辑回归是最基本但功能最强大的算法,可用于预测真假(二进制)值。它通过将数据拟合到逻辑函数来从一组自变量中估计离散值(通常是欺诈/无欺诈等二进制值)。
决策树
决策树是另一种流行的算法,它学习规则来分割或分类数据。使决策树特别有趣的是,该模型是一组易于解释的规则。为了使事情变得更好,您可以采用这些规则并创建基于规则的系统。但是,该模型绝不是基于规则的系统,因为基础数据的微小变化可能会导致一组完全不同的规则。
随机森林
随机森林是一种基于多个决策树的算法,可提供更准确的分类。它通过平均单个决策树的结果来做到这一点,因此它的预测能力是优越的。随机森林适用于具有大量输入变量的非常大的训练数据集。
另一方面,随机森林比决策树更难解释。您最终会得到许多规则,而不是一套规则。这可能会造成问题,尤其是当需要对系统合规性或其他监管要求进行解释时。
K-近邻算法 (KNN)
这是一个简单的算法,它存储所有可用案例,并通过对其 k 个最佳邻居进行多数投票来对任何新案例进行分类。为此,它使用了像欧几里得距离这样的距离函数。训练过程并不完全生成模型。相反,“训练”和“分类”是即时发生的。
这使得 KNN 算法在欺诈检测方面比其他机器学习算法的计算密集度更高。
K-均值
这是一种解决聚类问题的无监督学习算法(不同于 KNN)。该算法通过将给定的数据集分组到多个集群中来工作,以使集群中的数据点尽可能相似。与 KNN 类似,它利用了距离函数。
n2uj1v