从A到Z,掌握机器学习基本词汇【A】

Accuracy: 准确率

机器学习的常用评价指标。定义如下:

Accuracy = (TruePositives + TrueNegatives) / 总样本数

经常和准确率一起出现的,还有精确率和召回率。

– 精确率(Precision) = TP / (TP + FP)。它表示:预测为正的样本中有多少是真正的正样本,它是针对我们预测结果而言的。Precision又称为查准率。

– 召回率(Recall) = TP / (TP + FN)。它表示:样本中的正例有多少被预测正确了, 它是针对我们原来的样本而言的。Recall又称为查全率。

Activation function: 激活函数

一种函数(例如 ReLU 或 Sigmoid),将前一层所有神经元激活值的加权和输入到一个非线性函数中,然后向下一层传递该函数的输出值(典型的非线性)。

如下图,在神经元中,输入的 inputs 通过加权,求和后,还被作用了一个函数,这个函数就是激活函数 Activation Function。

常见的激活函数有:sigmoid、Tanh、ReLU、softmax等

Adagrad:一种优化算法

Adagrad是一种复杂的优化算法(梯度下降算法),它能够在迭代过程中不断地自我调整学习率,并让模型参数中每个元素都使用不同学习率。

AUC: 曲线下面积

AUC(Area Under Curve)也是一种常见的机器学习评价指标,和ROC(Receiver Operating Characteristic)曲线一起常被用来评价一个二值分类器(binary classifier)的优劣。相比准确率、召回率、F-score这样的评价指标,ROC曲线有这样一个很好的特性:当测试集中正负样本的分布变化的时候,ROC曲线能够保持不变。在实际的数据集中经常会出现类不平衡(class imbalance)现象,即负样本比正样本多很多(或者相反),而且测试数据中的正负样本的分布也可能随着时间变化。

AUC值是一个概率值,当你随机挑选一个正样本以及一个负样本,当前的分类算法根据计算得到的Score值将这个正样本排在负样本前面的概率就是AUC值。AUC值越大,当前的分类算法越有可能将正样本排在负样本前面,即能够更好的分类。

如果你觉得还有其他核心基础词汇,欢迎评论补充。