客至汲泉烹茶, 抚琴听者知音

机器学习相关概念汇总

本文记录了机器学习中所有可能遇到的概念,按先后顺序排列,同时列出英文以便查询。在部分概念下列有解释,也有超链接跳转。

随时更新中……

[scode type="green"]20200714更新:发现一个机器学习术语表,值得收藏:https://aminer.cn/ml_taxonomy[/scode]

基础篇

  • 神经元:Neurons

神经网络中,连接输入和输出的节点就是神经元,它接受给定的输入,进行运算后输出给下一层。

  • 权重:weight
  • 偏置:bias

Bias是 “用所有可能的训练数据集训练出的所有模型的输出的平均值” 与 “真实模型”的输出值之间的差异;

  • 方差:Variance

Variance是“不同的训练数据集训练出的模型”的输出值之间的差异。

偏置与方差的解释来自知乎@J JR

梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大

梯度与方向导数密切相关,想了解更多请点击名词上的超链接。

简单来说,就是上层输入节点与下层输出节点之间的函数关系,它定义了该节点在给定的输入或输入的集合下的输出

将无界的输入转化为(0,1)输出的函数

前馈神经网络是一种最简单的神经网络,各神经元分层排列。每个神经元只与前一层的神经元相连。接收前一层的输出,并输出给下一层.各层间没有反馈。

  • 均方误差:mean squared error,MSE
  • 损失函数:loss functions
  • 反向传播算法:Backpropagation,BP

反向传播是“误差反向传播”的简称,该方法对网络中所有权重计算损失函数的梯度。这个梯度会反馈给最优化方法,用来更新权值以最小化损失函数。

  • 随机梯度下降:Stochastic Gradient Descent,SGD

梯度下降:我们知道曲面上方向导数的最大值的方向就代表了梯度的方向,因此我们在做梯度下降的时候,应该是沿着梯度的反方向进行权重的更新,可以有效的找到全局的最优解。

随机梯度下降(SGD)也称为增量梯度下降,是一种迭代方法,用于优化可微分目标函数。该方法通过在小批量数据上计算损失函数的梯度而迭代地更新权重与偏置项。

  • 学习率:learning rate

即参数的更新速率

两个函数的加权叠加,用数学公式表示为$(f·g)(n)$

连续的定义为:

$$( f * g ) ( n ) = \int _ { - \infty } ^ { \infty } f ( \tau ) g ( n - \tau ) d \tau$$

离散的定义为:

$$( f * g ) ( n ) = \sum _ { \tau = - \infty } ^ { \infty } f ( \tau ) g ( n - \tau )$$

  • 卷机层:Convolutional layer
  • 卷积核:filter

卷积核就是图像处理时,给定输入图像,输入图像中一个小区域中像素加权平均后成为输出图像中的每个对应像素,其中权值由一个函数定义,这个函数称为卷积核。

  • 卷积神经网络:Convolution Neural Networks,CNN
  • 逐元素乘法:element-wise multiplication
  • 索伯算子:Sobel operator

也称索贝滤波器,在在影像处理电脑视觉领域中常被用来做边缘检测

  • 填充:Padding
  • 池化:Pooling

我们之所以使用卷积后的特征,是因为图像具有“静态型”的属性,也就意味着在一个图像区域的特征极有可能在另一个区域同样适用。所以,当我们描述一个大的图像的时候就可以对不同位置的特征进行聚合统计(例如:可以计算图像一个区域上的某个特定特征的平均值 or 最大值)这种统计方式不仅可以降低纬度,还不容易过拟合。这种聚合统计的操作就称之为池化,或平均池化、最大池化。

  • 交叉熵损失:cross-entropy loss

交叉熵主要用于度量两个概率分布间的差异性信息。

  • 前向(传播)阶段、后向传播阶段:forward phase,backward phase

卷积神经网络的训练过程分为两个阶段。第一个阶段是数据由低层次向高层次传播的阶段,即前向传播阶段。另外一个阶段是,当前向传播得出的结果与预期不相符时,将误差从高层次向底层次进行传播训练的阶段,即反向传播阶段。

  • 反向传播:backpropagated or backprop
  • 递归神经网络:Recurrent Neural Networks,RNN
  • 自然语言处理:Natural Language Processing (NLP)
  • 独热编码:One hot

One-Hot编码,又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都有他独立的寄存器位,并且在任意时候只有一位有效。

即包含大量相乘项时梯度会变得非常大

神经网络权重的更新值与误差函数梯度成比例,然而在某些情况下,梯度值会几乎消失,使得权重无法得到有效更新,甚至神经网络可能完全无法继续训练。举例来说,传统的激活函数,如双曲正切函数的梯度值在(0, 1)范围内,而反向传播通过链式法则来计算梯度。 这种做法计算前一层的梯度时,相当于将n个这样小的数字相乘,这就使梯度(误差信号)随n呈指数下降,导致前面的层训练非常缓慢。

进阶篇

文章中仅仅是提了一句,不懂也不影响的概念:

  • 互相关:Cross-correlation
  • 长短期记忆:Long Short-Term Memory,LSTM

是一种时间递归神经网络(RNN)

一种更强大的RNN框架

LSTM的一个著名变体

可以处理前向和后向序列

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

添加新评论