FM工程实现细节

关于FM算法网上已经介绍了很多，这里介绍一下FM算法的实现细节。

FM的模型方程为:

$$
y(x)=w_0 + \sum^n_{i=1}w_ix_i + \sum^n_{i=1}\sum^n_{j=i+1}v_iv_j^Tx_ix_j
$$

$$
\begin{aligned}
\sum_{i=1}^{n}{\sum_{j=i+1}^{n}{<v_i,v_j^{T}>x_ix_j}} &= \frac{1}{2}\sum_{i=1}^{n}{\sum_{j=1}^{n}{<v_i,v_j^{T}>x_ix_j}} - \frac{1}{2} {\sum_{i=1}^{n}{<v_i,v_j^{T}>x_ix_i}} \\
&= \frac{1}{2} \left( \sum_{i=1}^{n}{\sum_{j=1}^{n}{\sum_{f=1}^{k}{v_{i,f}v_{j,f}x_ix_j}}} - \sum_{i=1}^{n}{\sum_{f=1}^{k}{v_{i,f}v_{i,f}x_ix_i}} \right) \\
&= \frac{1}{2}\sum_{f=1}^{k}{\left[ \left( \sum_{i=1}^{n}{v_{i,f}x_i} \right) \cdot \left( \sum_{j=1}^{n}{v_{j,f}x_j} \right) - \sum_{i=1}^{n}{v_{i,f}^2 x_i^2} \right]} \\
&= \frac{1}{2}\sum_{f=1}^{k}{\left[ \left( \sum_{i=1}^{n}{v_{i,f}x_i} \right)^2 - \sum_{i=1}^{n}{v_{i,f}^2 x_i^2} \right]}
\end{aligned}
$$

在上式中，$<v_i,v_j^{T}>$可以看做一个常数，其中$v_i=[v_{i,1},v_{i,2}, .. ,v_{i,f}], i\in \lbrace1,2,..,n\rbrace$；$<v_i,v_j^{T}>=\sum_{f=1}^{k}{v_{i,f}v_{j,f}}$。

实现时，$\sum_{i=1}^{n}{v_{i,f}x_i}$ 式子可以直接将每行样本$X$和一个$n*k$的隐向量矩阵相乘($n$是特征数，$k$是隐向量长度）。

如果要用 FM 做二分类，需要在上面模型外面套上一层sigmoid函数，即：

$$
output=sigmoid(y(x))=\frac{1}{1+e^{-y(x)}}
$$

损失函数

回归问题 通常使用平方损失，即$1/2(y-y(x))^2$。
分类问题（此处指的是二分类问题）通常使用逻辑损失函数（也叫交叉熵损失函数），即$ln(1+e^{-yy(x)})，y\in{-1,1}$。

所以对于二分类问题，FM 算法的损失函数如下：

$$
loss(x) = ln(1+e^{-yy(x)})
$$

加上 L2正则化之后，损失函数如下：
$$
\begin{aligned}
loss(x) &= ln(1+e^{-yy(x)}) + \frac{\beta}{2}{\theta}^2 \\
&= ln(1+e^{-yy(x)}) + \frac{\beta}{2}{w_0}^2 + \frac{\beta}{2}{w_i}^2 + \frac{\beta}{2}{v_{i,f}v_{i,f}^T} \\
&= ln(1+e^{yy(x)})-ln(e^{yy(x)}) + \frac{\beta}{2}{w_0}^2 + \frac{\beta}{2}{w_i}^2 + \frac{\beta}{2}{v_{i,f}v_{i,f}^T} \\
&= ln(1+e^{yy(x)})-yy(x) + \frac{\beta}{2}{w_0}^2 + \frac{\beta}{2}{w_i}^2 + \frac{\beta}{2}{v_{i,f}v_{i,f}^T}
\end{aligned}
$$

梯度求导，以$w_0$为例：

$$
\begin{aligned}
\frac{\partial loss(x)}{\partial w_0} &= \frac{1}{1+e^{yy(x)}}\cdot e^{yy(x)} \cdot y \cdot \frac{\partial y(x)}{\partial w_0} - y\frac{\partial y(x)}{\partial w_0} + \beta w_0 \\
&= sigmoid(yy(x)) \cdot y \cdot \frac{\partial y(x)}{\partial w_0} - y\frac{\partial y(x)}{\partial w_0} + \beta w_0 \\
&= (sigmoid(yy(x)) - 1 )\cdot y\frac{\partial y(x)}{\partial w_0} + \beta w_0 \qquad (1) \\
&= (sigmoid(yy(x)) - 1 )\cdot y + \beta
\end{aligned}
$$

在实现的时候通常可以将(1)处的$(sigmoid(yy(x)) - 1 )\cdot y$计算保存，不同参数的梯度求导在于其它项的不同。

FM工程实现细节

FM工程实现细节

损失函数

参考文献