Basic

$D$是文本集，$d$是一个文本，$W$是单词集，$w$是一个单词，$D=\{d_1,d_2,\cdots,d_n\},W=\{w_1,w_2，\cdots，w_m\}$

$w$，word，单词；$d$，document，文本；$t$，topic，话题

单词向量空间

单词向量空间

单词向量空间模型(word vector space model)

一个向量表示一个文本$d$，每一个维度对应一个单词$w$；具体表示即单词文本矩阵

（注意不是词向量组成的空间）

具体地，该空间可由单词文本矩阵表示：
单词文本矩阵(word-document matrix)：
$X=\begin{bmatrix} x_{11}&x_{12}&\cdots&x_{1n}&\\ x_{21}&x_{22}&\cdots&x_{2n}&\\ \vdots&\vdots&\ddots&\vdots\\ x_{m1}&x_{m2}&\cdots&x_{mn}\\ \end{bmatrix}_{m×n}$
[行代表一个单词，列代表一个文本]

$x_{ij}$：单词$w_i$在文本$d_j$中出现的频数或权值。

权值通常用TFIDF表示

$X$是一个稀疏矩阵

$X$的一个列向量代表一个文本，第$j$列向量$x_j$表示文本$d_j$；$X$也可写作$X=[x_1,x_2,\cdots,x_n]$

两个单词向量的内积表示对应的文本之间的语义相似度：$x_i·x_j$（标准化内积）（两个文本中共同出现的单词越多，其语义内容就越接近，对应的单词向量同不为零的维度越多，内积就越大，两个文本的语义就越相似）
频率-逆文本频率 TFIDF (term frequency-inverse document frequency)：
$TFIDF=\frac{tf_{ij}}{tf_{\cdot j}}\log \frac{df}{df_i},\quad i=1,2,\cdots,m;j=1,2,\cdots,n$
频率 TF：$\frac{tf_{ij}}{tf_{\cdot j}}$，表示单词$w_i$在文本$d_j$出现的频率，越大代表单词$w_i$越重要

文本频率：$\frac{df_i}{df}$，表示含有单词$w_i$的文本在文本集合$D$中出现的频率，越小代表单词$w_i$越重要，因为该单词在整个文本集中出现的越少，越能代表该文本的特点；$df$的$d$不是求导…….

逆文本频率 IDF：$\frac{df}{df_i}$，文本频率的导数，所以越大代表单词$w_i$越重要

于是TF-IDF作为两种重要度的积整体表示了$w_i$的综合重要度

单词向量空间存在的问题：一词多义问题；多词一义问题

话题向量空间

话题向量空间

topic vector space

一个向量表示一个话题$t$，每一个维度对应一个单词$w$；具体表示即单词话题矩阵

于是多义词可以表示不同的话题，文本由话题表示，那么就解决了一词多义问题和多词一义问题

如果两个文本话题相似，那么文本的语义也应该相似

单词话题矩阵(word-topic matrix)
$T=\begin{bmatrix} t_{11}&t_{12}&\cdots&t_{1k}&\\ t_{21}&t_{22}&\cdots&t_{2k}&\\ \vdots&\vdots&\ddots&\vdots\\ t_{m1}&t_{m2}&\cdots&t_{mk}\\ \end{bmatrix}_{m×k}$
[行代表一个单词，列代表一个话题]，该矩阵并没有直接表示文本

$t_{il}$：单词$w_i$在话题$t_l$的权值

$T$的一个列向量代表一个话题$t$，一共有$k$个话题，$T$也可以写作$T=[t_1,t_2,\cdots,t_k]$
话题文本矩阵(topic-document matrix)
$Y=\begin{bmatrix} y_{11}&y_{12}&\cdots&y_{1n}&\\ y_{21}&y_{22}&\cdots&y_{2n}&\\ \vdots&\vdots&\ddots&\vdots\\ y_{k1}&y_{k2}&\cdots&y_{kn}\\ \end{bmatrix}_{k×n}$
[行代表一个话题，列代表一个文本]

$y_{lj}$：文本$d_j$在话题$t_l$的权值

$Y$的一个列向量$y_j$代表一个文本$y$，一共有$n$个文本，$Y$也可以写作$Y=[y_1,y_2,\cdots,y_n]$

潜在语义分析：从单词向量空间到话题向量空间的线性变换

于是可以看出，我们通过[话题向量空间：单词-话题-文本]的表示方法来近似表示[单词向量空间：单词-文本] 直接表示方法：

$X中的一个文本向量：x_j≈y_{1j}t_1+y_{2j}t_2+\cdots+y_{kj}t_k=Ty_j,\quad j=1,2,\cdots,n$ $X≈TY$

将[单词-文本矩阵]表示为[单词-话题矩阵]×[话题-文本矩阵]，此即潜在语义分析

具体操作就是对$X$进行矩阵分解

算法

基于矩阵的奇异值分解算法

SVD详见矩阵计算与矩阵分解-奇异值分解

将单词文本矩阵$X$进行截断奇异值分解，得到$X≈U_k\Sigma_kV_k^T=U_k(\Sigma_kV_k^T)$

比照话题向量空间形式：$X=TY$

那么可以看作，单词话题矩阵为：$T=U_k$，话题文本矩阵为：$Y=\Sigma_kV_k^T$

LSA完毕

基于非负矩阵分解算法

non-negative matrix factorization，NMF

将矩阵分解问题$X=WH$（$X$称为基矩阵，$H$称为系数矩阵）转化为

$\min_{W,H}||X-WH||^2$ $s.t.\quad W,H≥0$

或

$\min_{W,H}D(X||WH)$ $s.t.\quad W,H≥0$

对其求解会遇到两个问题：①多变量$W,H$，那么目标函数只是对其中一个变量的凸函数，只能找到局部最优 ②如果使用梯度下降，收敛速度缓慢

提出了新的解决办法——乘法更新规则：基于梯度下降算法，[交替]更新$W,H$ （证略）

对于上面的目标函数，定义用于梯度下降的目标损失函数：

$J(W,H)=\frac{1}{2}||X-WH||^2=\frac{1}{2}\sum[X_{ij}-(WH)_{ij}]^2$

然后对$X,H$分别求偏导计算梯度，选择步长，归一化（见下），交替更新梯度

每一次更新迭代对$W$的列向量归一化，使基向量为单位向量

具体算法略

潜在语义分析