非负矩阵分解文献综述
摘要:信息或信号处理的许多数据具有非负性的特点,而非负矩阵分解是一种多变量分析方法,可在一些情况下实现矩阵的降维,将规模较大的复杂问题转化为规模较小的若干子问题,故在各领域有很广泛的应用。继 Lee 和 Seung 提出非负矩阵分解算法的思想后,有大批学者对非负矩阵分解算法进行研究,并得出了一些快速的分解算法。本文主要介绍了国内外研究现状及取得的成果,并勾勒出一些相关的非负矩阵分解的主要概念,并从两种不同的NMF乘法算法展开探究。一种算法是利用欧氏距离来最小化常规最小平方误差,而另一种算法可以最小化广义K-L散度。两种算法的单调收敛性可以使用类似于用于证明期望最大化算法的收敛性的辅助函数来证明。本文最后又研究了乘法更新算法,并总结了非负矩阵分解中仍未解决的问题,以及未来的继续研究方向。
关键词:非负矩阵分解; 迭代规则; 收敛性;更新算法
一、文献综述
(一)国内外研究现状
近年来,技术传感器技术和计算机硬件的发展导致数据量的增加,许多经典数据分析工具被迅速压倒。因为信息采集设备只有有限的带宽,收集到的数据并不经常准确。其次,在很多情况下,从复杂现象观察到的数据,其往往代表几个相互关联的变量共同作用的综合结果。当这些变量更少的精确定义时,在原始数据中包含的实际信息往往是重叠的、模糊的。为了处理这些海量数据,科学家产生了新的关注。
1999年,在刊物Nature上,Daniel Lee 和Sebastian Seung开始的一系列新的NMF的研究,数以百计的论文引用Lee 和Seung的论文,但一些较不为人知的事实是,在Lee 和Seung 的论文发表之前,Pentti Paatero开始了相关的工作。虽然Lee和Seung引用Paatero的论文,Lee和Seung将Paatero的工作称为正矩阵分解,然而,Paatero的工作很少被后来的作者所引用。这是因为Paatero将其工作称为正矩阵分解,这是误导Paatero创建NMF算法。实际上Paatero年前发表了他最初的分解算法[1]。
2005年,Lin为了加速Lee和Seung的NMF迭代算法的收敛速度,最近提出使用投影梯度有约束的优化方法[2],该方法与标准的(乘法更新规则)的方法相比,计算似乎有更好的收敛性。使用某些辅助约束,可以降低分解有约束的优化假设,降低投影梯度方法的局限性。
