1.结合毕业设计(论文)课题情况,根据所查阅的文献资料,每人撰写
2000字左右的文献综述:
研究背景及意义
逻辑回归(logistic regression,LR)是一种广义的线性回归分析模型,常用于数据挖掘、疾病自动诊断、经济预测等领域。该模型是一种多元统计方法,适用于因变量(亦称属性变量或者输出变量)为两分类数据(即因变量取值为0或1的数据)或多分类数据的情况。
然而,传统逻辑回归模存在以下一些主要缺陷:
1. 过拟合问题。即在利用模型去拟合带噪声的数据时,将噪声数据也同时拟合进去。一方面会造成模型比较复杂,另一方面也会使模型的泛化性能较差,模型只能在对训练样本进行拟合时有很好的精度,但是对于训练样本以外的测试样本无法达到理想的分类正确率,即分类正确率并未达到理想状态。
2. 变量选择问题。一般来说,在实际数据分析问题中,自变量中的大部分元素和最终的输出(因变量)没有关系或不提供任何信息,在最小化目标函数的时候考虑自变量这些额外的特征,虽然可以获得更小的训练误差,但在预测新的样本时,将这些无效信息纳入考虑将会对正确因变量的预测造成干扰。因此在数据分析应用中,需要从高维数据中选择对特定输出有用的变量,丢弃冗余的变量,从而降低数据维度。
据此,正则化的方法被提出用以解决“过拟合”和“变量选择”这两个问题,正则化模型可以概括为“损失函数 正则化项”。一般而言,正则化模型可以写成如下形式:
其中为一组已知数据集,是正则参数,表示损失函数,表示的范数或拟范数(对于线性模型,为线性模型参数)。我们称第一项为损失函数项,第二项为罚函数项(正则化项),在罚函数中,对于不同的值,上式对于不同的正则化。当时对应于AIC及BIC准则,称为正则化;当 时对应于正则化;当 时对应于 Lasso 方法,称为正则化;当 时对应于岭估计,称为正则化;当时对应于 正则化。[18]
范数是指向量中非0的元素的个数,范数是指向量中各个元素绝对值之和,范数和范数均可以实现模型系数的稀疏性,但是因具有比更好的优化求解特性而被广泛应用。范数是指向量各元素的平方和的平方根(即欧氏距离),正则化能够防止过拟合,有效提升模型的泛化能力。正则化对于高维数据的稀疏模型十分有效,能够起到降维的作用,然而也存在一些不足:
