• • 下一篇
吴慧桢, 张三国
WU Huizhen, ZHANG Sanguo
摘要: 半监督学习是模式识别和机器学习领域研究的重点问题,近年来在各领域得到广泛应用。在实际问题中,有标签样本获取代价高昂,而无标签样本虽然缺少标签信息但更为容易获得,半监督学习同时使用大量的无标签数据和少量的有标签数据来进行模式识别工作。本文提出了一种基于模型平均与γ-散度的稳健半监督方法:一方面,通过引入模型平均方法解决无标签数据质量不高的问题;另一方面,通过引入基于γ-散度的逻辑回归解决有标签数据存在误标签的问题。所提出的模型的优点是,我们能够利用不同模型的预测差异来处理数据,有效利用无标签数据的信息,同时尽可能减少其中的有害信息;并通过引入γ-散度减少有标签数据中误标签数据对拟合效果的影响,最终得到对于无标签数据和有标签数据都稳健的模型。模拟研究和Breast Cancer数据应用表明,与现有半监督学习方法相比,当数据质量较低时,本文所提出的新方法在预测性能上有明显的提升。
中图分类号: