基于SVM主动学习技术的PU文本分类
    点此下载全文
引用本文:富震.基于SVM主动学习技术的PU文本分类[J].计算技术与自动化,2014,(1):127-131
摘要点击次数: 1430
全文下载次数: 62
作者单位
富震 (沈阳炮兵学院 指挥自动化教研室,辽宁 沈阳110162) 
中文摘要:PU文本分类(以正例和未标识实例集训练分类器的分类方法)关键在于从U(未标识实例)集中提取尽可能多的可靠反例,然后在正例与可靠反例的基础上使用机器学习的方法构造有效分类器,而已有的方法可靠反例的数量少或不可靠,同样构造的分类器也精度不高,基于SVM主动学习技术的PU文本分类算法提出一种利用SVM与改进的Rocchio分类器进行主动学习的PU文本分类方法,并通过spy技术来提高SVM分类器的准确度,解决某些机器学习中训练样本获取代价过大,尤其是反例样本较难获取的实际问题。实验表明,该方法比目前其它的主动学习方法及面向PU的文本分类方法具有更高的准确率和召回率。
中文关键词:支持向量机  主动学习  PU  文本分类;Rocchio
 
A PU Text Classifier Based on SVM Active Learning
Abstract:The key problem of building text classifiers using positive and unlabeled examples is to extract reliable negative examples from unlabeled examples, and then using positive samples and strong negative samples to construct classifier. This paper presents a new active learning algorithm that combines Support Vector Machine(SVM) with spy technique and improved Rocchio algorithm. It solved problems in machine learning when no labeled negative documents are available in the training example set or when negative examples are very difficult to collect. Experimental results on the Reuter data set show that our method outperforms other algorithms in terms of F1-measure.
keywords:support vector machine  active learning  PU  text classification  Rocchio
查看全文   查看/发表评论   下载pdf阅读器