基于条件随机场的人物信息抽取
    点此下载全文
引用本文:郑轶.基于条件随机场的人物信息抽取[J].计算技术与自动化,2015,(4):132-136
摘要点击次数: 1056
全文下载次数: 34
作者单位
郑轶 (东北石油大学 计算机与信息技术学院黑龙江 大庆163318) 
中文摘要:近年来,信息抽取成为自然语言处理的一个热点,同时也是难点。针对不同的问题,大家提出了不同的方法,而大多数的方法是基于启发式规则或者抽象成分类问题,本文将从人物百科中抽取人物信息看成是一个序列标注的问题,利用条件随机场对生语料进行序列标注。此外,文中详细介绍数据分析的方法以及特征选取方法,所提出的方法直接从生语料中抽取,节省了大部分方法的数据预处理部分,同时避开了大部分方法使用的句法分析的特征,有效地提高了信息抽取的效率。在文章的最后做了两组对比实验,实验结果表明,本方法能够非常准确地从HTML生语料中抽取出人物信息。
中文关键词:CRFs  人物  人物信息  信息抽取
 
Character Information Extraction Based on Conditional Random Fields
Abstract:This paper considered the character information extraction from the Baike HTML as a sequence labeling question, and used CRFs to label the raw data. This paper also detailed the methods of data analysis and feature selection, and the way to extract information from the raw data directly, which do not contain the data preprocessing part and the sentence parser part. By this way, it developed the efficiency of information extraction effectively. And two comparable tests show that the method proposed can extract the character information from the row HTML accurately.
keywords:CRFs  CRF  character  information extraction
查看全文   查看/发表评论   下载pdf阅读器