一种用于Web信息抽取的页面信息本体自动学习方法
    点此下载全文
引用本文:柳佳刚,龙军, 李泽军.一种用于Web信息抽取的页面信息本体自动学习方法[J].计算技术与自动化,2011,(1):119-123
摘要点击次数: 1565
全文下载次数: 184
作者单位
柳佳刚,龙军, 李泽军 (1.湖南工学院 计算机与信息科学系湖南 衡阳4210022.中南大学 信息科学与工程学院湖南 长沙410083) 
中文摘要:针对基于Web页面信息本体的信息抽取中,需人工根据待抽信息项的概念和对应的实例值来建立本体的缺点,设计一个页面信息本体的自动学习方法。论文利用前期在基于DOM的页面相似路径归纳学习算法和基于PAT-tree的自动关键词识别算法上的研究成果,使用改进的TF·IDF统计方法和复合事件的关联规则算法完成概念和概念间关系的学习,建立页面信息本体,减少建立本体的人工工作量。
中文关键词:本体学习;信息抽取;PAT tree  关联规则
 
An Automatic Ontology Learning Approach Based on Web Information Items for Web Information Extraction
Abstract:According to the weakness of building ontology needs manually designated concepts and instances from the basic information of web, an automatic ontology learning approach based on web information items is designed. Utilizing pre research that an arithmetic of an inductive learning based on DOM for the similar path of information items and an approach for identifying automatic keyword based on PAT tree, the learning for the concepts and the relation between concepts is implemented by using an approved TFIDF statistic method and an algorithm of composite event association rule, the information item ontology is built, the manual workload for building ontology is reduce
keywords:ontology learning  information extraction  PAT tree  association rule
查看全文   查看/发表评论   下载pdf阅读器