首 页 本刊概况 出 版 人 发行统计 在线订阅 欢迎投稿 市场分析 1 组织交流 1 关于我们
 
1
   通信短波
1
   新品之窗
1
   优秀论文
1
   通信趋势
1
   特别企划
1
   运营商动态
1
   技术前沿
1
   市场聚焦
1
   通信视点
1
   信息化论坛
1
当前位置:首页 > 优秀论文
基于Heritrix聚焦爬虫的特定语料采集系统设计
作者:何洋 潘光强
来源:本站原创
更新时间:2014-1-16 9:23:00
正文:


(1.国防科技大学计算机学院,湖南省长沙市 4100001;2.国防科技大学计算机学院,湖南省长沙市 410000)

摘要目前,语料在各项研究中发挥着重要作用,现在的语料采集方法还不能满足需要。本文提出了一种新的语料采集方法,可以准确迅速的采集特定领域语料。通过修改Heritrix开源爬虫的组件,引入了APHash算法,解决爬虫队列平均分配问题,提高了采集效率,并通过加入URL判断条件,实现了特定领域语料的采集。对采集内容使用开用工具Tika进行解析,通过大规模采集,可以形成语料库,实现了特定语料的采集。
关键词Heritrix 语料聚焦爬虫 APHash算法 Tika
中图分类号:TP393.08  文献标识码:A        文章编号:
Design and implementation of specific data acquisition system based on Heritrix and focused crawler
HE Yang1 PAN GuangQiang2
  (1.National University of Defense Technology,Changsha 410000,china.HE Yang,
  2.National University of Defense Technology,Changsha 410000,china.PAN GuangQiang)
AbstractAt present, the corpus plays an important role in the study, data collection methods now can not meet the need of. This paper presents a new method of data acquisition, can quickly and accurately capture domain specific corpus. Through the components of modified Heritrix open source crawler, we introduce the APhash algorithm to solve the problem, the average distribution of crawler queue, adjustable high acquisition speed, and by the addition of URL to determine the conditions, the domain specific corpus collection. The collection content using open by parsing the Tika tools, the specific data collection
Key wordsHeritrixcorpusAPHashfocused crawler Tika

 

 

 

参考文献
[1]http://baike.baidu.com/link?url=UwnzD2Q5cKTaqt3VNdK3VJE4inexXl6haM60XJQYUAfE5Vv6KgLJAgZNRms4dBrq
[2]唐苏刘循基于超链接引导和链接图分析的主题搜索引擎[J].计算机技术与发展,2011,21(2):155-158
[3]Dong HHussaln F KFocused Crawling for Automade Service Discovery,Annotation and Classification in Industrial Digital Ecosystems[J].IEEE Trans on Industrial Electronics,2011 58(6):2106-2116。
[4]邱哲符滔滔Lucene2,0+Heritrix开发自己的搜索引 北京:人民邮电出版社,2007.
[5]杨颂欧阳柳波基于Heritrix的面向电子商务网站增量爬虫研究[J].软件导刊,2010,9(7):38—39
[6]http://baike.baidu.com/link?url=EapJ7YOdct9QfbNJHRdZYVxoBQ6LJHNT6e6cM1BaffZdLnAHNCiET79pTx4almJ1BCOMR1mZp-KkbZJjrwGggK
[7]范先爽刘东飞基于Heritrix网络爬虫算法的研究与应用
[8]朱敏罗省贤基于Heritrix的面向特定主题的聚焦爬虫研究
[9] http://baike.baidu.com/link?url=FCUicrM4g6eSJynF5v3cjzUNgze_3ytnD3K_B0VDAHgU-pDRjjsyuusn0axvN5_fnbLZlieoIWnpS8ngPjKFO_


本文基金项目:国家863计划项目。课题编号:2011AA010702。
  
作者简介:
  何  洋,男,1982年4月出生,辽宁锦州人,国防科学技术大学计算机学院计算机科学与技术专业工程硕士。主要研究方向为大数据挖掘、网络爬虫。
  潘光强,男,1984年6月出生,安徽人,国防科学技术大学计算机学院计算机科学与技术专业工程硕士。主要研究方向为大数据挖掘、网络爬虫。
  
  

 
 
   
《通信市场》 中国·北京·复兴路49号通信市场(100036) 点击查看具体位置
电话:86-10-6820 7724, 6820 7726
京ICP备05037146号-8
建议使用 Microsoft IE4.0 以上版本 800*600浏览 如果您有什么建议和意见请与管理员联系