等级考试

基于Web信息采集技术研究

时间:2024-10-16 20:56:05 等级考试 我要投稿
  • 相关推荐

基于Web信息采集技术研究

  随着Web上信息的迅速扩展,各项基于Web的服务也逐渐繁荣起来。作为这些信息服务的基础和重要组成部分,Web信息采集正应用于搜索引擎、站点结构分析、页面有效性分析、Web图进化、用户兴趣挖掘以及个性化信息获取等多种应用和研究中。然而,随着人们对提供的各项信息服务要求越来越高,传统的基于整个Web的信息采集也越来越力不从心,它无法及时地采集到足够的Web信息,也不能满足人们日益增长的个性化需求。为此,本文展开了对Web上局部范围内信息的有效采集研究,也就是基于主题的Web信息采集研究。

基于Web信息采集技术研究

  根据我们在信息采集领域的长期积累以及国内外在基于主题的信息采集领域的发展,本文在综述了基本情况后提出了一个基于主题的Web信息采集结构模型,这包括主题与起始URL选择、Spider采集、页面分析、URL与主题的相关性判定、以及页面与主题的相关性判定等一系列步骤。我们分别给出了相关的处理算法和流程以及相应的数据结构,并针对研究过程中遇到的问题,提出了多个新的算法、判定规则和规律:

  在Hub特性、Linkage/Sibling Locality特性、站点主题特性、Tunnel特性的基础上,总结出了主题页面在Web上的分布规律。

  在定义主题和提出分类主题的基础上,给出了主题选择的方法。

  采用Client/Server结构的Spider系统,允许多机同时采集,实现了全面、高效并且灵活的信息搜集。

  在分析了HTML语法的基础上,给出了对html页面的主题、链接、标题的提取算法。

  在URL与主题的相关性判定中,在扩展元数据方法RW、RWB和链接分析方法PageRank的基础上提出了IPageRank算法。

  在页面与主题的相关性判定中,应用在自然语言处理中比较成熟的基于关键词的向量空间模型计算页面与主题的相似度。

  试验结果显示,我们的工作是有效的,我们的系统有很强的实用价值,特别是URL与主题的相关性判定中的IPageRank算法,有较大的突破。
 

【基于Web信息采集技术研究】相关文章:

基于PHPQuery的PHP通用采集类10-17

全国学前教育管理信息采集表06-26

2016年普通高考报名信息采集的注意事项09-08

全国学前教育管理信息幼儿基本采集表08-06

南昌市2017年小升初信息采集指南06-09

2017年内蒙古高考报名信息采集办法10-29

2016年起自考采集笔迹信息 溧水报名工作已启动06-18

湖南2017年高考招生考生电子档案信息采集方案10-04

湖北16年高考将不再采集"联系电话"等敏感信息07-12

江苏2016年自考1月举行 将首次采集考生笔迹信息09-30