维普论文检测11月19日检测样例:
第二章 垂直搜索引擎及Nutch相关理论与技术分析
基于Nutch的农业垂直搜索引擎研发过程中涉及到垂直搜索引擎的相关理论与技术,同时本研究是建立在Nutch平台上的,因此在对垂直搜索引擎相关理论与技术分析的同时也对Nutch理论及其相关技术进行介绍与分析。
2.1 垂直搜索引擎
垂直搜索引擎是专门面向于某一特定行业、特定领域、特定人群而产生的工具,因此,垂直搜索引擎也称为专业搜索引擎、专题搜索引擎或是主题搜索引擎,是通用搜索引擎的细分和延伸(李晓明等 2007;王文钧和李巍 2010)。它不仅具备“专、精、深”的特点,而且在这一领域具有鲜明的领域特色。因此它不同于通用搜索引擎,它的查询结果范围极为缩小、极具针对性且更贴近用户的需求。
2.1.1 垂直搜索引擎系统概述
垂直搜索是专门面向某一个行业或是某一个主题的专业搜索引擎,它是一个全新的搜索引擎服务模式,它通过定向分字段抽取出所需要的某一领域、某一主题或某一行业内的数据并进行一次信息整合,最后对数据加工处理后以一定形式将信息反馈给用户(M. Chau and H. Chen 2003),因此它的产生是专门用来为搜索某一主题或某一个学科的信息提供搜索服务,比通用搜索引擎解决某些实际的查询问题时更有效。具体而言,垂直搜索引擎就是把Web信息资源中的某类学科信息以定向分字段地形式抽取出所需的数据,即将非结构化的网页数据抽取成一定的结构化的网页数据的过程,然后对数据进行去重、分类、分词、索引等处理,最后再以搜索的方式满足用户的需求。
垂直搜索引擎之所以能够成为目前搜索引擎研究的一个热点,是因为它具有通用搜索引擎所没办法比拟的优势。首先,垂直搜索引擎的爬虫只抓取某一领域、某一行业的专门数据,它的这种选择性采集使得采集到数据量相对通用搜索引擎较少,保证了选用专家分类标引技术来对采集到的数据进行整理能够进一步提高数据的质量,同时也能够及时、有效的更新索引数据库(李广丽 2008);其次,垂直搜索引擎信息采集量的缩小,不仅使得索引数据库规模缩小,还能够大大缩短有效查询信息的时间;最后,由于垂直搜索引擎只针对某一个学科、某一个领域、某一个行业或是某一个主题,能够有效的减少一词多义的可能性,这样使得查准率和查全率能够大大提高。因此,垂直搜索引擎有效的弥补了通用搜索引擎不专业化、不智能化、深度不够、信息量大、查准率较低等存在的弊端,这也正是未来搜索引擎的一个发展趋势。
垂直搜索引擎和通用搜索引擎的出现其目的是相同的,都是帮助广大用户搜索信息的相关工具,但其信息的服务形式有很大变化,垂直搜索引擎更注重信息的“专、精、深”。因此,在总体结构上垂直搜索引擎和通用搜索引擎基本相同,唯一不同的是垂直搜索引擎相比通用搜索引擎多了主题判别的功能,这样垂直搜索引擎获取的网页就只与该主题、该领域、该行业相关。这样不仅能大大减少信息量,还能有效的减少存储开销,同时也避免了大量无用信息的干扰。垂直搜索引擎体系结构如图2-1所示。
由图2-1可知,垂直搜索引擎的基本工作原理是:首先网络蜘蛛根据初始URL采集互联网上的网页;其次对采集到的网页进行处理,通过网页分析提取出网页内容和网页中存在的URL链接,并对网页内容和网页中的URL链接进行过滤,把与主题相关的页面存入网页数据库,同时把网页中的URL链接加入URL数据库,等待网络蜘蛛进一步爬取;最后根据网页数据库建立索引,将索引存入索引库。此外,用户通过用户接口进行查询请求,检索器根据用户的查询条件到索引库进行检索,将检索结果进行一定的有效组织后返回给检索用户(周鹏等 2009)。
2.1.2 垂直搜索引擎关键技术
垂直搜索引擎其关键技术分为两个层次,分别是模板级、网页库级。由于采用网页库级的垂直搜索引擎相比采用模板级的垂直搜索引擎后期维护成本低、通用性较好,因此本研究采用网页库级技术实现基于Nutch的农业垂直搜索引擎。网页库级是指在数据容量、信息源数量、检索容量、可靠性、稳定性上都满足网页库级的搜索引擎要求,相对模板级来说,它不依赖于具体网页,可以采集任意有效网页。因此,下面主要介绍网页库级的垂直搜索引擎核心技术,其核心技术主要包括:信息采集技术、网页信息抽取技术、信息处理技术、分词技术、索引技术等。
维普论文检测系统文章欢迎转载,转载请以链接形式标明本文地址。