搜索引擎的特点有哪些分类

相关推荐

搜索引擎的特点有哪些分类

　　搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息，在对信息进行组织和处理后，为用户提供检索服务，将用户检索相关的信息展示给用户的系统。下面是百分网小编给大家整理的搜索引擎的特点简介，希望能帮到大家!

　　搜索引擎的特点

　　(1)、纯技术型的全文检索搜索引擎原理是通过机器手(即spider程序，也叫蜘蛛)到各个网站收集、存储信息，并建立索引数据库供用户查询。因而，数量大，更新快，但准确率不高。如大家经常使用的百度、谷歌的网页搜索都属于纯技术型的。

　　(2)、分类目录并不采集网站任何信息，而是利用各网站向“搜索引擎”提交网站信息，如填写的关键词和网站描述等资料，经过人工审核编辑后，符合网站登录的条件，则录入数据以供查询。因而，搜索结果相关性高，但数据量及更新度都不及前者。比如常用的亚马逊分类目录就是此类。

　　搜索引擎的分类

　　目录索引

　　目录索引也称为：分类检索，是因特网上最早提供WWW资源查询的服务，主要通过搜集和整理因特网的资源，根据搜索到网页的内容，将其网址分配到相关分类主题目录的不同层次的类目之下，形成像图书馆目录一样的分类树形结构索引。目录索引无需输入任何文字，只要根据网站提供的主题分类目录，层层点击进入，便可查到所需的网络信息资源。

　　虽然有搜索功能，但严格意义上不能称为真正的搜索引擎，只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息，不依靠关键词(Keywords)进行查询。

　　与全文搜索引擎相比，目录索引有许多不同之处。

　　首先，搜索引擎属于自动网站检索，而目录索引则完全依赖手工操作。用户提交网站后，目录编辑人员会亲自浏览你的网站，然后根据一套自定的评判标准甚至编辑人员的主观印象，决定是否接纳你的网站。其次，搜索引擎收录网站时，只要网站本身没有违反有关的规则，一般都能登录成功;而目录索引对网站的要求则高得多，有时即使登录多次也不一定成功。尤其像Yahoo这样的超级索引，登录更是困难。

　　此外，在登录搜索引擎时，一般不用考虑网站的分类问题，而登录目录索引时则必须将网站放在一个最合适的目录(Directory)。

　　最后，搜索引擎中各网站的有关信息都是从用户网页中自动提取的，所以用户的角度看，我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息，而且还有各种各样的限制。更有甚者，如果工作人员认为你提交网站的目录、网站信息不合适，他可以随时对其进行调整，当然事先是不会和你商量的。

　　搜索引擎与目录索引有相互融合渗透的趋势。一些纯粹的全文搜索引擎也提供目录搜索，如Google就借用Open Directory目录提供分类查询。而像Yahoo! ;这些老牌目录索引则通过与Google等搜索引擎合作扩大搜索范围(注)。在默认搜索模式下，一些目录类搜索引擎首先返回的是自己目录中匹配的网站，如中国的搜狐、新浪、网易等;而另外一些则默认的是网页搜索，如Yahoo。这种引擎的特点是找的准确率比较高。

　　全文索引

　　搜索引擎分类部分提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索，即每隔一段时间(比如Google一般是28天)，搜索引擎主动派出“蜘蛛”程序，对一定IP地址范围内的互联网网站进行检索，一旦发现新的网站，它会自动提取网站的信息和网址加入自己的数据库。另一种是提交网站搜索，即网站拥有者主动向搜索引擎提交网址，它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序，扫描你的网站并将有关信息存入数据库，以备用户查询。随着搜索引擎索引规则发生很大变化，主动提交网址并不保证你的网站能进入搜索引擎数据库，最好的办法是多获得一些外部链接，让搜索引擎有更多机会找到你并自动将你的网站收录。

　　当用户以关键词查找信息时，搜索引擎会在数据库中进行搜寻，如果找到与用户要求内容相符的网站，便采用特殊的算法——通常根据网页中关键词的匹配程度、出现的位置、频次、链接质量——计算出各网页的相关度及排名等级，然后根据关联度高低，按顺序将这些网页链接返回给用户。这种引擎的特点是搜全率比较高。

　　元搜索

　　元搜索引擎(METASearch Engine)接受用户查询请求后，同时在多个搜索引擎上搜索，并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等，中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面，有的直接按来源排列搜索结果，如Dogpile;有的则按自定的规则将结果重新排列组合，如Vivisimo。

　　搜索引擎的工作原理

　　第一步：爬行

　　搜索引擎是通过一种特定规律的软件跟踪网页的链接，从一个链接爬到另外一个链接，像蜘蛛在蜘蛛网上爬行一样，所以被称为“蜘蛛”也被称为“机器人”。搜索引擎蜘蛛的爬行是被输入了一定的规则的，它需要遵从一些命令或文件的内容。

　　第二步：抓取存储

　　搜索引擎是通过蜘蛛跟踪链接爬行到网页，并将爬行的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。搜索引擎蜘蛛在抓取页面时，也做一定的重复内容检测，一旦遇到权重很低的网站上有大量抄袭、采集或者复制的内容，很可能就不再爬行。

　　第三步：预处理

　　搜索引擎将蜘蛛抓取回来的页面，进行各种步骤的预处理。

　　⒈提取文字

　　⒉中文分词

　　⒊去停止词

　　5.正向索引

　　6.倒排索引