“关键字检索”服务是搜索引擎向用户提供一个可以输入待查询的关键字、词组、句子的查询框界面,用户按一定规则输入关键字后,按紧靠查询框的“搜索”按钮,搜索引擎即开始在其索引数据库中查找相关信息,然后将结果返回用户。
多数搜索引擎都融合了这两种功能,但又有所侧重,如最著名的搜索引擎YAHOO侧重按内容编排类目索引,而另一个著名的搜索引擎Alta Vista则主要是按关键字检索搜索引擎。
1. 信息提取系统
信息提取系统是一些专gate设计的程序,是在搜索引擎服务器上运行的网页搜索软件,用于自动访问WWW站点,并提取被访问站点的信息。当发现被访问站点中的链接时,这些程序还会自动转到这些链接,继续进行信息提取。有一些信息提取程序会定期自动访问所有的站点,一旦发现新的信息即重新提取、更新以前提取的信息;另一些则靠人工定期运行。几乎所有的搜索引擎都在其主页中加上一个“站点注册”功能,向用户提供将自己的站点信息主动加入该搜索引擎数据库的途径。
2. 审计和分类检索
要对所提取的信息进行分类整理。不同的搜索引擎在搜索结果的数量上,以及经过分类整理所提供给用户使用的数据质量上可能大不相同。有的系统是利用网页搜索软件,记录下每一页的所有文本内容;而有的系统则首先分析数据库中的地址,以判断哪些站点最受欢迎,然后再用软件记录这些站点的信息,包括从HTML标题到整个站点所有文本内容,以及经过算法处理过后的摘要。当然,最重要的是数据库内容必须经常更新和重建,以保持与新信息同步。