3.1 初级和高级检索技术
随着Internet上信息越来越丰富,用户一个简单的查询往往会得到成千上万条来自不同资源站点的信息,并且,往往是一条信息在不同的站点上重复出现,使得用户的查询如大海捞针。尽管现在搜索工具的搜索能力和准确性有了很大的提高,但仍然会产生大量无用的检索结果。面对网上巨大的信息量,分类索引的查全率有限,主题检索中的关键词。由于选择上的随意性,其查准率之低也是难以避免的,更不要说查找图像、音频、视频等多媒体信息了。于是人们对检索技术的要求越来越高了。
3.1.1初级检索技术
1.布尔逻辑算符
布尔逻辑检索指通过标准的布尔逻辑关系词来表达检索词与检索词之间逻辑关系的检索方法,也是现代信息检索系统中最常用的一种方法。
常用的布尔逻辑算符有3种。
(1)逻辑与(AND)。也可以写为“*”,表示它所连接的两个检索词必须同时出现在检索结果中才满足检索条件。使用逻辑与(AND),可以缩小信息的检索范围,提高检索的专指度。例如,检索式“刑事犯罪 * 女性;computer AND law”。
(2)逻辑或(OR)。也可以写为“+”,表示它所连接的两个检索词中任意一个出现在检索结果中就满足检索条件。使用逻辑或(OR),可以扩大信息的检索范围,提高检索的查全
3.1.1
率。例如,检索式“WTO+世贸组织;car OR automobile”。
(3)逻辑非(NOT)。也可以写为“-”,表示它所连接的两个检索词中应从第一个概念中排除第二个概念。使用逻辑非(NOT),可用于排除不希望出现的检索词。它和逻辑与的作用相类似,能提高信息查准率。例如,检索式“知识产权 - 版权;automobile NOT truck”。
需要注意的事项如下。
(1)有的检索系统以符号形象地表达布尔检索的功能,如“+”表示逻辑或,“-”表示逻辑非,默认值(空格)为逻辑与;有的检索系统直接把布尔逻辑隐含在菜单中,例如,Lycos以“match all terms”表示逻辑与,以“match any term”表示逻辑或。绝大多数检索系统的高级检索完全用表格和文字来表达布尔逻辑关系。例如,中国期刊网的高级检索中,分别以“并且”、“包含”、“不包含”来表示。Excite分别以“必须包括”(MUST contain)表示逻辑与、用“一定不含”(MUST NOT contain)表示逻辑非。
(2)有的检索系统部分支持布尔关系,例如,Yahoo!尚不支持逻辑非;有的检索系统可进行复合布尔检索,允许用户按照自己的意愿组合布尔关系,如 HotBot、AltaVista。但复合布尔检索尚处于发展时期,要到达完美尚需时日。
(3)布尔逻辑因其匹配标准僵化、相关程度难以描述、输出信息不排序、难以构建理想的提问式等弊端越来越不适用于面向最终用户的公共检索系统,其局限性是显而易见的。有的系统已经考虑到这一点,如英国的Okapi系统,就采用词频加权模式,从而能够部分地弥补布尔逻辑算符的不足。最初的Okapi系统还出现过检索树(search tree)的功能,就是系统根据检索树分支上的节点顺序依次自动切换执行不同的检索策略。比如说,如果一个检索词作为标题词进行检索没有命中文献则自动将其转换为关键词进行检索。这实际上是一种模糊检索方式,比布尔逻辑柔和得多、适应性强。
2.截词符
所谓截词,是指检索者将检索词在他认为合适的地方截断。截词检索,则是使用截词的一个局部进行检索的一种方法,即凡满足这个词截断部分中的所有字符(串)的信息,都为命中信息。截词检索也是一种常用的检索技术。在西文中,使用截词方法可以解决一个词的单复数问题,词干相同而词尾不同的问题(例如,由同一词根派生出来的名词、动名词、形容词和副词等)以及英美单词拼写差异等问题。
截词方式有多种,按截断的位置来分有前截断、中截断、后截断3种类型。
(1)后截断。它是将截断符号放置在需截字符的右方,以表示其右边不管截去有限个还是无限个字符,数据库中都只有截词符前面部分字符串相同的信息,即为命中信息。后截断采用前方一致的检索方式。下面各举一个无限截断与有限截断的例子:
检索词:edit?,其检索结果:edit、editing、edition、editor、editorial、editorialist、editorialize、
editorship、editorially。
有限截断:检索词“product?”,检索结果表示product的单复数形式都是检索词。
(2)前截断。它恰好与后截断相反。前截断是将截词符号放置在一个字符串的左方,以表示其左边不管截去有限或无限个字符,只要数据库中具有与截词符号后面部分字符串相同的检索词的信息,即为命中信息。这种方式称为检索词的前截断,也称为后方一致。
例如,“?market”表示含有market或在market前带有任何一个字母的词的信息都为命中信息。
(3)中截断。它又称为“通用字符法”或“内嵌字符截断”。中截断把截断符号放置在一个检索词的中间,而不是字符串的左右两侧。中截断只允许有限截断。
例如,“wom?n”表示含有词woman或women的信息都为命中信息;“defen?e”表示含有检索词defence或defense的信息都为命中信息。
检索系统提供上述不同类型的截词检索方法,不仅有助于扩大检索范围和提高查全率,而且还可以减少检索词的输入量,简化检索式,从而可以节省机时,降低联机费用。
注意:按截断的字符数量来分可分为有限截断和无限截断两种类型。在不同的检索系统中对截断符号的表示具有不同的规定,例如,Dialog系统使用“?”,而BRS系统使用“$”,Orbit系统使用“#”等。
此外,截词必须适可而止,截去部分过多会大大增加误检率。绝大多数的检索系统都支持截词功能。有的是自动截词(如Lycos),有的是在一定条件下才能截词(如Alta vista)。使用最多的是右截词(如comput*),部分支持中截词(如wom*n),左截词则少见(如*physics)。
3.限制检索
在检索系统中,使用缩小和限定检索范围的方法称为限制检索。这是使用相当广泛的检索方法,用户可把检索范围限制在标题、URL或超链接等部分。限定检索条件多种多样,包括主要和常用的有字段限制。
字段限制指的是这样一种检索方法,它规定限定检索词必须在数据库存记录中规定的字数范围内出现,这样的信息才可视为命中信息。通常数据库中可供检索的字段分为基本字段和辅助字段。基本字段能反映信息的主要内容,包括题名、主题词、文摘;辅助字段与信息的主要内容无关,包括作者、信息类型、语种、出版年份等。每个字段通常使用一个以两个字母表示的字段代码表示。
在字段检索时,利用前缀符对辅助字段加以限制,利用后缀符对基本字段加以限制。
例如,LA=English表示利用LA把需要检索的信息语种限定为英语,Computer/AB表示利用AB把Computer一词限定在文摘字段进行检索。
其余可以限定的如下。
(1)限定范围,即限定关键词必须是处于页面中的某个字范围内的,如限定在标题、URL、链点文字、网页文字、特定站点等部分。
(2)限定网页深度(即网页层次)。
(3)限定在某一专题内检索,如新闻组、黄页、电邮地址、股票,热点新闻等。
(4)限定在某一分类类目内检索,如经济、文学、艺术、军事等。
(5)限定首先在5%最优站点范围内检索,并把检索所得排列在检索结果的前面。
(6)限定网络资源类型(网站类型),如个人网页、商业、教育、政府等站点。
(7)限定网络资源类型(数据类型),如文件、声音、图像、HTML、编程语句等。
(8)限定日期,如特定日期前后、最近某段时间内建立或修改的网页等。
(9)限定地区或域名。
4.邻近检索
邻近检索(proximity search)是通过专门符号来规定检索词在结果中的相对位置。目前应用广泛的主要是(nW)和(nN)这两个关系。
(1)(nW)关系要求它所连接的两个检索词在结果中相互距离不超过n个词(在中文情况下不超过n个字),而且前后顺序不能颠倒。例如,检索式“second(W)world(W)war”就只能检索出那些包含词组“second world war”的结果,而不会检索出包含“the second war in the world”。
(2)(nN)关系的用途略逊一筹,也要求它所连接的两个检索词在结果中相互距离不超过n个词(在中文情况下不超过n个字),但前后顺序可以变换。例如,检索式“environment(2N)protection”就可检索出包含“environment protection”、“protection of the environment”、“protection of water environment”、“protection of forest environment”等内容的结果。
许多检索工具用引号引出词组这样更直接的方法来进行这类检索。例如,“北京大学”这样的检索词将“北京的清华大学”、“许多位于北京的大学”等结果排除在检索结果之外。
总的来说,(W)和(N)关系对提高检索的查准率有着不可低估的功用。如果搜索引擎能支持更多其他邻近检索关系,如DIALOG的(L)和(F)关系,查准率可进一步提高。
3.1.2 高级检索技术
1.加权检索技术
它是对布尔检索的改进,可在既保障查全率,又保障查准率的前提下,按相关性排序输出检索结果,即相关度最高的信息资源排在最前,相关度最低的信息资源排在最后。
加权检索技术用“+”号或选择“must contain”表示某检索词“一定要出现”在检索结果中(如“+亚洲 +金融风暴”,即检索结果中必须同时含有“亚洲”和“金融风暴”这两个词);用“-”号或选择“must not contain”表示某检索词“一定不能出现”在检索结果中;而不加符号或选择“should contain”表示某个检索词“可以出现”在检索结果中。
由于加权检索在网络信息检索上应用的时间较短,因此检索提问往往不能获得预期的效果。最突出的例子是如果在一个检索提问中使用了表示加权检索的“+”或“-”,其余未加符号的检索词在检索过程中的作用将被大大减弱。
另一加权(阈值)检索法,其基本思想就是对每个概念检索词加“权”,即赋予一定的数值,以表示它们的重要程度,系统也会相应地确定一个阈值。检索时,若数据库某条记录中存在这些检索词,就累计这些检索词的权值总和,使得数据库某条记录的权值等于或超过系统确定的阈值时,该记录即被检索命中。
例如,检索词为:计算机、用户、软件,权值分别为5、8、4,阈值为9。
计算机、用户、软件 权值和=17 大于9,命中。
计算机、用户 权值和=13 大于9,命中。
计算机、软件 权值和=9 等于9,命中。
用户、软件 权值和=12 大于9,命中。
用户 权值 和=8 小于9,不命中。
2.相关信息反馈检索技术
在检索过程中人们会发现某个结果非常符合自己的需要,因此希望能进一步检索到与该结果类似的结果,我们称之为相关信息反馈检索。这种检索可以人工从已检得的信息中选取与检索提问相关的词语,作为下一轮检索的检索词。在网络环境中,相关信息反馈检索可由检索工具自动进行,如Excite的“Search for more documents like this one”检索、Lycos的“More Like This”检索以及Google中的“类似网页”等。利用相关信息反馈检索可使得人们获得的检索结果像滚雪球一般,越来越多(详见第9章图像检索系统中的相关反馈技术的运用部分)。
3.模糊检索技术
模糊检索允许被检索信息和检索词之间存在一定的差异。例如,用户以“中药使用”作为检索词,假如检索工具支持模糊检索,那么数据库中标引为“中药的使用”、“使用中药”等词都能检索到。
模糊检索还包括用户输入检索词时的输入错误,以及某些词汇在不同国家的不同形式,例如“catalog”和“catalogue”。现在有的检索工具能进行纠正输入错误的模糊检索。例如,用于检索地图信息的MapBlast可在用户输入错误的街道名时,仍然检索出正确的地图信息。
4.概念检索技术
可借助于一个同义词表对用户输入的检索词自动添加同一概念的词汇集合(同义词、近义词、广义词和狭义词等),有助于提高查全率,但不会降低查准率。例如,检索“automobile”时能找出包含“automobile”、“car”、“truck”、“van”、“bus”等任一词汇的结果。又如,在查找“公共交通”这一概念时,有关“公共汽车”或“地铁”的信息也能随之检得。Excite在概念检索方面取得了比较明显的成就。
3.1.3 智能推拉技术
1.推拉技术
(1)信息推送模式(Information Push)。由信源主动将信息推送给用户,如电台广播。
主要优点:及时性好,信源能及时地向用户推送不断更新的动态信息;对用户要求低,普遍适用于广大公众,不要求用户有专门的技术。
主要缺点:针对性差,推送的信息内容缺乏针对性,不便满足用户的个性要求;信源任务重,信源系统要主动地、快速地、不断地将大量信息推送给用户。
(2)信息拉取技术(Information Pull)。由用户主动从信源中拉取信息,如数据库检索。
主要优点:针对性好,用户针对自己的需求有目的地去查询、搜索所需的信息;信源任务轻,信息系统只是被动地接受查询,提供用户所需的部分信息。
主要缺点:及时性差,当信源中信息更新变化时,用户难以及时拉取新的动态信息;对用户要求高,要求用户对信源系统有相应的专业知识,并掌握查询技术。
Internet上的信息拉取技术(网络检索)可以说是数据库查询技术(数据库检索)的扩展和延伸。用户面对的不止是一个数据库,而是拥有海量信息的Internet环境。因此,近几年来,发展了各种网络信息拉取(查询)的辅助工具——“搜索引擎”(Search Engine),不同的搜索引擎有不同的功能和用途,且各有其特点。
因此,应当取长补短,灵活地应用信息推送与拉取技术,研究、开发两者相结合的“信息推拉”技术。
信息“推拉”相结合可采取下列方式。
(1)先推后拉方式。先及时地推送最新信息(更新的动态信息),后有针对性地拉取所需的信息。这种方式便于用户浏览信息变化的新情况和新趋势,从而动态地选取需要深入了解的信息。
(2)先拉后推方式。用户先拉取所需信息,然后根据兴趣,再有针对性地推送相关的其他信息。
(3)推中有拉方式。在信息推送过程中,允许用户随时中断或定格在所感兴趣的网页上,作进一步的搜索,主动拉取更丰富的信息。
(4)拉中有推方式。在用户拉取信息的搜索过程中,根据用户输入的关键词,信源主动推送相关信息和最新信息。这样既可以及时地、有针对性地为用户服务,又可以减轻网络的负担,并便于扩大用户范围。
因此,信息推送与信息拉取相结合是当前Internet、Extranet、Intranet、数据库系统及其他信息系统为用户提供主动信息服务的一个发展方向。
2.智能推拉技术
为了进一步提高广大用户从Internet和数据库中获取所需知识和有用信息的效率,扩展Internet和数据库为各种用户提供主动的个性化信息服务的能力,我们认为,应当在人工智能、知识工程与Internet、数据库技术相结合的基础上,研究与开发智能信息推拉(Intelligent Information Push-Pull,IIPP)技术。
信息推送与信息拉取技术相结合,并将机器学习与知识发现的方法引入并应用于信息的推送和拉取的过程,可以提高Internet和数据库的智能水平,从而为广大用户提供高效率的主动信息服务,有助于用户发现有用的知识。
智能信息推拉技术具有以下特点:
(1)智能信息推送。应用人工智能和机器学习方法,可以识别和预测各种用户的兴趣或偏好,从而有针对性地、及时地向用户主动推送所需信息,以满足不同用户的个性化需求。
(2)智能信息拉取。应用知识工程的知识推理搜索方法,可提高搜索引擎的快速性和准确度,从而使用户能更及时地拉取所需的最新动态信息。
(3)信息拉取结合。信息推送与拉取相结合,可以取长补短,既能及时、主动地将最新信息推送给用户,又有针对性、有选择性地满足用户的个性化需求。
(4)知识发现功能。采用知识发现的方法和技术,可以从“推送”及“拉取”的信息中提取有用知识,发现隐藏在大量数据中的内在规律。
3.知识发现技术
人们通过“推拉”相结合的技术,可以从Internet或数据库中快速准确地获得大量信息,但是仍存在如何从大量信息中发现有用的知识这个进一步的问题。
知识发现(KDD)是在人工智能、机器学习与数据库、在线数据分析等相结合的基础上,近几年迅速发展起来的从数据中发现知识的方法和技术。
知识发现的过程一般可分为3个步骤。
(1)数据准备:包括3个子步骤。
① 数据选取:从数据源中选取感兴趣的目标数据。
② 数据预处理:消除噪声、估算缺损数据、删除重复数据等。
③ 数据变换:连续数据的离散化、数字化等。
(2)知识提取:根据知识发现的目的和要求,选用适当的数据挖掘算法,从数据中提取有用知识。
(3)解释评价:对所提取的知识进行解释和评价,并根据评价结果对数据准备、知识提取进行反馈校正。如重选目标数据、采用其他数据挖掘算法等。
3.1.4 自然语言处理技术
一个理想的信息检索系统应该是一个“问答机”。我们提出问题,系统负责解释并回答,而它处理的不是只字片语,而是提问意图。作为最终用户,不应多费心思表达自己的提问,也不需学习一套烦琐的命令、格式或代码。我们希望能走进信息仓库,就像走进商店看看有什么,买点什么一样。
现阶段,人们大多一直在用基于命令的布尔检索引擎。目前,在国外,以相关排序和智能文本处理为特征的“自然语言处理”(NLP)系统已开始流行,将NLP引入信息检索(IR)已由理论研究开始转向应用,而国内尚处于理论探讨阶段。
1.自然语言处理和信息检索的关系
自然语言处理和信息检索发生联系与信息检索的计算机化及自然语言化有着直接的关系。信息检索是一种“语言的游戏”,为了从某信息集合中搜索出特定信息,检索者需构造合适的语言集合以作为提问。随着检索的计算机化和自然语言化,这项工作便从检索用户转移给检索系统内部,这就对检索系统提出了更高的要求,而自然语言的处理则使其应用成为必要与关键。
2.自然语言处理技术
自然语言处理就是研究如何能让计算机处理并生成人们日常所使用的语言(如汉语、英语),使计算机懂得自然语言的含义,通过对话的方式并对人提出的问题,用自然语言进行回答。自然语言处理的目的在于建立起一种人与机器之间的密切而友好的关系,使之能进行高度的信息传递与认知活动。处理系统信息检索的自然语言在人机接口上有很大的实用价值。
自然语言处理技术大致可分为机器翻译、语义处理及人机会话几个方面。其中机器翻译(Machine Translation,MT)又称机译,是利用计算机把一种自然语言转变成另一种自然语言的过程。智能搜索引擎在这一领域的研究将使用户可以使用母语搜索非母语的网页,并以母语浏览搜索结果;语义处理通过将语言学的研究成果和计算机技术结合在一起,实现了对词语在语义层次上的处理;人机会话技术可以为计算机提供下一代的人机交互接口,实现从文字接口、图形接口到自然语言接口的革命,同时,在家用电器的人性化设计方面有着广泛的应用前景,其技术内涵主要包括语音识别、语音合成两个核心部分。
在语义处理的整个过程中,智能分词技术是最初的一个环节,它将组成语句的核心词提炼出来供语义分析模块使用。在分词的过程中,如何恰当地提供足够的词来供分析程序处理,并且过滤掉冗余的信息,这是后期语义分析的质量和速度的重要前提。尤里卡的智能分词避免了传统分词技术在拆分时产生的歧义组合,从而为语义处理提供了良好的原始材料。同时,在分词的过程中,知识库当中的同义词会被逐个匹配并同时提交给语义处理模块使用,这样处理过的句子,不仅提供了原始的句型,同时还搭载了语句的概念部分。
3.自然语言处理在检索技术中的应用
随着互联网的迅速发展,网上信息呈现爆炸性增长,如何在庞大的互联网上获得有价值的信息已成为信息用户日益关注的问题。搜索引擎以一定的策略在互联网中搜集、发现信息,并对信息进行处理、提取、组织和处理,从而起到信息导航作用。
尽管搜索引擎在研发搜索技术方面已经花费了大量的时间和精力,但是目前的搜索引擎仍然存在不少的局限性,比如信息丢失、返回信息太多、信息无关等。
自然语言处理技术在机器翻译、语义处理及人机会话技术上的功能。赋予搜索技术更具人性化、方便易用的特点,因此,近年来它在搜索界得到了广泛的应用。无论是国内、国外的搜索引擎,都可以寻找到语义处理、机器翻译的踪迹。
目前在搜索引擎方面主要应用的自然语言处理技术是机器翻译与语义处理技术。应用了这些技术的搜索引擎我们称之为智能搜索引擎。由于智能搜索引擎将信息检索从目前基于关键词层面提高到基于知识(或概念)层面,并对知识有一定的处理能力,因而具有信息服务的智能化、人性化特征。智能搜索引擎允许用户采用自然语言进行信息的检索,提供更方便、更确切的搜索服务。
与传统的分类检索、关键词检索模式相比,自然语言检索的优势体现在:一是使网络交流更加人性化;二是使信息检索变得更加方便、快速和准确。现在,已经有越来越多的搜索引擎宣布支持自然语言搜索特性。比如国外的搜索引擎Google、AskJeeves,国内的搜索引擎网易、尤里卡、问一问、21世纪互联、孙悟空、悠游等。
我们以尤里卡搜索引擎为例简要说明这种智能搜索的过程。
实现智能搜索的过程主要分三部分:语义处理、知识管理和知识检索。其中,知识库是实现智能搜索的基础和核心。知识库提供的是语义处理中最终将要提供给用户的结果,在语义处理的整个过程中,智能分词技术是最初的一个环节,它将组成语句的核心词提炼出来供语义分析模块使用。在分词的过程中,如何恰当地提供足够的词来供分析程序处理,并且过滤掉冗余的信息,这是后期语义分析的质量和速度的重要前提。
加入了知识库处理技术的智能分词能够避免传统分词技术在拆分时产生的歧义组合。从而为语义处理提供了良好的原始材料。知识检索可以利用语义分析的结果,对知识库进行概念级的检索,对用户提出问题给出准确度最高、相关度最强的检索结果。比如:“我想在北京找工作?”。首先进行语义处理,在知识库中“找工作”属于求知招聘的范畴,所以分析出用户想查询“在北京求职”。然后利用“在北京求职”这个概念查询知识库,得出答案。
4.应用了语义处理技术的搜索引擎与传统搜索引擎相比的优势
(1)更高的搜索易用性。由于智能搜索引擎具有智能分词功能,因此使得查询变得更为简单、易于操作。以悠游为例,需要搜索“刘德华的最新个人专辑”,只需将整个搜索内容全部输入到搜索框中就可以找到相关的内容。而在传统的搜索引擎中则必须遵守搜索的基本数学规则,输入“刘德华 最新 个人专辑”才能够找到搜索的内容。显然在搜索的易用性方面智能搜索引擎具有明显的优势。
(2)搜索结果的范围定位准确。由于采用知识(概念)检索技术,明确和缩小了搜索范围,减少对无用信息的搜索。以尤里卡为例,要查找“北京的天气”只需输入“北京天气”就可以找到相关程度甚高的北京的天气预报,同时还会给出相关的天气内容。而在传统搜索引擎的查询结果中不但有北京天气的内容,还会给出所有与北京天气字样有关的各种内容,增大了用户查找搜索结果的难度。
(3)搜索结果的智能性。由于智能搜索引擎q有综合知识库作背景,使得信息检索与导航服务更具有智能性。知识库中的知识有助于解决表达差异。所谓表达差异就是用户使用不同的词表达同一概念,而知识库中关于同义词的定义正好可以消除这种表达差异带来的检索困难。
从上面的示例及比较不难看出运用了先进的自然语言处理技术后,搜索引擎可以识别并回答用户的问题,使用户摆脱了传统搜索引擎基于关键字的束缚,从而指引用户更有效更快捷地寻找到所需的资料,同时也为用户提供相关有参考价值的其他内容。由于这些特点,智能搜索技术能够在互联网信息检索的各个方面得到广泛的应有:它可以为大型综合搜索引擎提供后台支持,使之具有人性化、交互性的特点;它能够方便的实现垂直搜索引擎专业类别内的搜索;它也可以为信息门户网站提供方便快捷的站内信息搜索服务。