1.1 学科基础——信息学
人类生活的三个基本要素是材料、能源和信息,由这三个基本要素分别形成材料科学、能源科学和信息科学,被人们确认为现代科学技术的三大支柱。它们的发展大大地推动了人类文明进步的进程。
1.1.1 信息概述
1.信息的概念
信息的概念是十分广泛的。世间万物的运动,人间万象的更迭,都离不开信息。在某种意义上,不能掌握信息手段就不能称其为人类了。从购物到旅游、从升学到择业直至收购一家跨国公司,生活就是对信息的收集、分析和在此基础上的行动。人们随时都在自觉地接收、传递、存储和利用信息。
信息作为一门严密的科学,主要应归功于美国科学家克劳德·香农(Claude E.Shannon),1948年,他在著名论文《通信的数学理论》中把“信息”解释为“两次不定性之差”,即通信的意义在于消除某种不定性。该论文成为信息论诞生的标志。香农认为,信息的多少意味着消除了的不确定性的大小。
信息传递、交流的目的就是要消除信息接受者对于发出信息可能会发送出哪些消息的不确定性。简单地说,“信息是指有新内容、新知识的消息”。例如,人们收听广播,听到了一些新闻,也就是接收到了一些消息。这些消息的内容可能是已经知道的,也可能是还不知道的。事先已经知道的不是信息,因为人们不能从中获得新内容或新知识以消除不确定性。在接收者看来,信息必须是事先不知道其内容的新消息。可见,香农的信息定义是从信息在通信过程中作用的角度提出的。
几乎同时,美国科学家维纳(N.Wiener)在发表的《时间序列的内插、外推和平滑化》一文和《控制论》一书中表明:信息就是人们适应外部世界,并把这种适应反作用于外部世界的过程中同外部世界进行相互联系、相互作用、相互交换的一种内容。维纳的理论为人们提供了一条深入揭示信息本质的正确途径。
世界上每个人都需要有关信息来指导衣食住行。商品购买者需要比较不同商品价格和质量的信息;足球教练员需要掌握最新的技战术、球员状况、对手的伤病员等信息。每一个组织的管理机构要想使该组织获得成功,取决于是否有效地组织了各分支部门之间的信息交流。每一个国家的决策部门同样需要利用内外信息作为“润滑剂”,以使国家机器正常运转。无论是科学技术的研究,还是生产力的发展,都要利用蕴涵了新知识和新内容的信息,避免重复无谓的劳动,才跟得上时代的步伐。
2.信息的特征
(1)客观性。信息的客观性是指信息是客观存在的,不是虚无缥缈可以随意想象和“创造”的事物,其存在也是不以人的意志为条件而改变的。信息是现实世界中各种事物运动与状态的反映,它可以被人所感知、处理、存储、传递和使用。因此,信息的客观性还表现在反映客观世界变化的信息包含在各种物质之中。
(2)动态性。客观事物本身都在不停地运动变化,信息也在不断地发展更新。事物运动状态及方式的效用是会随时间的推移而改变的。因此获取和利用信息时必须树立时效观念,不能一劳永逸。例如,在光盘数据库的检索中,数据的更新往往是以月为单位的,网络数据库的数据更新有时甚至是以周、日为单位的。
(3)相对性。客观上信息是无限的,但相对于信息用户来说,人们实际获得的信息(实得信息)总是有限的。并且由于不同的信息用户有着不同的感受能力、不同的理解能力和不同的目的性,因此,从同一事物中获取的信息肯定各不相同,即实得信息量是因人而异的。例如当用户的检索课题为“知识产权”时,对于信息量庞大的数据库来说,只有符合“知识产权”这一主题的信息才是符合用户需要的,那么这部分的信息量对于整体信息来说是相对有限的。
(4)依存性。信息本身必须依附于一定的物质形式(如声波、电磁波、纸张、化学材料、磁性材料等)之上,不可能脱离物质单独存在。把这些以承载信息为主要任务的物质形式称为信息的载体。信息没有语言、文字、图像、符号等记录手段便不能表述,没有物质载体便不能存储和传播,但其内容并不因记录手段或物质载体的改变而发生变化。例如,关于房产的信息刊登在报刊上、发布在电视节目中、存储在光盘数据库中,其信息内容和价值是同样的。
(5)可传递、也可干扰。可传递、也可干扰是指任何信息只有从信源出发,经过信息载体的传递才能被信宿接收并进行处理和运用。信息的传递性不仅表现在跨越时空的传递方面,而且还表现在通过语言、文字、图像、电磁波、磁盘等不同的载体形式以及电子计算机、人际交流、文献交流和大众传媒等手段方面。信息跨越时空的传递特性是实现信息资源共享的基础。
一个完整的信息传递过程必须具备信源(信息发出方)、信宿(信息的接收方)、信道(媒介)和信息四个基本要素。其中信道对信息传递有干扰和阻碍作用。例如,索引数据库提供的线索型信息,不少信息受到标题、作者、主观的分类和主题的标引等干扰,会给信息用户的分析和判断产生或多或少的干扰和阻碍。
(6)可加工性。信息可以被分析或综合、扩充或浓缩,也就是说人们可以对信息进行加工处理。所谓信息加工,是把信息从一种形式变换成另一种形式,同时在这个过程中保持一定的信息量。例如文摘可以称为信息的分析和浓缩的结果。如果在信息加工过程中没有人和信息量的增加或损失,并且信息内容保持不变,那么就意味着这个信息加工过程是可逆的,反之则是不可逆的。实际上信息加工都是不可逆的过程,因为在信息加工过程中信息量的增加和减少是不可避免的。
(7)共享性。共享性是指同一内容的信息可以在同一时间或不同时间里被多个信息用户使用。一条信息被用户的吸收和利用并不影响数据库内的存储和被其他用户反复使用,各用户分享的信息份额也不因为分享人的多少而受影响,信息照样广泛地传播扩散,供全体接收者共享。正如萧伯纳所举的“苹果与思想”的例子,苹果交换以后,交换双方仍然各自仅有一个苹果,但是信息交换之后双方都有了两种信息。因此信息的共享性是推动社会交流的主要原动力。
3.信息的功能
(1)信息是感知世界的中介。信息是介于物质世界和精神世界之间过渡状态的东西,是人们用来认识事物、感知世界的不可缺少的中间环节。它贯穿于认知活动的始终,认知过程本身就是一个以信息为中介的信息运动过程。人类认识世界和改造世界的过程,是一个不断从客观世界获得信息,并对信息进行加工处理,形成新的认知结构,然后通过实践活动反作用于客观世界的过程。
(2)信息是管理决策的依据。管理决策是一个动态过程,其程序一般包括发现问题、确定目标、制订方案、评估选优、实施决策、追踪反馈等环节。决策需要综合众多因素,但决定性的因素是取决于对客观实际的了解,对未来形势及后果的正确判断,而这些都需要依赖于全面、及时和准确的信息分析研究。信息活动贯穿于科学决策的全过程,并渗透到决策过程的每一个环节。
随着社会的发展,信息对于管理决策的作用日趋重要,这是因为社会的庞大和复杂对信息的依赖越来越多,而管理决策的正确和失误,将直接影响整个社会各个系统。
(3)信息是科学研究的必要条件。人类知识的继承性和共享性使得任何一项科学研究都必须借鉴前人的研究成果和依靠同时代其他人的帮助。这就是说,科研工作需要在时间上和空间上的信息传递。
从另一方面来说,世界本来是一个统一的整体,人们为了研究的方便,人为地把统一客观世界划分成若干学科领域。如今这种分割阻碍了科学的整体化发展,也不利于各门具体学科的纵深发展。于是,便出现了科学的“微分化”和“积分化”的趋势,产生了一批交叉学科、边缘学科。多学科的知识协作和发展需要信息的连接和融合。
(4)信息是社会发展的资源。人类在使用物质资源和能量资源的基础上,开始重视生产、处理、传递和利用信息的能力,信息资源与物质资源、能量资源一起,共同构成了现代人类社会资源体系的三大支柱。物质作为材料,能量作为动力,信息作为知识和智慧,正如一个人的体质、体力和智力,只有三者全面发展的人,才是一个真正健康的人。信息资源是人类借以对其他资源进行有效管理的工具,它在推动社会经济发展、促进人类社会进步等方面正发挥着日益重要的作用。
4.信息的类型
综上所述,信息是作用于社会生活每一个领域的。信息活动是人们进行一切社会活动时必然伴随的活动。因为它既纵贯人类社会发展的整个历史过程,又在每个历史时期内横跨当时社会生活的每一个领域。
人类的信息、知识的存在形式基本上有三种:① 存在于人脑的记忆中,它是属于人们主观精神世界的东西。它只有以一定的形式,通过一定的载体表达时,才能为其他人所感知。② 存在于实物中,如古文物、样品、样机、物品等。人们可以通过研究实物而获得某种知识。③ 用文字、图形、代码、符号、音频、视频等技术手段记录在一定的载体上,例如,刻在甲骨上、印在纸上、摄在感光胶片上、录在磁性载体上等。
(1)按信息的表达形式划分
① 文献信息。文献记录和反映着社会发展、科学技术的成就,汇集着世世代代的广大人民群众对自然世界认识的结晶,记载着无数成功或失败的经验教训,反映着人类的文明程度,是人类进步的重要基础。文献的定义是“记录有知识的一切载体”。根据这一解释可以看到“文献”一词涵义已经得到深化:古代甲骨文记录以龟甲、兽骨作为材料是文献;有文字和图形的碑刻、竹简和帛书是文献;有铭文的青铜器是文献;现今的机读资料、电子出版物、缩微制品等都是文献。尽管文献的载体材料、记录手段在不断演进,但是构成文献的三大要素依然相同,即被记录的知识内容、承载知识内容的载体和记录知识内容的手段。
② 音像信息。音像信息指通过音频信号负载和传递的信息,如通过图片、电影、录音、广播、讲演等。它以感光材料和磁性材料为记录介质,使用特定的设备,用声、光、磁、电等技术将信息表现为声音、图像、影视和动画等形式,给人以直观、形象的感受。音像信息包括唱片、录音带、幻灯片、电影电视片、录像带、激光唱盘、多媒体学习工具等。近十年来又推出了高密度存储的唱盘和视盘。这类文献存储密度高,内容直观真切,在帮助人们观察罕见的自然现象、瞬间的物理化学过程和探索物质结构时能起到文字型文献起不到的独特作用,其表现力强,形象生动,易于理解、接受,传播效果好。这类文献在整个文献中所占的比重正日益增大。
③ 电子信息。电子信息指通过计算机阅读的信息,如计算机磁带、磁盘上存储的信息。是以磁性材料为存储介质,以穿孔、打字或光学字符识别装置为记录手段,通过计算机对电子格式的信息进行存取和处理而产生的文献。它将文献信息通过编码和程序设计使文字和图像转换为数学语言和机器语言输入计算机,存储在磁带、磁盘或磁鼓上,阅读时又由计算机将其转换为文字或图像,显示在终端屏幕上。它们不仅有很高的信息存储密度,还有很高的信息存取速度,并具有电子加工、出版和传递功能。比如,一张普通光盘(CD-ROM)的信息存储量可达600MB。这些电子出版物包括电子图书、电子期刊、电子新闻、各种联机信息库、光盘数据库产品、软盘和磁带等产品,以及电传视讯和电传文本,还包括电子邮件等。
近年来,多媒体(Multi-media)技术引人注目。多媒体是多种媒体的综合与发展。它是一种数字化的视听媒体,采用超文本(Hypertext)或超媒体(Hypermedia)方式,除文字外,还包括图片、动画、音乐、语言等信息,在内容表述上具有多样性与直观性,并具有人机交互的友好界面。因此,多媒体是电子型的,也是音像型的,在科技、教育、出版和新闻等领域正在被日益广泛应用。
电子文献的产生,被认为是人类在知识生产和交流方面继语言、文字和印刷之后的第四次革命。电子出版物的诞生开始了人类历史上最快速、高效的知识生产和传播。人们通过计算机阅读、编辑、出版、检索和获取信息,通过网络远程访问计算中心各种类型的数据库资源。电子出版业的迅猛发展必将极大地加速社会信息化的进程。
各种信息类型中,印刷型信息是最基本的,电子信息是发展方向。电子信息的出现是社会信息化的一个里程碑,它有着广阔的发展前景。它的产生并不意味着对其他信息媒体的完全取代,各种媒体的产生和存在有其特定的环境条件和需要。因此,各种媒体相互间将在相当长时间内共存,相互补充、渗透,发挥各自的综合优势,共同促进信息的繁荣与人类的文明。
(2)按信息加工的层次划分
① 零次信息。零次信息指未经记录、未公开、本身无法通过载体在较大范围内传播的信息。如口头传播的或实物展示的信息、会议口头交流、私人通信、有用的手稿、未发表的演讲稿等。
零次信息是人们获取知识信息不可忽视的信息来源。它不仅在内容上具有一定的价值,而且它有效地弥补了公开信息传播费时的不足,其新颖性更为社会各方面所关注。但由于其传播的范围极为有限、搜集困难、核实验证困难、储存保管困难,因而难以把它列为信息检索的对象。获得这方面的信息,很大程度取决于信息用户的信息意识。
② 一次信息。一次信息指以信息编制者的研究成果为依据而创作(撰写)的,未经情报加工的原始信息,习惯上也称原始信息,如图书、期刊论文、科研报告、会议论文、学位论文等。一次信息所记录的信息一般比较具体和详尽,有很高的直接参考和借鉴使用价值,是信息检索的主要对象和最终目标。而数量较大,出版分散,缺乏系统性,未经过科学的组织,呈无序状态并难以系统地获得和全面地掌握是它的最大弱点。
③ 二次信息。二次信息指对一次信息进行加工整理,使之简化(如著录信息特征,摘录信息内容要点等),或分类编辑之后所得的产物,或为了便于检索和利用一次信息而编辑出版的产物。它以特定的方法汇集某一范围内的信息,用科学的方法加工整理,以简练的语言,不同的深度揭示一次信息的外部特征和内容特征,并提供多检索途径,将分散、无序的大量一次信息转变成有序的、便于管理的系统,从而便于人们有效利用一次信息,因而成为查找一次信息的工具,如各种书目、题录、索引、文摘等检索工具书。学习信息的检索方法,主要是学习和掌握二次信息的使用方法。
④ 三次信息。三次信息指根据某种需要和目的,利用二次信息作为手段,将大量的一次信息加以全面系统的再度选择、分析和综合,编写成具有专指性内容和使用目的更为明确、效果更为直接的三次信息。例如专题评述、动态综述、百科全书、年鉴、数据手册等。三次信息的整理加工过程,是一个对一次信息所提供的内容进行综合分析、提炼压缩和研究编写的思维创作过程。另外,三次信息一般附有大量参考信息,也是查找一次信息的重要途径。
从零次、一次、二次到三次信息形式的变化反映了信息的集中和有序化的过程。从中也看到,零次、一次信息是知识的创造,也是信息检索的对象。二次、三次信息是知识的重组,也是信息检索的工具。正是利用了二次、三次这样的检索工具来检索所需要的零次、一次信息,来完成人们对信息的需要。
1.1.2 信息需要和检索
1.信息需要
所谓信息需要,就是指人们在从事各项实践活动的过程中,为解决所遇到的各种问题而产生的对信息的需求。美国心理学家马斯洛(A.H.Maslow)将人的基本需要划分为生理需要、安全需要、社交需要、尊重需要、求知需要、求美需要和自我实现需要7个层次。当人们在行动中遇到某些问题时,就必须获得各种信息的支持才能使问题得到解决。这说明,人类的信息需要是由其基本需要所引发的。
(1)信息需要的特征
① 广泛性。人类的实践活动的广泛性也决定了信息需要是一种普遍存在着的心理现象。
② 社会性。信息需要的产生和发展是由社会环境和社会活动决定的,所以信息需求不仅仅是个体的特性,而且主要是一种社会需要。
③ 发展性。社会实践活动的发展,社会现象日趋复杂,刺激了信息需要的日益增长。
④ 多样性。信息用户的专业、地位、职责等的多样性决定了信息需要千差万别,即使对于同一信息用户,在不同的时间、地点下,由于具体任务的变化,其信息需要也会有很大的差异;从社会环境看,社会政治、经济、科技、文化等多种因素在宏观上制约着信息需要的运动方向,使社会信息需要具有明显的地域特点、民族特色和时代特征。
(2)信息需要的层次
① 未知的信息需要。有些现实问题过于复杂和隐蔽,或个人的认识能力有限或信息意识淡漠,因此没有或没能意识到自己处于信息需要的境地。
② 潜在的信息需要。人们一旦认识到了自己的信息需要,其信息需要层次也就上升了。这可能是出于人们对问题性质的理解而使需要强度受到压制,或者是由于个人的信息能力和信息环境较差,没有足以将需要表达出来的条件,致使有的需要不愿或无法用信息符号表达出来而处于“意会”状态。
③ 现实的信息需要。当人们意识到信息需要,可以通过各类信息源获取信息来满足自己的信息需要。
需要特别考虑和重视的是信息需要和信息需要表达常常是不能完全一致的。常常遇到这样的问题:信息需要是“著作权研究资料”,但信息需要表达出的概念也许是“知识产权研究资料”。信息表达往往并不能充分和完全地表达信息需要的全部内涵。
(3)信息需要的内容
对信息本身的需要是用户信息需要的最终目标。人们在从事各种社会活动的过程中,为了解决所遇到的问题,就需要了解情况,增长知识,及时做出有效的决策。信息需要从本质上说表现为人类对于信息、知识的追求。由于信息本身的诸多属性,用户对信息的需求也涉及许多方面。如内容上要求有助于特定问题的解决;类型上要求各种形式,如口头信息、文字信息、图形图像信息等;在质量上要求准确、可靠、完整、全面的信息;在数量上要求适度、能够有效消化吸收的信息,避免“信息过载”等。
(4)各类信息用户的需要特点
各类信息用户的信息需要在内容上、质量和数量上、类型上根据解决问题的属性均有所区别。同时各类人员的信息需要特点也有所差异。如科研人员需要的是理论性强、原始的、完整的信息;管理决策人员需要内容综合广泛、具有战略性、全局性和预测性的涉及决策对象内外各方面的、经过浓缩加工的信息;工程技术人员的信息需求主要集中某一专业方向,具体的、经过验证的数据、技术信息,信息的类型往往是专利、标准、技术报告、工程图纸、产品样本等。
2.信息检索
当用户意识到自己的信息需要时,就说用户具有了一定的信息需要。用户为满足其信息需要,必然会在某种信息需要的支配下采取相应的行动。用户首先要采取的行动就是信息检索。
用户的信息检索行为既取决于个人的信息意识和信息能力以及用户的个性心理特征,也要受用户所处的社会环境,特别是信息环境的制约。一般而言,用户总是属于某一社会组织的成员,因此其信息检索行为必然要受到有关社会团体和所在社会信息环境的影响。在不同的环境中,用户的信息检索行为也表现出不同的形式。英国学者威尔逊(T.W.Wilson)试图用图1-1表明一些可能的情况。
图1-1 信息用户的信息检索行为分析图
图中“知识世界”包括有关世间所有物体、事件和现象的全部知识,是与物质世界相对应的一个抽象的概念。图中“用户生活环境”是指在一个信息用户身上所集中的那些经验的总和。在这个生存空间内,一个重要的组成部分是工作空间,其中会存在各种“参考系”,用户能借以识别他人,如同行同事、组织内同等地位的人员等;用户将与各种信息系统接触,在信息系统中表示出两个子系统——中介(指信息人员)和技术(即信息检索所需的方法和设备);为了满足用户的信息需要,信息系统必须检索各种知识实体,如各种已记录下来的知识(文献)及其他信息源。
图中带编号的箭头表示一些可以被用户直接使用或由信息系统及其子系统代表他们使用的检索路径。用户可能使用的全部检索路径也许并不只是这些,但它们标志着四个相关的群:
(1)路径1、2、3、4表示用户依赖人和信息系统,是利用个人途径来检索信息,可称为A类路线。
(2)路径5、6表示通过信息系统来获取信息,可称为B类路线。
(3)路径7、8、9表示借助信息人员来满足信息需要,可称为C类路线。
(4)路径10、11表示用户或中介使用信息系统提供的技术设备来检索信息,可称为D类路线。
显然,可供用户检索信息的路线是多种多样的。一个人常常面对着许多可以满足其信息需要的信息源,这些信息源的存在使用户面临着选择的压力,他不得不从中做出抉择,寻找合适的信息检索渠道,以便高效快捷地获取所需信息。一般来说,每个用户经过多次信息检索实践活动后就会逐渐形成适合于自己的相对稳定的信息检索路线,表现出一定的信息检索行为规律。
这些规律可总结如下:
(1)可近性是用户检索和利用信息源(渠道)总程度的一个最重要的决定因素。可近性(Accessibility)表明了用户对信息源的可接近程度,包括物理的、智力的和心理的可近性。按照艾伦(T.J.Allen)的信息检索行为模型,用户对于信息源的选择几乎是唯一地建立在可近性的基础之上的。最便于接近的信息源在信息检索行为中将首先被选用,而对信息源的质量和可靠性的考虑则处次要地位,虽然它们对于用户是否愿意接受该信息源所提供的信息有着一定程度的影响。
(2)用户的信息检索行为遵循穆尔斯定律。穆尔斯(C.N.Mooers)于1960年指出,一个信息检索系统,如果使用户在获取信息时比不获取信息时更费心更麻烦,这个系统将不会得到利用。这表明信息系统的易用性因素对用户的信息检索行为有很大的影响。易用性(Ease of use)是可近性指标的延伸结果,是由信息系统本身是否方便存取所决定的。
易用性和可近性对于人们的信息检索行为具有普遍的意义。没有易用性,可近性就失去了效率;没有可近性,易用性就失去了公平,也就没有真正的易用性。可近性与易用性相辅相成,一起成为决定某一信息源、信息渠道、信息系统或信息服务能否得到利用的重要因素。
(3)受可近性和易用性的影响,信息检索的一般过程是:人们总是首先从自己已有的资料(个人藏书或个人文档)中检索,然后转向非正式渠道,取得同行和同事们的帮助。只有在用过这些方法还不能解决问题时,人们才会考虑到利用信息系统的信息服务。
(4)人们在检索信息时倾向于根据以往的经验,遵循习惯的方式,收集最容易获得的信息。但任何人都是既通过非正式渠道,也通过正式渠道来检索所需要信息的,只不过是各类用户、甚至每个人的侧重点不一样罢了。
3.信息识辨和选择
(1)信息识辨。不同类型的信息在各收藏单位有着不同的管理方法、入藏地点和借阅规则,在检索系统中也有不同的著录格式。所以检索者只有识别出信息的类型才有可能查找到所需的一次信息。各种类型的信息都具有一定的著录特征,不难识别。
检索系统著录的信息来源款目项,一般对摘录的信息类型不加明显区分,需要专业人员自己辨识。各种类型信息一般都具有一定的著录内容,下面举例说明主要信息类型的外文著录特征。
●网页内容(如图1-2所示)
图1-2 网页内容中的信息构成
●图书著录内容
Digital Filters and Their Applications①; Academic Press②; London,England③;1978④;393p⑤; (0-12-159250-2)⑥
注释:① 书名;② 出版社;③ 出版地;④ 出版年;⑤ 图书总页码;⑥ 国际标准书号(0表示英语地区;12表示出版社代码;159250表示该书书号;2表示该书计算机检验号)。
●期刊著录内容
Appl.Solar Energy①,V.15②,No.6③,1979④,P.34-35⑤,ISSN 3645-8102⑥
注释:① 刊名(大都采用缩写方式);② 卷号;③期号;④ 年份;⑤ 该刊的页码;⑥ 国际标准连续出版物号。
●会议文献著录内容
Proceedings of the Society of Photo-Optical Instrumentation Engineers①,V.169②,1979③,P.42-47④
注释:① 会议名称(常用的会议特征有Conference**、Congress**等,常用的主办会议的机构特征有Society、Association等);② 会议文献的卷期;③ 会议年份;④ 会议文献的页码。
另外,会议文献的识辨特征有会前出版物的Paper、会后出版物的Proceedings等。
●学位论文著录内容
ENGINEERING,ELECTRONICS AND ELECTRICAL①
Neural network-based detection and tracking of maneuvering targets in clutter for radar applications②.Amoozegar,Seyed Fared③,Ph.D.④ the University of Arizona⑤,1994⑥,276pp⑦.Director: Malur K.Sundareshan⑧ Order Number DA9502624 ⑨Until the recent…⑩
注释:① 类目名称;② 论文题名;③ 著者姓名;④ 学位级别;⑤ 授予学位单位;⑥ 授予学位时间;⑦ 原文页码;⑧ 指导教师;⑨ UMI原文订购号;⑩ 文摘。
另外,学位论文的识辨特征还有,篇名一般均著录有学位和学位论文的名称,如Ph.D.Dissertation 即哲学博士学位论文,若硕士论文则为Master Thesis。
注意:为了节省篇幅,检索工具一般都将刊名缩写。刊名缩写是检索者经常遇到的问题,不掌握缩写刊名还原的知识,查找信息时就会遇到困难。
缩写刊名的查找方法有以下4种。
① 利用检索系统的刊名缩写表。大型的检索系统一般都有与之相匹配的刊名缩写表,使用起来很方便。根据这些辅助工具,可以将刊名缩写转化为全称。
② 掌握刊名缩写规则。为了统一刊名缩写,国际标准化组织(ISO)在1972年颁布了ISO-4-1972(E)《国际期刊名称缩写法则》的国际标准,1974年又提出了一份推荐标准ISO-833-1974(E)《国际期刊名称用语缩写一览表》,它们都对刊名的缩写做了统一规定。
③ 利用美国的《刊名缩写表》(Periodical Title Aberrations)。查找缩写刊名“J.C.S.S”可利用《刊名缩写表》查出其全称为Journal of Computer and System Science(《计算机与系统科学杂志》)。原缩写不符合ISO标准规定时,可利用此表查找(此例“System”的缩写为“sy”,而ISO标准规定是“syst.”)。
④ 按照外文缩写习惯来解决。例如,Mech.Eng.是Mechanical Engineering(《机械工程》)的缩写。
另外要强调的是,拉丁文关于出处的说明不是刊名的缩写。如ibid、Op.cit、Loc.Cit、V.S.等。总之,刊名缩写还原时,应首先使用检索系统配套的辅助工具,若检索系统没有相应的刊名缩写表时再考虑使用其他方法。
(2)信息选择。信息社会的一大特征就是“信息超载”,人们每天都处于“信息烟雾”之中,包围着的信息使人们无法进行及时、有效的处理,从而妨碍了决策的效率和效果。因此人们现在已不再渴望从信息中获得更多的信息,而是强调信息的针对性和适用性。
伴随信息需要的后续工作就是信息的选择活动,其实选择是贯穿信息活动的始终的。当明确检索主题时,需要选择信息源;当明确信息源后,需要选择合适的检索表达式;当检索结果提供大量的信息时,信息的选择就开始了。
信息选择是对检索过程和检索结果的优化。所谓信息选择,就是从某一信息集合中把符合用户需要的一部分(子集合)挑选出来。“符合用户需要”是信息选择的基本原则并不是一个具体标准。用户的信息需要是复杂多变的,对于不同的用户在不同的时间、地点环境条件下都可能有不同的信息选择标准。按照信息选择活动的发展层次。
信息选择的核心标准主要有两个:一是相关性,二是适用性。
① 相关性(Relevance)。美国的萨拉塞维奇(T.Saracevic)以最概括的语言对相关性做出了如下的定义:“相关性是交流过程中来源与终点(接收者)之间接触效率的量度”。例如,某一篇文献在主题上与用户的提问相吻合,就说这篇文献是相关性文献。因此,凡是论述同一主题或属于同一领域的文献信息都可以认为是相关的,而不考虑其水平高低。
严格地说,只有某一信息的最终接收者才可以做出明确的判断,然而,人们仍然在信息传递的每一个阶段都始终进行着相关性的假设与判断。一般来说,信息只有在相信是和已知或假设的需要可能相关时才被产生;只有在及时地预见到某一应用时才会记录下来;只有某一出版商相信存在着与其相关的用户时才把信息复制并传播出去;只有在判定和信息系统的实际或潜在的用户相关时,该信息系统才会把发表的信息采集、组织和存储起来;在加工整理(著录、标引)这些信息时,要建立一些与信息有关的标识并力求每个标识项目与假定的用户需要之间存在着相关关系;在信息检索时,检索者所使用的检索策略必须与用户的信息需要有关。当检索策略匹配了信息标识录,就检索出了一批信息。
当某一信息被检索出来时,可以说信息标识与检索策略之间存在着相关关系,但信息本身与检索策略则未必相关。这可能是由于信息标识不够准确造成的。即使信息与检索策略相关,也可能与用户表达出的需要无关。例如,检索策略过于宽泛或狭窄,或者出现检索词的错误组配时就会产生这种情况。如果信息的主题内容充分接近用户需要的主题内容,就说信息与用户需要是相关的。也就是说,检索结果与用户需要之间的关系有一种相关性关系。
以用户现实需要为基准进行的信息选择都是相关选择。相关选择活动通常以可独立的信息载体单位(如信息的篇章)为选择单元,它既可由信息服务人员代替用户进行初始选择,亦可由用户自己完成。例如,在一个信息集合中把与用户提问主题相关的一部分提取出来的活动(信息检索)就是相关选择。相关选择追求全面完整,一般使用的是筛选方法,得到的结果数量较大。
那么,信息的主题内容与用户的信息需要如何接近才算是“充分接近”?这里并无一个准确的测度标准。不同的人对表达需要的提问与所获取的信息之间的关系可能做出不同的判断。在不同的时间或不同的环境条件下,同一用户也可能对此做出不同的评价。因此,相关性关系不是客观、明确的,而是主观、含糊的,并且其判断很可能不一致。
② 适用性(Pertinence)。显然,在信息需要、检索需要、信息及其标识等各种变量之间,存在着相当复杂的关系。由于某些关系并非一成不变,所以使整个情况进一步复杂化了。实际上,相关性并未告诉我们满足用户客观信息需要的程度。例如,某些检索出的信息可能匹配了用户的信息需要,却未匹配用户认识到的需要,更未匹配用户客观的信息需要。更何况,用户的实际信息需要可能在不停地变化,即使某一信息在某个时候可能匹配了用户认识到的需要,但在另一时候就可能不匹配了。因为在这段时间里,用户的信息需要已经发生了变化。因此,仅有相关性指标是不足以表明检索结果的价值的。特别是在信息泛滥的今天,用户真正需要的是精炼的适用性信息,而不仅仅是数量庞大的相关性信息。
适用性表示的是最终用户对检索结果的价值判定,它反映了特定时间内检索结果满足用户客观信息需要的程度。很明显,只有用户在某一时刻才能决定某一检索是否满足其信息需要,这是因为,用户的信息需要同表达出的现实需要不一样,它是随信息环境的改变而千变万化的。假设某一用户利用信息系统或其他信息源检索到25条信息。当用户看到第1条信息时,他的信息需要概念可能有所变化,这就必然影响到他对其余信息的适用性判断。例如,第1条信息可能恰好是他最需要的,而第6条信息基本上是对第1条的重复,因此,他判定第6条信息对他来说没有价值。然而,倘若他首先看到的是第6条信息,也许会判定它是有价值(适用)的,而后看到第1条信息就没有价值了。如果用户不是在同一时间对这25条信息进行适用性判定,那么在这段时间内,其信息需要将会发生变化,从而对他的使用性判定产生某种影响。可见,用户的适用性判定受选择顺序和时间推移等多种因素作用,其判断的有效范围是非常短暂的。
适用性选择是在相关选择的基础上深入一个层次的选优活动,通常以信息元(或知识元,如一个事实、一则定义、一种观点、一组数据等)为单位,最终必须由用户自己完成。因为适用选择的最后结果要求与用户水平、当前需要相一致,而只有用户本人才能做出这种适用性判断。由于适用选择要对信息的价值进行分析研究、比较评判,因此选择活动有更高的质量标准,概括地说就是:适度、精炼;准确、可靠;新颖、适用。