常见的信息检索技术与文献检索应用

来源：学术堂作者：韩老师
发布于：2015-07-29 共5558字

　　引言

　　检索技术的应用是在图书馆建设发展过程中对电子资源查询和整合的重要方式，也是提高学生信息素养和技能的必要手段。因此，检索技术的应用是教育界十分关注的课题。

　　1 高校文献检索技术的发展情况

　　从目前来看，我国多数高校图书馆电子资源建设及其文献检索教学处在一个相对基础的阶段，检索技术运用程度还很浅显，并不能全面满足用户的需求。

　　因此，非常有必要对当前几种重要的检索技术进行分析探讨，以此提升电子资源建设中检索技术运用的程度，从而让用户快速有效查询其所需要的信息，如果高校图书馆想实现这一目标，首先要对图书馆数字资源建设中存在的分布式异构存储问题进行解决。唯有真正的解决了这个问题，才能够为用户提供一体化服务体验，从而全面满足用户的需求。

　　2 目前常见的信息检索技术

　　2. 1 SFX 技术

　　SFX 即通常所说的特效。这是一种新型的数字资源聚合软件系统。其最早是由比利时的 H·萨姆堡尔等人提出。后随着更多学者的加入，才实现了该信息系统建设方面的进一步优化。这种技术的诞生在行业内备受关注，同时也吸引了诸多数字图书馆的目光。

　　目前在全球来说，使用这种技术的用户已经达到了将近2 000 家。

　　作为一种相对成熟的聚合技术，SFX 发展基于OpenURL 协议展开。借助这个协议，可以实现将各种复杂的数据进行整合，从而将数据的检索方式统一化[1]. 用户在进行资源的使用和处理的过程中可以实现对资源的不同转化。从一种资源转化到另外一种资源。借助这种 OpenURL 协议，用户只需要简单的几步处理就能够实现资源的搜索。而 OpenURL 协议的优势表现在以下几个方面： 1） OpenURL 技术通过协议实现数字资源的无限扩大，任何资源都能够能够通过这种方式实现链接聚合； 2）在进行检索的过程中，OpenURL 协议的使用可以更好的实现资源间的互补兼容，提升整个信息资源搜索的效率。 3）在进行信息资源处理的过程中，运用 OpenURL 协议还能够更好的进行不同的兼容互补，从而更好的实现对元数据信息的处理，提升数据搜索效果，同时实现链接的动态处理效果。4）在进行信息资源的搜索处理过程中，不需要太多的关注细节方面的内容，只需要进行简单的管理机制的设置就能够实现数据信息的搜集与处理。5）在智能化的实现方面，由最初的可以进行单一的检索到复合检索功能的有效实现。用户在检索的过程中只需要通过一次检索，就能检索出所有与要检索内容相关的信息。因此在这个背景下，整个检索技术的实现更为人性化也更加智能化。

　　2. 2 Web Service 技术

　　Web Service 是源于互联网技术发展，以分布式为基础的模块组建[2]. 通过技术的运用，能够在更多的平台之间实现良好的信息沟通与互动。其工作的范畴主要是实现不同信息系统间的信息共享。具体来说，其必须通过 URL 来实现接口的最终发布，同时在实现的过程中还需要依循一定的行业技术标准来实现。此外在进行具体操作的过程中，使用 Web Service最大的优势在于可以更好的对不同平台间的差异信息加以融合，从而更好的实现平台的互通。此外在信息的处理方面也有助于更好的进行数字信息资源的综合和协调，将不同的信息平台以及不同系统间的信息搜索内容加以更为有效的管控，从而实现信息处理的优势化成果。所以 Web Service 资源的使用，其根本的目的在于将所有的信息处理后通过一个统一的平台或者是结构形式予以表现，从而一方面更好的实现不同资源间的互通，另一方面也有效的提升数字资源处理以及资源共享的成效。从结构的层面来说，WebService 的结构则是统一的包含了服务的请求方、提供方以及注册中心三方面的内容。借助这种结构可以更好的实现不同信息间互通有无，同时也实现良好的信息操作与处理功能。在进行该平台操作过程中，其中还涉及到一些相关技术的应用，诸如网络服务描述语言，以及聚合技术，等等，这些都是构成 Web Service顺畅运行的重要技术内容。在整个体系底部，最基础的是数据资源信息，而每个数据资源之间都是相对独立的，其进行信息的提供也都是通过相对独立的数据支撑来实现的。而在进行信息检索实现过程中，本地搜索到的信息就是这些内容。除了基础信息之外，针对于各种不同的数据库信息处理还有一些其它信息资源库。这些资源库通过一定的接口与本地信息资源库相连接，用户在进行信息搜索过程中可以使用本地系统资源来实现对其它与之相接口数据库信息的读取。所以 Web Service 可以实现不同资源间的聚合调用，可以有效的对图书馆数据资源整合及处理。

　　2. 3 P2P 技术

　　P2P 技术是隶属于互联网覆盖层网络而存在的。

　　其主要是在信息处理的过程中，通过一定的技术手段，实现不同的信息主体间对等的信息沟通与交流。

　　在 P2P 技术的实现环境中，任何一台与之连接的计算机都能够实现信息资源及时有效的共享，而这种信息资源的共享是通过最终技术支撑来实现的。目前在P2P 结构实现的过程中，包含了基本的构成结构，分别是树形结构、DHT 也称哈希表结构，以及网络结构。

　　依据需求的不同，这些结构的具体应用也存在一定程度的差异。

　　P2P 技术分类方式很多，可以是通过中央服务器建设与否进行区分，也可以通过网络中存储内容与网络拓扑结构的相关性进行区别，同时也可以通过匿名性来进行区分等。通过这些方式的区分，最终来对整个 P2P 技术实现有层次、有规则的技术分类。

　　2. 4 Grid 技术

　　Grid 技术又称作是网格技术，这一技术的出现是依托于电力网的概念产生的，它是一种相对灵活、多变的信息处理模式。 Grid 技术的实现是将所有的计算机通过一个网络联系在一起，从而实现不同信息技术的整合，以及资源的有效化利用。在整个过程中，其具有多方面的优势，包含了资源的共享，知识的生产，以及开放存储等多方面的信息[3].

　　在当前学术界中，与网格应用相关的内容十分丰富，包含了远程分布式计算与通信系统和地球系统格网系统，此外在地震工程方面还有 TeraGrid 和国家地震工程仿真格网，等等。就我国的现状来说，主要的Grid 技术落实多是在科研领域以及制造领域等四个领域中进行广泛的应用。同时在数字图书馆的建设方面，Grid 技术也有着十分突出的表现。诸如信息数据的处理，以及共享信息的实现等，通过这种技术来进行数字图书馆的建设，对整个数据资源的利用和处理都有着十分重要的作用。

　　3 文献检索技术的实际运用

　　我国高校图书馆进行数字资源建设必须运用以下几个方面的文献检索技术才能够真正满足用户需求。

　　3. 1 数据挖掘 agent

　　数据挖掘阶段是整个信息系统运行和实现的核心阶段。在这个阶段的处理过程中，首先需要确定整个挖掘的目标和任务。确立了这些任务之后，还要进行具体挖掘工作实现的计算方式。在实施的过程中，即便是同样的一种挖掘工作，其实现方式、计算方式也会有着多种不同的形态。比如在进行数据挖掘处理的过程中，包含了两个基本的要素，一是依据资源的具体特点来进行处理，依据资源的具体特点来进行算法的选择与应用；其次是在具体实践的过程中，也需要用户的参与。也就是说在处理数据的过程中必须要用户能够立刻实现的方式来进行计算。通过这种计算导致的结果也是能够满足用户需求的内容。有一部分用户在使用计算模式的过程中，其目的并非只是得到一个简单的结果，更多的是希望获取更为精准的预测内容。

　　在数据挖掘的过程中，常说的 KDD 更多的是指在数据中的知识内容。也就是用户在进行信息搜索的过程中，需要从整个的信息资源处理中去发现信息，从而进行合理化的处理，促使信息的内容能够充分满足数据处理的有用性[4]. 具体来说，在具体的数据处理之前就要进行数据挖掘方式的界定，同时依据这种挖掘方式找寻与之相适应的发现方式。一般说来，在进行数据挖掘的过程中，更多的是针对整个项目信息层面内容的挖掘，而较少涉及到一些具体图片信息的挖掘。所以在进行数据挖掘的过程中，每个任务或者模式的实现都必须满足基本的要求，这样有助于挖掘更好的实现。具体的内容如下：N = ﹛ X1,X2,···Xn﹜指的是在集合中存在有n 个不同的结点。将其中（ Xi,Xj）定义为一条边，从而在模式的体现中出现了（ Pv,PE）其中 Pv,PE分别对应的是结点的集合，以及边的集合。由此可以进行以下公式的计算 Pv?N,PE= ﹛（ Xi,XY）丨 Xi,XY∈Pv﹜。但在这个公式中，呈现的不同的元素或者信息之间并没有一个固定的关系，所以其集合呈现的仅仅是对定点的展现，也就是说 Pv= ﹛ X1,X2,···Xn﹜，PE= ?。那么在这个时候还可以将树的模式界定成 Pv=﹛ X1,X2,···Xn﹜。公式中的 r 指的是根结点。这个根结点所需要满足的基本要求如下：

　　1）首先根是不存在父结点的，也就是说？ Xi∈Pv,（ Xi,r） ?PE2） PE边存在向，如果说（ Xi,Xj） PE是 PE的构成内容之一，其实（ Xj,Xi）并非 PE的组成元素。

　　3）任何一个结点，其相对应的父结点也只有一个。也就是说（ Xi,Xj）是 PE的一个元素，则（ Xi,Xy）不是构成元素。

　　4）从树的层面来说，树本身是可连接的。例如在呈现的过程中，所有的 Xi?PE,都存在从 r 到 Xi的路径。

　　值得一提的是，在进行图的挖掘过程中，其同时还涉及到环内容的存在。但是在整个树型结构的挖掘开展过程中则不会有环的呈现。同样，如果一个模式应用起来相对频繁，相对应的子模式也会频繁。在具体的操作过程中，可以借助以下几种方式来具体判定子模式的存在。

　　有两个模式 A 和 B,假设二者之间会存在单映射f,且满足了以下的几个基本的条件：

　　1） Xi= f（ Xi） ,点标识相同。

　　2）（ Xi,Xj） =（ f（ Xi） ,f（ Xy）） ,边标识相同。

　　3） Xi,Xj∈AV,f（ Xi） ,f（ Xj） ∈BV,Xi,Xj,f（ Xi） ,f（ Xi） ,分属两个模式。

　　如上所说，就可以认为说模式 A 是 B 的子模式，标注为 A≤B.

　　按照这种分析，Agent 完成了数据处理之后的信息就可以按照不同的方式来进行进一步的数据挖掘。因此从整个形式方面来说，可以认为 Agent 模式是一种通用的形式。

　　3. 2 人机界面 Agent

　　在进行信息数据挖掘的过程中，完全智能化的实现还需要时间与技术的双重支撑。但是在目前的数据挖掘实现过程中，其不同的子系统之间是可以通过人机共同来完成信息挖掘的。作为信息处理系统来说，其在运行的过程中必然会涉及到与人的沟通，也就是必须通过人来进行相关的信息或者命令输入到系统中才能够完成信息的处理[5]. 例如在进行单一信息处理的过程中，用户须首先要通过 Agent 来“告诉”系统哪些信息是该用户偏爱的。系统就会依据告诉信息来进行信息的挖掘与整合。但是在数据挖掘的过程中，同时还必须注意的是信息的处理具有一定的时效性。

　　也就是说很有可能在某一段时间内，用户对某些信息的关注热点相对较高，但是一段时间之后，用户的关注热度则有可能会被转移到另外的内容上去。所以借助人机界面的实现，可以避免这种情况的出现。通过一定的计算标准来进行热度信息的抓取。在进行系统具体的设置时，从系统的建设之初就会植入一些信息和指令，用于判别不同信息数据的热度。即便如此，在具体的应用过程中也依然会出现很多的问题。以金钱效应为例来说，一般说来，在智能的系统方面，智能体所偏好的也往往是较多的金钱，所以在进行信息处理的过程中，可以发现智能体在对金钱喜好的偏向方面，但其更多的是追求单一数值大小。

　　数据挖掘阶段的模式是经过评价得出的最终模式。可能会存在许多陈冗的内容，对于这些无法满足用户需求的内容就要进行合理的处理。一种处理方式是直接进行删除，还有一种处理方式是进行数据的变化。无论是哪种处理方式，其最终的目的都是为了更好的推动数据信息挖掘或者处理结果的彰显。而且在操作的过程中，由于知识发现的本身是面向自然人的，所以在进行具体发现模式的使用方面要进行可视化的处理，也就是说最终的结果必须是具有一定的效果，而且所呈现的内容还必须是以能够满足人们的需求来最终呈现。具体人机界面的设置如图1 所示：

　　3. 3 总体结构

　　在整体的结构实现过程中，数据预处理 Agent 和人机界面 Agent 是分属于两个不同的架构。其中数据预处理 Agent 是隶属于背景描述的层面，而人机界面Agent 则是隶属于接口的内容。所以这两部分内容的存在，一方面促使信息的处理更为便捷，也更加的高效，同时在进行信息处理过程中，其最终所输出的内容也更容易得到广大用户的认可。一般来说，我们所提到的数据信息挖掘系统都是拥有十分庞大的体系，其在进行数据处理方面的处理过程也是十分复杂的。

　　采用多个 Agent 的模式就能够有效的解决这种复杂的信息处理流程。通过多个 Agent 的实现，将一个复杂的内容转变成为多重的信息处理层，从而更好的实现了 Agent 信息处理的效率。其大致的结构如图 2 所示：

　　借助多个 Agent 的共同运作，促使知识发现的流程更为简洁化，同时也将其有效的结合成一个整体来进行运作。在整个运作的过程中，无论是系统的智能化表现，还是系统的通用性方面都得到了有效的保障。所以借助这样的 Agent 结构，其本身也就成了一个巨大的数据库，所有的数据信息都能够进入到这个库中，并且遵循统一的数据处理模式实现知识的最终发现。

　　4 总结

　　在当前时代背景下，借助文献检索技术来促进图书馆数字资源建设是一种趋势，同时依靠高水平的数字资源提高文献检索教学质量是非常有效的方式。因此，非常有必要对当前重要的文献检索技术进行全面了解掌握。只有广泛的运用检索技术，才能有效提高电子资源建设水平和文献检索教学质量，才能促进学生信息素养的培育。

　　参考文献：

　　[1]刘博晓。基于引用关系和聚类分析的文献检索优化研究[J]. 情报理论与实践，2012,（ 6） :102 -104.
　　[2]戴东波，印鉴。结合使用挖掘和内容挖掘的 web 推荐服务[J]. 计算机工程与应用，2005,（ 18） :162 -165.
　　[3]睢重星。计算机情报检索的软件[J]. 电子技术，2009,（ 3） :23 -25.
　　[4]周智佑。科技情报检索的理论与实践[J]. 情报科学，2007,（ 2） : 39 - 42.
　　[5]白光武。国外科技文献检索刊物情况[J]. 情报科学，2011,（ 3） : 28 - 40

相关内容推荐