云计算的大数据信息收集与检索

来源：学术堂作者：周老师
发布于：2015-08-28 共2089字

　　云服务在近年来得到了快速的增长，尤其是电子商务及社交网络如视频、图片、音频等，是大数据快速增长的主要因素，这些数据往往只能够通过EB、PB、TB、GB甚至是ZB才进行描述。云计算如何对大数据信息进行正确地处理，如果能够从中获取到我们日常所需的信息则将会对整个人类社会产生巨大的影响。为此，云计算的大数据信息收集与检索将成为社会上科技应用的一个热点。

　　1 WEB信息收集及检索

　　信息的价值密度和信息的总量多少成反比，在成千上亿的信息页面之中，能够满足自身的需求信息可能只有几页。例如：一个多小时的视频播放，其有用的信息往往只存在几秒钟，而云计算拥有着超强的计算能力，要快速地获取处理结果需要通过云数据来进行。

　　云计算如何在大量的数据中进行价值的挖掘是目前所需要尽快解决的问题。谷歌和百度等公司在信息检索上处于领先地位，基于云计算大数据信息时代下，其核心思想仍然需要借鉴于这两大公司的核心思想，其中，云计算中的大数据信息检索过程主要分为检索以及网页收录这两个过程。

　　信息检索云中的各个服务器都会对数据信息进行分析和排序，计算出较高“相关度”的服务器排在最前面，同时，对存储服务器上的信息进行分布式的检索，其检索的方式主要有广度优先以及深度优先这两种方式。检索的结果最终会收录在Index Repository上，而网页收录在搜索引擎的索引中，会由使用者所提出的申请搜索在Index Repository中进行。然后会把索引词库以及网页内容倒排序在索引之中，其中，网页的标题以及所有的连接数据都会储存在同一个索引里面，优先使用广度优先的方式来进行搜索，而网页内容则储存在另外一个优先的索引之中，便于深度优先方式的搜索。

　　信息检索云上各个主服务器中的数据是进行分析后再整理成的元数据“.相关度”高的服务器会排在最前面，然后再对存储服务器进行分布式的检索，其检索方式也是有广度优先以及深度优先这两种方式，其所检索得来的结果仍然会收录在Index Repository之中。而网页收录过程中会存在在搜索引擎的索引之中，当使用者提出搜索请求时，实际上是在Index Repository中进行信息搜索，其页面的内容则是依照PageRank的方法来计算出倒序索引列表，其存在于索引的存储器当中。页面的标题和连接数据也都会被统一储存在一个索引之中，便于广度优先进行搜索，而网页内容也同样是保存在另外一个索引之中，便于深度优先进行搜索。

　　不管是在使用者提出信息检索请求的过程中，还是在收录网页的过程中，相关度的计算方法都会被应用到。使用者在进行信息查询时往往所查询到的结果都会出现缓慢或是不及时的现象，因为搜索引擎中的缓存区基本上都是已经安排好的。尽管搜索引擎不知道使用者会搜索何种关键词，但为了将搜索有效率提升，建立了一个关键词的大词库，方便使用者搜索。

　　2 检索过程

　　2.1 信息搜索请求分析

　　使用者在引擎上输入关键词并提交搜索请求时，结果会在网页上显示出来，然后搜索引擎就会根据这次的请求进行仔细分析，并进行分词处理。分词处理若是按照请求进行空格分词，则要排除掉重复信息后才能得到所查询的关键词内容。若是进行中文分词会比较复杂，它主要有以下两种分词方式：（1）首先要进行字符串的匹配，字符串的匹配方式有最少切分、逆向最大匹配法和正向最大匹配法，然后分词的方法中，搜索引擎中会模拟人的思维来对句子进行了解并开始分词，句子表达式和词语进行相整合是为了更利于引擎的理解，它的基本思想为：分词时，会先将语句的意思及语法进行歧义的分析和处理，其主要由语义子系统、语法子系统以及分词子系统这三部分所组成，总称为控制系统。在总控制系统的作用下，搜索引擎能够模拟人类的思维来进行工作。（2）当出现相邻的词的时候，中文分词会将相邻的词当做一个次，因此，当使用者在输入关键词时，往往会出现如“的”“、吗”的停止词，搜索引擎在进行分词时往往会将其去除。

　　2.2 匹配搜索请求

　　搜索引擎对使用者的请求进行详细分析后，会匹配出适合的URL,而URL的数量非常之大，只有通过搜索引擎依照YRL的匹配程度进行排序，才能将其结果有序地显示出来。而系统把文档分词后的信息以及网页上的PageRank值与链接文件中的网页描述信息结合在一起后，它的检索结果排序就会被确定，确定后的结果就能够客观地显示在网页之中，可以在最大的程度上保证所搜索出来的结果和使用者所想要查询的内容一致。PageRank主要指的是：一旦一个同样的网页被不同网页多次指向，就说明了这个网页的质量较高且较为突出，因此，除了对网页的链接数量有所考虑之外，还可以参考网页本身级别。

　　3 结语

　　综上所述，云计算下的大数据信息检索技术在现实生活中面临着非常巨大的挑战，随着智能设备的普及，对于搜索引擎的应用会得更好的完善，并获取到相关的应用，大数据信息检索还要经过不断的实践研究，做出更完美的检索技术。

　　参考文献

　　[1]李海秋。网络环境下信息检索技术研究[J].计算机光盘软件与应用，2014（05）。

　　[2]薛向阳。基于内容的多媒体和跨媒体信息检索技术[J].世界科学，2005（12）。

　　[3]王宏霞，艾树峰。数字图书馆信息检索技术的研究[J].浙江传媒学院学报，2007（04）。

　　[4]时常青，张萌。基于互联网的图像信息检索技术[J].电脑知识与技术，2008（34）。

相关内容推荐