开展网站信息资源保存工作面临的问题

来源：学术堂作者：周老师
发布于：2016-04-05 共7347字

    本篇论文目录导航：

【题目】档案学视角下网站信息资源保存探究
【第一章】档案部门对网站信息资源的保存分析绪论
【第二章】网站信息资源保存的几个基本问题
【第三章】档案部门开展网站信息资源保存工作的必要性和可行性
【第四章】开展网站信息资源保存工作面临的问题
【第五章】网站信息资源保存对策分析
【结语/参考文献】网站信息资源采集保存研究结语与参考文献

　　第 4 章开展网站信息资源保存工作面临的问题

　　网站信息资源的保存在我国处于探索发展的阶段，档案部门在开展这项工作的过程中会面临着众多的问题，包括网络资源自身的易逝性、公众保存意识的缺乏、研究经费不足，以及在信息的采集、保存过程中还会存在诸如法律、合作多方面的难题，本章将就这些问题详细地展开论述。

　　4.1 网站信息资源内容的不确定性

　　网站中存在的信息资源，其本身就存在不易保存的特性：网站中的信息以互联网为传播媒介，而网络这一载体本身就具有不稳定性。以往的纸质载体资源的保存，仅仅在保证纸质载体保存环境良好，不受光、潮湿、病虫、火灾等不良因素的影响即能使其保存上千年或更久的时间而不受到损毁、不影响信息的查阅质量。通常数字资源被保存在普通载体上，这些载体有软盘、硬盘、优盘、磁盘、磁带等，这些载体主要分别光介质和磁介质，保存这些类型的数字资源，在保证介质物理安全的前提下，保证信息资源的可读取环境安全可用即可。相对于以上两种载体类型的信息资源保存来说，网站信息资源的保存工作要复杂的多，网站中的信息资源是以网络为载体，这个载体本身就有很大的不稳定性。包括网络硬件环境受到威胁，如网络设备被盗、受损，或网络的软件环境受到威胁，如网络系统漏洞、工作人员操作漏洞，病毒侵入等。这些安全问题又是一个不断衍生又不断消除的循环过程，不可能完全得到控制。

　　信息资源的动态性。到目前，互联网上的网页总量已经多到无法计量，所包含的信息资源数量更是不可统计。据 CNNIC 统计显示，从 2003 年以来，我国的网页数量年增长率超过 100%,这意味着互联网上随时在更新着新信息。在信息不断增长的同时，许多信息也被删除或更新，2002年10月在美国国会图书馆网站上公布的《Plan for the NationalDigi-tal Information Infrastructure andPreservation Program》报告显示， 1998 年的网站在一年之后就只剩下其中的百分之六十了，其中百分之四十的网站已经消失得无影无踪。可见，网络上的大多数信息处于一个快速动态变化的过程，这就带来了信息更新频率不统一、难以保障保存资源的完整性等问题。

　　信息资源的冗杂性。互联网上的信息覆盖了社会政治、经济、文化、生活方方面面，包括政府网站、企业网站、个人主页、社会新闻等多种类型，只要我们有“问题”,就可以在网络上寻找“答案”.而且，网络资源是免费开放给公众的，任何人都可以随意地从网络上上传和下载信息，没有统一的部门来整理并规范这些信息。因此，在海量的网络资源中寻找真实的、可信的信息，一个短时间很难解决的问题。矛盾的是，保存网络信息资源首先要考虑的和解决的问题就是确认信息可信度，以此来确定信息的价值高低。因此，网络资源的冗杂性给网络资源的保存带来了困难。

　　对格式和载体的依赖性。网站中的信息都具有自身固定的格式，在查看这些信息时必须依赖特定的软件环境，但由于网络技术飞速发展，信息格式和载体也在不断发展变化，要想随时查看这些信息资源，就必须定期更新信息格式和软件，以保障其格式和载体未来的可读取与利用。

　　4.2 信息资源采集面临的问题

　　档案部门采集网站中的信息资源，就是按照一定的原则，使用相应的采集方式对网络上有价值的信息进行保存，以备今后的查考所需。互联网上的海量信息资源，其信息类型多样、可信度难以确认、信息版权模糊等特点，使得在进行信息采集时面临着许多困难。

　　采集边界与范围。对网站信息资源进行采集，首先要确定采集范围。根据采集目标来决定信息的价值，从而确定出哪些信息需要采集，哪些信息需要剔除。然而这只是一个对采集范围的宽泛的规范。由于当前的技术和资金等方面的限制，将互联网上所有信息完整采集不太现实，只能对一些站点进行选择性采集。网络上的海量资源来自于不同的集体或个人，其发布目标与真实性难以确定，因此，到底应该对哪些网站上的信息资源进行采集，剔除哪些网站信息，即便在确定采集哪些网站后，各个网站还有多级的链接，甚至不同的网站会链接到相同的网页中，怎样确定这些网站的采集边界即能保证网站的完整性又能避免资源的重复性，这些信息采集的范围与边界问题，还没有一个统一的标准来规范。

　　法律问题。最新《知识产权法》明确规定数字资源也应作为知识产权而受到保护，因此，网站信息资源的采集工作不得不考虑到采集时所面临的法律问题。采集网站中的信息，应征得其拥有者的同意，目前有三种做法：一是完善法律细则，规定相关网站有义务定期上缴其网站信息，以便项目备份保存；二是在信息采集之前就联系网站的版权者，与其沟通后在取得版权者同意并与其签订合同后，方才对该网站进行信息采集；三是采用删除政策，这一政策可分为预先删除与后删除，预先删除即网站在编码阶段可利用机器人排除受到协议保护的网站信息不被抓取，后删除即是在对信息采集后，在相应网页上作出声明：如版权者不同意采集并提供利用该网站信息，版权者可及时与采集方联系，删除所采集信息，保护版权者的合法权益。这三种做法目前已有不同的国际项目在采用，但由于法律不完善、签订合同实施难度较大，还未形成一个行之有效的便捷方法。

　　采集工具的选择。现已开展的相关项目中，多数使用网络爬虫技术，它是一个能够自动提取网页的软件。它的工作过程是利用网页的地址来找到某个网页，找到网页后从首页开始依次读取网页上的内容，如果遇到网页中存在其它的链接，而利用这些地址进入到另一个网页中，继续读取网页内容，如此循环，直到结束。当前项目中所使用最多的抓取网页工具是由 IIPC 开发的 Heritrix,或是不同项目根据自身需要在此基础上对软件作出改进。但这些工具有很多不完善之处，无法智能爬行自动检索垃圾、短时间内访问一台主机上的网页从而影响其主机速度、无法触及到深层网络信息，这就有待将来开发出更完善的采集工具来解决这些问题。

　　采集频率。对网站信息资源的采集，只有在其网页更新后才能再采集并更新保存信息，但不同的网站更新频率不同，采集频率太快，对于更新较慢的网站会带来了重复采集问题，采集频率太慢，又会漏失一定的信息资源，如何在这些不同的网页更新频率中确定出一个统一的采集频率，既能保证数据较快更新，又避免资源重复浪费，这是一个需要努力的方向。

　　4.3 信息资源保存面临的问题

　　对于采集后的网站信息资源保存，同样面临着诸如保存格式的选择、对重复采集的信息保存、信息安全与长久利用等多个问题。保存格式的选择。互联网上存在着海量的网站信息资源，这些信息资源具有多种多样的格式，有 PDF 格式、XML 格式、WORD 格式、MPEG 格式、HTML 格式等，采集这些不同格式信息后，应该使用哪种格式对繁杂的信息来统一存档，从而实现信息既能完整保存，又利于将来提供利用的可读取性，目前还没有一个明确的方案。其中使用较多的保存格式是 ARC 和 WARC 格式。美国互联网档案馆采用了 ARC 格式，这种格式即是在保存信息时要统一描述信息，描述信息内容和长度。在这之后，国际互联网保存联盟在此基础上制定了 WARC 格式。它把元数据、复件管理、记录的迁移以及侵害都记录下来，这一保存格式就显得更为规范。

　　对重复信息的保存问题。采集网站信息资源，不可避免地会采集重复信息，例如，按一定的频率采集同一网站上的信息时，可能在本网站中大部分网页更新时，某些网页并没有更新，就造成对同一网页的重复采集，那么，保存过程中，应该怎样分辨出这些重复信息并剔除，避免资源浪费，有待提出完善的解决措施。

　　信息资源安全保存问题。资源的长期保存，安全问题大不可忽视。互联网中存在很多的不安全因素，大量的病毒与黑客攻击，都是时刻威胁信息安全的致命因素。计算机专业人员即使开发出有针对性的杀毒软件，也会有新的网络病毒程序陆续被开发出发出来，保障信息资源保存的安全问题，是一个长久的“猫抓老鼠”的问题，而不能一次将所有老鼠全部杀灭。

　　长期提供利用问题。保存信息资源的根本目的就是为了现在与将来的提供利用，随着读取信息的硬件及软件的更新，保证信息在新环境下依然可以完整、快速读取也是一个关键问题。网络资源对存储载体的依赖性强，这些载体如光盘、硬盘等都是具有一定寿命的，这些载体一旦发生问题，就无法读取其中的信息。不仅如此，保存时所使用的格式和技术一旦更新，也很难读取其中的信息。这就需要对信息的存储载体和保存技术不断地更新，适应新的读取环境。

　　可信保存。来自密歇根大学的康威指出，现在国际上还没有一定的评估手段能够对信息内容的质量进行评估。[24]

　　对于所收集的信息，我们很难确定其信息的可信度，那么就需要一个权威性的组织机构来协助确定信息可信度。这一机构需要拥有经验丰富的工作人员，在对信息审阅时需要站在多方角度来考虑，但目前还未形成有效的可信保存鉴定机构，但有类似的机构逐渐出现，如 Portico 认证机构，它是一个第三方的保护服务机构，该机构积累了大量数字长期保存审计和认证经验，可着手这方面的研究工作。

　　4.4 公众信息资源保护意识不足

　　互联网上大量信息都是由普通公众发布的，然而，大家都只是忙于发布信息和索取信息，很少有人有意识地将自己所发布的信息进行备份保存或上缴，他们没有意识到保护并保存这些信息资源就是充分保障自身对这些信息的永久利用，更没有意识到保护这些信息资源就是为子孙后代保存珍贵文化遗产。正因为缺乏保护意识，加之网络资源没有备份，就造成了这些信息资源一旦被破坏或被更新就永久地消失了。因此，网站信息资源的保护工作应首先从学术界加以重要，并呼吁公众提高信息保护意识，即从信息源头做好保护工作。网站信息资源保存是一个长期的过程，在信息使用过程中内容安全也会受到威胁，保存工作就显得有些被动，从信息发布者开始就向其强调保护意识，使这些发布者意识到对信息保护的重要性，才能从本质上保护网络信息。

　　面对公众对互联网信息保护意识不足的现状，要想提高其保护意识，短期内是几乎不可能实现的，这与公众的基本素质、法律意识、信息自身价值等许多因素有关。档案部门应号召成立相应组织机构，提高公众信息保护意识。英国目前就已成立了一个数字保存联盟，这一联盟的成立，在提高公众信息保护意识、收集项目经费方面做出了巨大贡献。[18]只有在公众提高信息保护意识，认识到网络信息的现实与长远价值，能够真正站在继承并传承网络历史文化的角度做出行动的时候，才能真正保护网站信息资源。这还有一条长远的路要走。

　　4.5 研究经费匮乏

　　要想推进网站信息资源保存工作的进行，经费问题是一个不得不首先考虑到的问题。这些经费的需求体现在两个方面：学术研究和项目投入。学术研究方面，需要大量的不同学科科技人员投入进来，确定这项工作的发展方向，预知并解决理论研究中的不同问题，投入科研人员，就意味着投入大笔的资金作支持。项目投入方面，资金的投入需要贯穿于项目的整个过程。首先，信息采集阶段，需要雇用图书馆或档案馆有经验的人员来确定网络信息资源的价值，确定信息采集的原则，领导整个工作的进行，这意味着人力资金的投入。而且信息采集前期需要购买硬件与软件的设备，如计算机、服务器、信息采集软件网络爬虫等，这是一笔硬件与软件设备的投入。美国的 Internet Archive 项目组所做的一项统计显示，采集 1TB 网站信息资源大约需要花费 3000 美元。[19]

　　其次，信息资源保存阶段，需要大型的信息保存设备，要求这一信息保存设备除了具有巨大存储容量外，还需要具有较快的读写速度以适量海量信息的随时读取。相关资源显示，对网络信息资源进行保存，其花消是印本物的 5 倍之多。[20]

　　例如，1 亿网页大概需要 1TB 存储设备，而 1TB 存储设备需要 2 万元，而互联网上的网页已经不能仅仅用多少亿网页来计算，可见存储费用将是一个相当庞大的数字。对信息进行保存后的维护阶段，为了保证信息的永久可读性，采用了数据迁移或仿真技术，这些新技术的应用在解决以往信息格式或信息环境淘汰所带来的信息无法读取问题上相当有必要的，然而，它也需要一笔不小的资金消耗。最后，在信息提供利用阶段，开发一个完善的公众利用平台，连接后台数据库，使得公众能够随时调阅数据库信息，这一平台的开发等一系列工作时时刻刻都在消耗资金。总之，纵观网站信息资源保存工作全程，信息采集、保存、后期维护与提供利用，每一阶段都离不开资金的支持，况且，这几个阶段是一个不断重复循环的过程，这就需要一个持续的资金链来供给。当前国内外的项目经费大多出自国家项目投入、政府投入和社会基金组织。[21]

　　例如，中国的 Web 信息博物馆就是靠国家项目基金作支持，美国的互联网档案馆每年的预算大概 100 万美元，这些资金主要来源于信息提供利用服务、合作关系、赞助及卡利-奥斯丁基金会支撑。然而这些资金远远难以满足整个工作所需。加之这项工作是一项长远的工作，目前又处于刚刚起步阶段，所研究出的成果还没有太大价值，未能带来理想的经济效益，因此，资金的持续供给问题没有得到很好的解决。仅靠目前国家的资助或公益资金捐助难以长期维持下去，这就需要将这项工作商业化、利益化，在为公众创造价值的同时，其自身也能获取经济效益。这不是一个单一的问题，而是需要国家政策、法规与项目自身多方面努力才能推进的问题。

　　4.6 相关法律标准缺失

　　在对网站信息资源进行采集、保存和提供利用的过程中涉及到许多法律问题，目前大多法律问题还未得到有效解决。采集过程中。网络信息已经受到越来越多的法律条文进行保护，它们和纸质出版物一样，受到知识产权保护。例如，1996 年初，欧盟在立法中规定：存在于互联网中的创作也属于版权法的保护范围。[22]

　　这一立法无形中保护了网络中信息资源的知识产权，在采集信息时，首先要征得信息所有者的同意。但实际中面临的问题是，很多时候采集人员根本无法确定信息的着作人，或者同一网站由于拥有许多链接，涉及到众多着作人，一一征得其同意就显得不太可行。大多数网站资源采集项目是由图书馆、档案馆这样的文化保存机构来实施的，虽然我国《着作权法》中规定：“档案馆和图书馆出于保存历史文化目的，可不经着作权人同意，收集或复制所需作品，只需标明作品出处即可。”

　　但这一规定仍是针对传统印刷环境，而没有包含网络环境。所以，档案部门直接就对网站中的信息资源进行采集是没有权力的。针对这一问题，国外诸如日本、澳大利亚、丹麦、瑞典等国都已经制订了相应的呈缴制度，用法律形式规定了出版机构必须向指定图书馆或出版主管机关缴送信息样本，包括网络中的信息资源。而我国还有待进一步完善。

　　保存过程中。为保证所保存的网站信息资源的长期可读取利用，相关工作人员采取了一系列的技术措施。包括：第一，迁移。迁移是指某物体离开原来的生存环境到新的环境中，对网络信息资源的迁移，是指其离开旧的软件环境到新的软件环境中去，从而适应新的读取要求。第二，仿真。即是模仿信息初始的软、硬件环境，从而再现出原始信息。这也是一种可采纳的手段，保证信息长期可读取。然而，这两种技术方案也都存在一定的问题，如采用仿真技术必须同时保存软、硬件说明书，对这些说明书的保存则涉及到知识产权问题。按照法律规定，信息的复制与格式变更权归知识产权拥有者，而且对信息的复制与变更则多少意味着赢取一定的商业价值，这些行为都是损害所有者的合法权益的。

　　提供利用中。由于网络作品的版权属于着作人，图书馆和档案馆等机构没有权利随意对这些信息提供利用。我国《着作权法》第十条规定，图书馆在网络上向用户提供所保存的 Web 资源，还要依法取得“信息网络传播权”,才能够向公众提供所保存的信息以供公众查阅。

　　缺乏完善的法律条文，更是不利于国际间信息资源对接，由于各国间信息资源保存相关的法律标准不同，不同国家间共享所收集的网站信息资源时可能会触范他国的法律条文，因此，国际上应该制订统一法律，规范国际资源共享行为。

　　4.7 缺乏完善的组织领导机构

　　所谓组织领导机构，从功能上讲，是能够从网站信息资源保存工作的全局出发，制定各保存阶段标准，规范并管理整个流程。例如，国际互联网保存联盟（英文全称International Internet Pres ervation Consortium,简称 IIPC）是一个国际性的管理组织，负责管理国际间的网络信息资源保存工作。该机构的任务是保存全球的互联网资源，出台通用的技术标准与工作，促进各国间的交流与合作，共同推进网络信息资源保存事业发展。从实际成果上看，IIPC 开发了软件工具包，包含信息采集工具“Heritrix”、存档格式处理工具 BAT、搜索引擎 NutchWAX 以及导航发布 WEAR.国际上已有十一个国家在使用这套采集系统，堪称世界上利用率最高的系统。[23]

　　IIPC 从国际的角度出发，规范了信息采集与保存工作，规范了相应的采集政策，规范了国际间网络资源保存工作。然而，我国还未加入这一国际性的领导机构，也未形成国内根据本国国情设立的组织领导机构，这就给我国网站资源保存工作带来了一系列的问题。

　　从网站资源采集现状来看，没有一个固定的政府机构对这一工作全局管控，国家图书馆、档案馆、博物馆、学术研究机构等都是从自身学科角度出发，参与网站资源保存工作，收集并保存对自身有利的网络信息，并没有站在国家与公众的角度，加之没有统一的采集标准与保存格式，造成不同机构“各取所需”的局面，带来了许多问题：人力物力资源浪费、不同项目采集了大量的重复性信息、大量的有用信息资源由于没人负责而得不到采集，网络资源保存工作越来越混乱。要想规范信息采集工作，就应该从信息产生的源头就做好采集的准备工作。详细来讲就是从信息发布者来说，必须严格按照信息的发布标准，规范其信息格式；从使用者来说，必须认识到保护网络信息的重要性，保护网络资源，避免破坏有价值的信息；从最终保存者来讲，要使用统一的存储格式存储信息，便于信息的重复提供利用。从信息源头的发布者做起，更有利于保障该工作的顺利进行。这一系列工作的推进，都需要有一个核心的政府级别的领导机构，制定标准、规定不同责任方的责任，保证其贯彻实施。

返回本篇论文导航

相关内容推荐