一、大数据及信息伦理相关概念
当今世界已经进入了大数据时代,大数据的发展必然会带来一系列信息伦理问题,需对相关概念进行解析。
(一)大数据的内涵、特征及发展趋势
1.大数据的内涵
1997 年 Michael Cox 和 David Ellsworth 第一次用“大数据”一词,描述了由超级计算机所生成的巨大数据量所形成的挑战。随着大数据的流行,对于大数据的概念,目前还没有一个统一的认定,国内外的一些组织和学者从不同的角度对大数据进行了定义,呈现多样化的趋势,但总体上,各个组织和学者对大数据的定义都是围绕着传统的工具和方法难以分析和处理的大量数据集的描述。如美国国家科学基金会(NSF)将大数据定义为是:
“由科学仪器、感应设备、电子邮件、富媒体软件、网络点击流和移动互联交易等多种数据源生成的大规模、多元化、长期的和复杂的分布式数据集。
麦肯锡定义大数据为:无法在一定时间内用传统数据库软件工具对其内容进行采集、存储、管理和分析的数据集合。
我国一些学者对大数据也进行了定义。徐宗本院士将大数据定义为:不能够集中存储并且难以在可接受时间内分析处理,其中个体或部分数据呈现低价值性而数据整体呈现高价值的海量复杂数据集。
相比较国内外各个组织和学者对”大数据“的定义而言,影响最大并得到广泛认同的是由国际数据公司(IDC)在 2011 年对大数据所做出的定义,该定义为:”大数据技术描述了新一代的技术和架构体系,通过高速采集、发现或分析,提取各种各样的大量数据的经济价值“.
虽然国内外学者从不同的角度对大数据进行了定义,但所表达的信息相近,即大数据是一种数据集,是数字化时代出现的一种现象。但大数据的数据集涵义与本世纪初提出的”海量数据“概念不同。从英文翻译的角度,”big data“翻译为”大数据“,”large-scaledata“或者”vast data“翻译为”海量数据“,”海量数据“主要是强调数据的量大,而”大数据“则不仅描述数据的量大而且还描述出数据的复杂形式、处理时间的快速性以及数据的价值性等内容。
2.大数据基本特征
目前,对于大数据的特征,人们较为统一的认识是:大数据具有 4V 特征,即 volume(数据规模大)、variety(数据种类多)、velocity(数据处理速度快)和 value(价值低密度)的特征。
(1)数据规模大(volume)
数据规模大是大数据的基本属性。据 IDC 统计,至 2010 年底全球数据量已经达到了120 万 PB,到 2020 年,全球以电子形式存储的数据量将暴增 44 倍,达到 35ZB,并且大约每两年翻一番。
导致数据量激增的主要原因,一是互联网的广泛使用。随着计算机技术的普及和信息网络技术的快速发展,互联网已经深入到社会生产、生活的各个方面,人们使用互联网会产生大量的数据,同时,人们通过互联网采集、分析、分享数据更快捷和更方便,这样就使互联网数据激增。互联网的广泛使用是大数据发生的主要原因。二是数字化移动终端设备的广泛使用。以智能手机为代表的移动终端设备每时每刻都会产生大量的数据。据工信部统计,2014 年 4 月我国手机上网用户总数达到 8.11 亿户,对移动电话用户的渗透率达到 64.8%,2014 年 1 月到 4 月,通过手机上网的流量达 4.57 亿 G,月户均手机上网流量达到 145.5M.三是生产生活中智能设备的快速增加。人们生产生活中的智能化设备越来越多,不仅提高了人们生产生活的效率和效益,而且在社会管理、服务等方面也起着积极的作用,但也同时产生了大量的数据。如一些智能机器设备会采集、储存、使用和管理数据。
(2)数据种类多(variety)
随着网络形式、数字化移动终端以及智能设备的广泛使用,数据种类也越来越多。如今的数据类型不仅包括传统的数据类型(如文本形式)还包括音频、视频、图片、日记、记录等未被经过加工的半结构化或非结构化的数据,这些半结构化和非结构化的数据对数据的处理能力要求更高。
(3)数据处理速度快(velocity)
信息网络技术的快速发展使数据的生成、采集、储存和处理的速度更快。大数据在无时不刻的生成,不仅体现在生成的数据量大而且体现在生成数据的速度快、终端设备之间数据的交流快,数据生成的速度已经无法使用传统的数据处理方式进行处理,这样大数据也就对快速、实时的处理能力提出了要求。以 Facebook 为例,每天 Facebook 的用户能共享超过 40 亿推特的东西,每天 Twitter 处理的推特数量也超过 3.4 亿。
(4)价值低密度(value)
伴随着数据激增的,是有用信息隐藏在大量的无用信息之中,有用信息在数据总量中的比例一般不会随着大数据总量的激增而提高。如,当监控视频抓拍犯罪嫌疑人时,往往有用信息只有很短的时间,但为了数据的完整性,会有大量的无用的数据被一同保留下来。
另外,大数据的半结构化或非结构化的数据中主要是采用原始数据记录的方式,虽保留了数据的原貌但没有经过整理、归纳,当需要提取有用信息时,在提取和处理过程中会一并提出和处理大量的无用信息,而数据的提取过程又会产生新的无用数据,这样也使得大数据表现为价值低密度。
3.大数据发展趋势
随着大数据时代的到来,大数据已经在社会的各个层面产生了重要的影响,随着数据量的进一步攀升,大数据将会进一步发展并在人们的生产生活及社会管理等方面产生影响。
首先,大数据在多方位改善人们的生活。信息技术、互联网技术的突飞猛进以及智能设备的普及,人类的生活需求也在不断提高,生活质量也在不断改善。在医疗健康保健方面,智能血压计、智能心率仪等智能医疗设备可以对病人实时监控,实时监控形成的数据在这些智能设备中储存,通过计算机或其他终端设备读取这些数据,可以反映出病人不同时间段、不同情况下的病情状态,有利于病情的诊断与治疗。而大数据下,人们在出行时可以通过智能查询了解出行状况,有利于出行路线选择和做好出行准备,另外,人们可以通过大数据了解住宿信息、购物信息等等。随着数据量的进一步增加,大数据的使用将会成为人们的一种习惯,大数据也将会进一步改善人们的生活。
其次,大数据推动产业创新发展。大数据的优势是通过对海量数据的交换、整合和分析,能够发现新知识,而新知识使新技术的出现成为可能,从而产生新价值。大数据将加速信息技术产品的创新融合发展,一方面是大数据的发展对数据储存、数据处理技术与设备提出了创新需求,另一方面网络技术以及智能设备的发展要求大数据提高数据运算、处理的能力,受到这些需求影响的首先是信息技术。信息技术的创新发展必然带动其他产业的创新,加之大数据已经不同程度的渗入到各个行业和领域,大数据能够提高企业对市场掌握的精准度,使营销方式更具有针对性;大数据下企业制造、管理的精确度会更高,研发能力也会得到加强。企业通过对历史数据、网络数据的获取与分析,可以在企业产品创新、管理创新、市场创新等方面产生灵感从而推动创新。
最后,大数据进一步提升社会管理能力。智能化、数据化成为今后社会管理的主要特征。随着城镇交通、人口压力的加大,城市管理需要更合理的进行资源布局和调配,大数据将进一步提高人与物、物与物、人与人之间的互通能力,智慧医疗、智慧交通等进一步发展,相关部门的社会管理能力进一步提高。另外,大数据的发展必然推动数据共享能力提升,数据价值也将进一步得到体现。各个管理部门之间的数据信息在法律规定的范围之内共享,能够提高相关部门的管理效率,社会综合服务水平进一步提升。
(二)大数据与信息的关系
数据是人们用于记录事物情况的符号,是构成信息的基本单位。一般来讲,数据表现为数字、字符以及能录入计算机并能被处理的符号,另外还包括声音、图片、影像等多媒体数据。没有经过加工处理的原始数据只是作为数据的一种记录形式存在,没有实用价值,人们不能从未经整理的原始数据中获得有效的、直接的信息,也不能给人们的决策有帮助。
信息是加工后的数据,是数据中所包含的意义和内涵。人们通过对原始数据的整理、筛选、加工形成的有用数据才是信息。由有用数据形成的信息能够反映出一定的事物特征和变化,即信息是客观世界各种事物特征和变化的反映。
在一定条件下,经过特殊加工即数据处理后数据能表达信息。但并非任何数据都能表达信息,信息是加工处理后的特定形式的数据,是数据所表达的内容。信息是客观世界的反映,不随着数据形式的变化而改变。一个信息可以从一组数据中获得也可以从另一组数据中获得,可以从一种形式的数据中获得也可以从另一种形式的数据中获得。如某患者就诊时,化验单的数据是其诊疗原始数据,医生通过化验数据可以判断出其疾病信息,这就是一个数据的加工和转换过程。而同样是一个患者也是同样的病情,医生还可以通过其他检查手段如 B 超、CT 等获得疾病信息,B 超、CT 形成的影像和图片即为原始数据,医生通过这些影像和图片结合自身的专业知识经过数据加工整理后形成的疾病诊断即为信息。无论是化验的检查方式,还是 B 超、CT 的检查方式,患者的病情不会变,这些检查方式反映的都是患者的实际病情信息,只不过检查的方式不同即数据的来源不同,这表现出用不同的数据形式可以表示相同的信息含义。而医生一般采取多种检查方式,只不过是使信息获得的渠道更多、获得的信息更完善,也有利于准确地诊断病情从而开展有针对性的治疗。
大数据环境下,数据量大、种类繁多,数据形式呈现多样化、数据组合也呈现海量性,这样由之构成的信息也较之传统数据下呈现海量性和多样化的特征,即随着大数据的出现,信息的表现形式、表现特征也在不断的变化。大数据环境下,由于数据量大也会丰富反映信息的渠道。如同样是上例中的患者就诊,患者以前就医记录、检查数据、诊疗情况等在计算机或数据库中有记载,这些同样作为此次就医的原始数据出现,这样能够为医生对患者的健康状况、疾病变化情况提供有用信息,拓宽了医生获得患者健康状况的渠道,各个医院之间对同位患者的信息交流也体现了大数据的共享性,大数据的共享使医生的信息来源更丰富。这些都表现出大数据环境下信息的获得更便捷、渠道更宽广、内容也更全面。
(三)信息伦理的内涵与特征
在上世纪七八十年代,随着信息技术的发展,人们开始注意到由之所带来的一些列社会问题和伦理问题,于是人们开始了相关领域的研究。起初人们用计算机伦理来表述信息伦理的内容。到 20 世纪九十年代,罗格森(Simon Rogersom)和贝奈姆发表的研究文章中指出,计算机伦理的研究内容和范围狭窄,它只是信息伦理的一部分。
之后,人们对信息伦理的研究不断深入并呈现不断发展的趋势。
1.信息伦理的内涵
从信息的来源来看,随着计算机技术和数字化网络技术的快速发展,使信息量急速增加,计算机技术和数字化网络技术已经成为现代信息的主要来源。但信息的范围不仅仅局限于计算机信息和网络信息,还包括传统的图书、电视、文字以及大众传媒等数据和信息来源。伦理是调整人的行为符合社会道德规范的准则,是一种判断”是“与”非“、”善“与”恶“的道理。是调解人与人、人与社会、人与自然的行为规范和准则。伦理具有一定的价值取向性,一个人的行为是否符合伦理规范反映出个体的伦理道德水平的高低。在大数据环境下,信息量急速增长,信息传播渠道也多种多样,信息的使用已经影响到人生产生活的各个方面,什么样的信息允许传播?信息怎么传播?什么样的信息是”善“的信息和”恶“的信息?怎么样的传播方式是”善“的和”恶“的,就需要伦理的考量,这就涉及到信息伦理问题。
信息伦理一词于 1988 年由罗伯特·豪普特曼(Robert Hauptman)首次提出,他认为,所有对与信息生产、信息储存、信息访问和信息发布伦理问题相关的研究都统称为信息伦理。
我国学者沙勇忠将信息伦理也称之为信息道德,他认为信息伦理是调整人们之间以及个人和社会之间信息关系的行为规范的总和。
其后蔡连玉、曹劲松等也分别对信息伦理进行过定义。
虽然国内外学者对信息伦理定义的角度不同,但基本上都表达出信息伦理所要考量的是信息的生成、采集、储存、传播、管理和使用等方面的伦理关系。信息反映的是客观事物的特征及变化,人是信息过程的主体要素,离开了人,信息无法生成,离开了人信息也就没有实际意义,故而信息伦理的核心是调整人与人、人与社会的关系,规范的是人的行为。基于此本文认为信息伦理是在信息开发、信息加工、信息利用、信息传播等方面的伦理要求、伦理准则和伦理规约;是调整信息活动中人与人之间以及个人与社会之间信息关系的行为规范的总和。
根据信息内容的多样性,信息伦理的内容主要涉及信息安全、隐私权、信息准确性、信息知识产权、信息管理、信息传播以及信息存储与使用等几个方面。
2.信息伦理的特征
随着信息技术的快速发展以及信息涵义的扩展,信息伦理已经成为一门新兴的交叉科学,[2]与其他伦理相比有着独特的品性。主要表现在以下几点:
(1)自主性
现代信息技术的发展使得信息生成、传播的速度极度提高,而人们获取信息的手段又多种多样,尤其是在网络化的虚拟世界中,人是信息的生产者也是信息的组织者,参与了信息的全过程。虽然,网络化的世界一样受到法律的约束,但相比较于信息的发展而言,法律建设的滞后性相当明显,这样维持信息秩序的还主要依靠信息伦理这种规范形式。相比较于现实社会的伦理而言,对信息伦理的自主性要求更强。
(2)开放性
信息社会的一个明显特征是消除了人与人之间的时空障碍。在消除了人与人之间时空障碍的同时,人们更能自由的表达自己的意愿,相互包容性更强,对不同意见也能做到宽容,开放性是信息伦理区别于其他伦理的明显特征。
(3)多元化
在信息社会中不仅信息量大而且信息种类多,信息渠道也丰富,信息呈现多元化。在开放性的网络世界中,一些在现实社会中”善“的信息和”恶“的信息均能得到表达、传播和接收,人们也能够利用网络社会的虚拟性表达对信息的”善“的和”恶“的态度,其伦理观念和行为呈现出多元化特性。
(4)技术相关性
信息的生产、传播与使用等都离不开信息技术,而正是信息技术的快速发展使当今社会进入了信息社会。技术本身就具有伦理性,信息技术不仅贯穿于信息伦理的始终,而且随着信息技术的发展会进一步推动信息伦理的发展。当信息伦理面对具体的信息活动中所存在的伦理问题时,有时就有许多技术层面的困扰。例如在判断什么形式的超文本链接是合伦理的,什么形式的不是时,就与技术高度相关。
3.信息伦理与计算机伦理、网络伦理的关系
信息伦理与计算机伦理和网络伦理之间的关系既紧密相连又有所区分。
首先,信息伦理的内涵要广泛,包含了计算机伦理和网络伦理。信息伦理是指所有与信息活动有关的伦理,即包括计算机的信息活动也包括网络的信息活动,还包括非计算机和网络活动以外的其他信息活动,如电视、广播、报媒等。而计算机伦理主要考量的是与计算机活动相关的人之间的伦理性,离开了计算机则不能称之为计算机伦理。网络伦理则是指与网络活动相关的人的伦理性,网络活动必然产生信息,故而,网络伦理包含于信息伦理之内。但计算机伦理又包含网络伦理。如,当计算机联网时发生的计算机活动的伦理规范就属于网络伦理范畴,未联网时就不属于;而网络的活动不论其具体活动设备如何,其最后的数据处理、信息生成都离不开计算机,故而网络伦理在相当程度上就和计算机伦理同性。三者之间的关系如图二。
其次,计算机伦理和网络伦理是当代信息伦理的主要内容。虽然,在计算机和网络出现之前,各种信息的载体就已经出现并形成了一定的规模。如书籍、报刊、广播、电视等等,但信息的大爆炸以及推动人类快速进入信息社会的还是在计算机尤其是网络的出现之后。计算机的出现使人类能够编辑、生产、储存更多的信息,不仅信息量大、信息的种类繁多,而且信息活动更便捷;网络的出现不仅使信息传播的速度更快、传播的范围更广,而且云储存量更是远远超过计算机的储存量。人们传播信息和获得信息的渠道也逐渐的从传统的信息载体向网络载体转移,使计算机信息和网络信息成为当代信息的最主要的信息来源,而随着计算机技术和网络技术的进一步发展,其在信息总来源中的比例会进一步提高,这样在当代,计算机伦理和网络伦理就成为了当代信息伦理的主要内容。