微博舆情研究在大数据检索分析中的缺陷研究

来源：学术堂作者：姚老师
发布于：2015-11-30 共7406字

　　由于在展示现实社交关系上的卓越性能，微博大数据正成为研究人们社会行为的典范。

　　在美国，研究者主要利用微博大数据了解当代媒介生态中社交媒介的功能，专注于以兴趣与问题为基础的公众形成与动态。包括微博大数据的挖掘与分析，用以理解当下的传播危机，选举中社交媒介所扮演的角色，当代受众参与电视娱乐节目及新媒介的特征等[1]1.同国外不同，中国微博大数据运用目前主要表现在商业领域及舆情评测方面。尤其在舆论研究中，大数据热不断攀升，成为新闻传播界令人瞩目的现象。

　　中国人民大学传播学者喻国明教授在《传播学研究：大数据时代的新范式》一文中，对大数据在舆情研究中的作用充分肯定，他认为大数据视域下，舆情研究重点已"由舆情监测转向为舆情预警乃至预测，从单向度的危机应对、品牌营销转向各领域的综合信息服务"[2].另一位学者李彪在《大数据视域下社会舆情研究的新境界》中，也认为大数据可以解决目前舆情研究的尴尬，已经成为舆情研究的"利器",为舆情研究创造了新的机遇[3].此外，许多计算科学领域学者也从微观角度，分别对微博舆情大数据研究，在技术角度和研究方法层面做了细致分析。然而，凡事皆有两面，如果抛开惯常的认知与思维，在微博大数据热研究伊始即关注微博大数据研究的负面风险与挑战，对微博舆情研究沿正向前进不无助益。正如利维·施特劳斯所指出的那样： "我们是我们自身的工具".当我们利用这种工具的时候，我们应该考虑它是如何参与分享这个世界的。大数据领域已经开始，我们质疑其假设、价值与这种研究新浪潮中的偏见，这显得非常重要。作为对知识生产感兴趣的学者，这种审问是我们所做研究中一个必不可少的部分[4].

　　一、大数据运用的工具依赖与技术挑战

　　微博舆情研究中，通过大数据挖掘，如跟踪微博趋势主题标签，研究者可以大规模搜集在线集体行为，从而看到某个热点事件的影响模式与传播峰期与峰值。康奈尔大学教授乔恩·克莱因伯格说： "我用大数据寻找热点，我用大数据理解行为的爆发。这些事情你只能通过大数据来做。"[5]显然在以乔恩·克莱因伯格教授为代表的数据技术派看来，大数据已成为研究微博舆情的"在线鱼缸"（ on - line aquarium） ,网民所有实时行为都可以通过这个窗口呈现出来。问题是，web2. 0 时代以来，基于云端的大数据技术虽然迅速崛起，但技术仍不成熟，难以完全满足微博舆情研究的大数据检测与分析要求。

　　1. 大数据存储与检索系统存在技术缺陷

　　微博上各种热点事件的舆情可测，就在于新的大数据存储系统为各种舆论行为的结构化数据，如二维表等关系型数据；半结构化数据，如博客的 HTML （ HyperText Mark - up Lan-guage）文档等；非结构化数据，如博客帖子、图片、图像与音频、视频等，提供了 TB（ 1TB =1024GB）级甚至是 PB （ 1PB = 1024TB）级的数据规模。而传统关系数据库 RDBMS（ RelationalDatabase Management System,即关系数据库管理系统，是将数据组织为相关的行和列的系统）由于数据一致性的约束，在管理大规模数据集存储条件下，在数据更新、局部数据失效处理以及系统扩展性等方面工作效率低下[5].在应付 SNS 类型的微博动态网站方面疲态尽显。

　　目前微博舆情所依赖的大数据存储检索系统主要有两种，即 No - SQL（即 Not Only SQL,是对不同于传统的关系数据库的数据库管理系统的统称，泛指为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题的非关系型的数据库）数据库与 Hadoop（ Ha-doop 是 Apache 软件基金会发起的一个分布式系统基础架构，是一种开源的适合大数据的分布式存储和处理平台） .No - SQL 数据库在响应速度与后端处理大量数据能力上优势巨大，但在多列查询上支持较弱，在数值统计分析等复杂处理上表现一般。因此在进行微博舆论行为方面帖子搜集时，其跟随列表经常会感受到数据的延迟，并经常遇到不知数据具体存在何处及很多时候数据总是不可用的境地。此外No - SQL 数据存储系统并未形成统一标准，也缺乏商业上的普遍支持。这在微博舆情检索时，也为数据搜索的混乱与差错留下了端口。

　　另一种大数据管理工具是 Hadoop（其典型应用有 facebook 等） ,它利用 MapReduce（一种编程模型，用于大规模数据集的并行运算）加速检索实现，可以轻松处理海量数据。国外很多微博利用他来进行巨量数据分析，它使得微博上的结构化数据文件能够映射成为一张数据库表，并提供完整的数据查询功能。但在现实微博舆情检索过程中，由于该系统不支持数据流的高速加载与查询，因此会导致整个系统在微博舆情检索时，过程繁琐与效率低下。此外微博大数据检索系统中所建构的查询与文档也并不稳定，系统与系统之间的匹配原则与结果呈现技术也有所不同（也许一个系统返回 Twitter 帖子的分级列表，而另一个呈现的则是词云）[6].

　　2. 大数据的信息获取权限

　　需要指出的是，尽管存在诸多工具软件与搜索手段，目前微博舆情在检索上仍主要依赖微博 API（ Application Programming Interface,即应用程序编程接口，它是一些预先定义的函数，目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力，而又无需访问源码，或理解内部工作机制的细节）技术规则，换句话说，微博舆情研究所需的大数据集仍然牢牢控制在微博媒介所有者手中，其可得性需要看微博媒介拥有者的心情与脸色"吃饭".

　　事实上，实现 API 开放的微博媒介大数据集并非详尽的集纳了所有公开发布的博客帖子，也不会为舆情研究者提供所有的帖子以供索引查询，它们需要过滤与压缩垃圾帖子以增加相关性。由于容量限制，一般微博，如 Twitter 等，仅能提供近一周的微博数据以供索引[1]7,8.

　　此外，作为大数据宿主，微博媒介平台提供API 的内在驱力并非舆情研究，而是创造商对商关系，其目标是具有一系列潜在价值的特殊终端用户，如 2012 年 Twitter 与 NBC 联合直播伦敦奥运盛况，便是为了寻求与大企业、打广告主合作，以便获得巨大的经济效益。微博运营商的这种商业至上逻辑，也为舆情检索带来了一定困难。如著名的微博 Twitter 公司，前段时间为了商业利益，在数据访问与控制上所做的规定便引发了广泛争议。为保障自身商业利益，Twitter 公司直接从其公共信息流出口（ fire-hose）锁定开发者与研究者对 Twitter 信息的访问权限，削减其自由和公开的微博信息归档服务，同时同 Gnip（一家向客户收取高容量 APITwitter 帖子访问费用以获取商业利润的公司）建立垄断性的内容许可协议。2012 年 8 月，为响应最新发布的 API 规则，Twitter 公司进一步发布在一定条件下 API 使用与可用性的显著限制[1]6.在中国，由于技术原因，新浪微博 API则经常处在测试阶段，不但提供开放的大数据内容不全面，而且在舆情检测时，由于查询结果在返回的最大数量及调用频率等方面的诸多限制，难以为舆情研究提供全面、完整与系统、可靠的大数据。

　　3. 微博舆情检索工具缺乏
　　
　　在微博舆情搜集方面，国外已经出现像Gnip 这样专门针对 Twitter 大数据搜集的公司与机构，在中国目前专门针对微博搜集的商业机构尚不多见。

　　国外微博舆情搜索与分析系统工具一般为研究者自行研究设计而成，如 Opinion Finderlexicon、Twitinfo 等。许多工具性能优越，技术先进。国内微博舆情大数据研究系统工具有See、Scool 等。由于从事微博舆情研究人员目前多为人文学科或媒体从业人员，很少缺计算机与信息学科的专业人士，因此很难针对微博舆情研究，设计出适用的工具软件。

　　从大数据存储检索系统缺陷到微博大数据访问权限，再到舆情检索的工具限制可以看出，当下微博舆情研究在大数据检索、分析方面并不能伸缩如意，某种程度上，大数据提供的是一种乌托邦式的工具依赖与技术幻想。

　　二、大数据检索中的数据鸿沟与分析裂痕

　　大数据的庞杂和混乱、获取与共享权限，加剧了微博舆情使用的技术鸿沟。

　　1. 大数据增加错误发现的风险
　　
　　统计学家与计算机学者指出，凭借庞大的数据集与细粒化测量，大数据正不断增加"错误发现"的风险。斯坦福大学著名统计学教授黑斯蒂（ Trevor Hastie）说，如果在大规模数据稻草堆中寻找一根有意义的针，其问题是稻草堆中有太多稻草像针一样[7].
　　
　　除检索外，微博舆论中各种帖子、表情符号、图片等半结构、非结构数据的增加，在累积各种信息指标同时也会导致错误信息增加。此外舆论事件中，大数据信息的增加，也增添了特定主题帖子的挖掘难度与分析的不确定程度。

　　因为对某个热点事件舆情信息挖掘、分析、预判，通常会使用计算机与数学模型，然而，这些模型所提供的总体性分析就像文学中的隐喻，是对微博舆论事件解释的简化与简版。这种模型或许可以点出微博舆论中用户之间的相互关系，并在大数据解析基础上得出相应推论，但这种推论往往会有失真实与偏颇。

　　2. 信息孤岛导致数据分析鸿沟

　　微博舆情研究的最大诱惑是全数据视角，但现实中，人为因素与技术限制，让这种诱因成为画饼。处于技术癖好与利益考虑，每个微博API 平台资料开放都有限度，作为外部舆情研究者，除非能克服经济压力完成所有的数据购买，否则很难完全访问微博平台所有原始数据。

　　即便有微博 API 宣称公开开放所有数据，也不能肯定它们所谓的"所有数据"包含了全部舆情信息。以著名微博公司 Twitter 为例，理论上看，Twitter 的"流"信息库（ firehose）除了包含隐私以及受私人保护的微博之外，能提供所有公开发布的帖子，然而，事实上一些公开发布的帖子仍然遗漏在"流"信息库之外。其原因就在于 TwitterAPI 对所有帖子采取的是任意数据抽样，或从特定的网络数据图中每小时仅抽取开头的几千个 Twitter 帖子作为样本[8].中国的微博平台在所公开的资料提取与供给方面同样如此，所以，对微博舆情研究者来说，很难断定自己用于分析的微博大数据在质量上是否可信与可靠。

　　此外，许多微博媒介平台限制数据集共享，也让研究者很难将获取的资料同其他研究团队做对比分析[1]7,8.从平台角度看，当下的微博舆情搜集仅聚焦于一些主要的微博社交平台，国外主要是面薄（ facebook）与 Twitter（ Twitter） ,国内则是新浪、腾讯、搜狐及网易。对于一些影响巨大、事关全国乃至世界性的热点事件来说，即使每个微博平台能提供千百万的帖子量，其资料搜集范围相对于整体媒介范围来说仍然显小。况且，不同的数据平台经常做人为的数据分割，如中国新浪、网易、腾讯、搜狐四家微博平台的数据检索各自为政，互不分享，从微博舆情研究看，这必然会形成 web2. 0 时代的大数据分析"鸿沟".

　　3. 信息精度影响舆情分析和预测的准确度

　　微博舆情研究的另一个问题，也许同大数据数量无关，而同大数据信息本身有关。首先，微博用户与所有的社会不是等价物，微博舆论代表广泛民意，但不等同与社会的全部民意。

　　其次，微博账户也不等价于现实中的微博用户，如有的单个微博用户拥有多个账户，也有多个微博用户共同拥有同一个账户。再次，那些没有微博账户的人可以通过网站访问微博，并通过"机器人"（ bot）将自己的帖子在微博平台上群发。最后，微博平台上的活跃用户并非都是言论活跃分子，Twitter 公司揭露有 40% 的活跃用户登录微博仅仅是为了收看。看来，用户、参与及活跃度三者之间的关系仍需要仔细研究[1]662 -679.这说明，微博用户的数量、帖子的多寡、言论的代表度，都只最大限度地呈现了舆情的局部真实，并不能代表社会的舆论全部。

　　在微博舆情检索方面，目前也存在对大数据选择性弃用现象。微博大数据中除文本信息之外，图片、影像在舆论活动中的参与度正急剧上涨，无论是宜黄拆迁事件中当事人钟九如通过微博发布图片影像维权，还是杨达才表哥在交通事故处理中的微笑脸谱展示，再到雷政富不雅视频事件在微博中的不胫而走，图片与图像在激发与助推舆论发展中，都是致命的"大杀器".但在现实中，现代大数据检索与分析技术，只注重分析哪些容易处理的文本信息，却很难挖掘与处理这些图片、影像乃至超链接等非结构化数据，因此在舆论研究中，这些非结构化数据经常遭到舆情大数据研究者的抛弃与轻视，从而人为造成微博舆情研究中的"选择性"使用与分析现象。

　　三、大数据隐私与安全

　　微博舆情研究中，大数据安全主要表现在舆论暴力、隐私侵权与数据垄断三个层面。

　　1. 大数据使用存在泄露隐私隐患

　　随着人工智能与计算机技术发展，建立在云端基础上的大数据挖掘与智能动态分析愈来愈强。但道高一尺、魔高一丈，任何技术的发展都无法完全弥补技术发展漏洞，微博 API 应用接口的访问密钥限制，微博大数据在数据存储与管理控制方面的缺陷与不足，经常会导致信息的泄漏，特别是隐私信息。据 IDC 统计： 2010年仅有不到1/3 的数据需要保护，到2020 年这一比例将超过2/5;2012 年的统计显示，虽然有35%的信息需要保护，但实际得到保护的不到20%[9].

　　数据安全缺失在微博舆情领域通常会导致侵犯他人隐私，甚至产生舆论暴力行为。人肉搜索滥用就是典型之一，许多微博舆论突发事件中当事人（特别是负面当事人）的信息成为人肉搜索的对象，如周久耕事件及陕西房姐事件等，当事人隐私在人肉搜索面前暴露无遗。

　　虽然这些舆论事件中的当事人存在负面形象，但舆论的结果正义不能掩盖程序正义，对舆论中负面当事人隐私信息的非法人肉获取仍然值得整个社会的理性认识与警醒。同样，突发事件中微博舆论的一边倒也不能昭示对舆论负面当事人的隐私信息人肉获取的合法。广东房婶事件就是反例，由于信息泄露，房婶饱受舆论暴力蹂躏。好在司法机关最后证明舆论错误，还房婶以清白，但舆论当事人房婶由于数据泄露，所导致的"众口铄金、积毁销骨"之疼，恐难在短时间内消退。

　　2. 大数据安全问题阻碍舆情信息获取

　　因为很难区分公众信息与个人隐私信息边界，大数据导致的信息泄漏很可能导致微博运营商因为担忧隐私侵权，在搜集和提供舆情大数据集时更加谨慎，在向舆情研究者甚至是舆情研究数据共享合作者提供大数据集时，更趋向小心与保守，这也必然会增加一般舆情研究者在微博舆情研究时舆情数据的获取难度。

　　此外计算机与人工智能先发优势，也导致社会法制管理总是相对滞后。针对大数据管理，欧盟在 2012 年 1 月对旧的数据保护条例进行修改，并发布了新的数据搜集与保护条例，但大数据海啸仍然让这些新条例在管理方面难以为继。美国也于 2012 年 3 月 29 日，推出了"大数据研究与开发计划",但大数据隐私与信息安全依然是个难题。此前的维基解密事件与"棱镜门"事件，就从某种角度说明了问题的严重性。大数据信息安全对微博舆情研究而言所产生的隐忧是：政府对大数据管理失效，很有可能导致"矫枉过正",引发政府更加严厉的言论与信息管理措施，这对微博舆论健康发展来说未必有益。

　　3. 大数据垄断误导舆论选择

　　以微博为主的社交媒介为研究人们日常行为提供了大数据样本，但对大数据样本的使用权限和能力，不同的个人、群体和组织是不同的。大数据可以为公众谋福，也可能成为"老大哥"的另一版本，造成大数据使用与分析的垄断。

　　互联网哲学家耶夫根尼·莫洛佐夫警告说，大数据使用不当会导致"算法的独裁",对于现在许多大数据应用背后的理念，他持批评态度。

　　微博舆情研究中，大数据带来的好处是舆情信息的获取更加全面；坏处是大数据垄断有可能让某些信息垄断者有机会对微博舆论帖子内容进行选择性提供与使用，从而导致舆情误判。更有甚者，如立二拆四、秦火火之流，利用微博大数据技术，传播谣言，制造舆论假象，以谋取私利。凡此种种，说明大数据技术在舆情研究上带来便利与革新的同时，也带来了弊端与隐忧。

　　四、微博舆情研究中的大数据反思

　　大数据技术虽不成熟，在发展中存在诸多弊端，但毕竟为微博舆情研究领域带来了重大思想启蒙与影响。微博舆情研究中，不能因为担忧它成为利维坦，就拒斥其在研究中所带来的技术福音。理性的态度应是：明辨其利弊，在使用的过程中从各方面不断完善与改进。

　　首先，大数据技术的进步与成熟需要国家社会政策扶持及全社会的高度重视。在美国，大数据技术早已上升为国家战略，2012 年美国政府发动了一场大数据发展的全民总动员，美国政府拨款 2 亿美元启动"大数据研究和发展倡议"计划。与此同时，美国国家科学基金会（ NSF）等部门和机构承诺，将投入超过 2 亿美元资金用于研发"从海量数据信息中获取知识所必需的工具和技能".在美国政府的鼓励下，美国企业与个人也争先恐后投入大数据的开发与研究，让大数据技术深耕于美国社会的各个层面。

　　在中国，政府层面也比较重视大数据技术，如 2012 年以来，科技部、发改委、工信部等部委在研发、探索和产业化专项上，陆续支持了一批大数据项目。上海有"大数据研发三年行动计划",广东有"大数据战略工作方案",陕西有"大数据科学园区",中关村还有"大数据产业联盟".但总体看，中国大数据技术研发还缺乏国家层面的清晰战略规划，缺乏社会各阶层整体联动，大数据技术创新与扩散的内在驱动力不足，这也必然会影响到微博舆情研究中大数据技术的推广和使用。因此作为下一代通用目的技术，大数据技术的推进需要政府、企业与个人共同努力。

　　其次，要与时俱进，不断培养大数据人才。

　　大数据是新兴技术，大数据人才需要一系列大数据挖掘、分析和可视化呈现等知识。目前微博舆情研究队伍的境况是，擅长信息检索的计算机与统计人才不懂社会科学研究方法，而懂得社会科学研究方法的学者又基本不懂信息检索与统计学知识，从而造成了大数据微博舆情研究的人为隔膜。因此，要打破大数据分析研究的学科藩篱，需要培养既懂计算机科学与统计学知识，又懂社会学研究方法的复合型人才。

　　再次，需要建立相应的大数据法治安全。

　　大数据安全需要整个社会努力，具体说，需要政府、企业与社会个人从宏观到微观共同作用。在政府层面，欧美发达国家已经走在前面，如美国应对大数据崛起，已经设立安全机制，采用第三方信息安全审计，并对数据的使用作明确的规定，以及加大对信息窃取及修改的惩罚力度。

　　美国国防部先进研究项目局（ DARPA）为应对大数据时代的到来，宣布建立多个针对网络信息安全的研究项目[10].

　　在我国，关于大数据开放与使用管理方面，法治建设相对滞后。大数据公开与共享的边界在哪里？如何区分公共数据与私人数据、公共数据与商业数据的边界？对大数据垄断和大数据侵权滥用行为如何规制？对这些问题在法治管理方面的清晰厘定，不仅有利于大数据技术健康发展，也有利于微博舆情研究方面的大数据技术应用与推广。

　　总之，微博舆情研究中，尽管大数据检索与分析存在诸多风险与挑战，大数据仍将是今后舆情评估与趋势预测最具希望的研究方向。正如史蒂夫·劳尔在大数据时代一文中所言，尽管警告，但没有回头路可走。大数据已经处在驾驶者位置。它就在哪儿，他是有用的、有价值的，甚至可能更好[7].

相关内容推荐