学术堂首页 | 文献求助论文范文 | 论文题目 | 参考文献 | 开题报告 | 论文格式 | 摘要提纲 | 论文致谢 | 论文查重 | 论文答辩 | 论文发表 | 期刊杂志 | 论文写作 | 论文PPT
学术堂专业论文学习平台您当前的位置:学术堂 > 计算机论文 > 计算机应用技术论文

探讨运用Wiki技术和主题搜索技术构建新型科普教育平台

来源:学术堂 作者:周老师
发布于:2014-04-03 共1876字

论文摘要

  1、平台的功能结构设计

  基于社会计算的科普教育平台是一个面向科普领域的开放平台,主要由社会化科普信息搜索和科普 Wiki 两大部分构成。面向科普领域的社会化搜索旨在向用户提供精准的科普信息检索,具体包括用户查询、科普信息检索、和社会化结果展示三部分。科普 Wiki 模块利用 Wiki 技术,允许平台中科普领域任何人添加和修改科普领域的术语词条,从而日积月累逐渐形成一个完整严密的和相对权威的专业科普领域知识库。该模块包含用户管理、问题提交、学习讨论、协作共创、页面管理、科普知识编辑等六部分。此平台为用户提供了网上学习交流、协作共创和问题解决的环境,更为透明的搜索服务,允许用户对搜索结果进行评价,通过对搜索结果进行评分能够影响对结果的排序。

  2、关键技术

  2.1 社会化科普搜索引擎设。

  本文提出的社会化科普搜索引擎主要强调两方面设计 :(1)科普领域数据采集器的设计 ;(2) 社会化检索机制设计。

  2.1.1 科普数据采集器

  科普数据采集器主要完成从网络中抓取科普领域信息并入库的工作,是一种面向领域的主题爬虫。图 2 所示为采集器架构图。其中,科普领域信息分类器是采集器的核心组件,负责主要的科普网页分类工作。为提高爬取效率,本文同时添加种子域名判断组件,用以实现站内页面预判,减少分类器开销。

  2.1.2 科普领域信息分类算法

  科普领域信息覆盖度大,内容繁杂,比如天文、地理、自然、科技等类别均属于科普信息。为处理如此粗粒度的分类问题,本文将科普领域信息进行细粒度划分,提出多细粒度分类器融合的集成分类方法。其基本思想是 :给定一待分样本,由科普领域细粒度分类器为其打分(0 或 1),最后汇总得分,分值高于某一阈值则认为该样本属于科普领域。本文选择支持向量机 (SVM) 作为细粒度分类器的分类算法,该算法是目前已知分类效果非常好的一种文本分类算法,具体实现上本文选用开源的 LibSVM。

  2.1.3 分类器准确率实验

  本文选择百度百科作为细分科普领域信息的依据和训练样本数据源。本次实验选择其开放分类中的天文、历史、地理、自然、科技等几个大类作为科普细分类别,从百度百科中抽取各类别下子类的 top-50 的词条用作训练样本,共得到 10000 篇科普类样本。对于细分非科普类,本文以搜狗互联网分类语料库中的非科普类子类目录为依据,从各子类中随机选取非科普训练样本,同样得到 10000 篇语料作为非科普类样本集。两者合计共 20000篇用作实验的开放测试数据集。

  本文选择保持(Holdout)方法对各细分分类器进行训练,其中训练集和检验集的划分比为 2:1。选择常用的准确率、召回率和 F-Measure 作为科普分类器的评价指标。经计算,本系统科普领域分类器的各项指标结果如下 :

  由此可知,本文基于多细粒度分类器融合的集成分类器具有较高的分类性能,准确率和召回率均达 90% 以上。

  2.1.4 基于 Lucene 的社会化检索机制

  Lucene 是一个开放源代码的全文检索引擎工具包,提供了完整的查询引擎和索引引擎,具有索引文件格式独立于应用平台、优秀的面向对象架构、分块索引、语言和文件格式易于扩展等诸多优点。基于 Lucene 的检索框架,本系统将社会化搜索的概念引入到科普信息检索中,在 Lucene 的相关度评分机制上引入社会因子,使搜索结果更加社会化。社会因子起到人为调节结果权重的作用,允许用户对搜索结果打分。这种评分机制,使得社会化科普信息搜索能够更个性化地对结果排序,从而为用户提供更好的检索体验。

  2.2 科普 Wiki 的实现

  基于维基百科的理念,本系统采用 JSPWiki 引擎设计并实现科普 Wiki 模块。JSPWiki 本身自带了身份认证、版本控制等基本功能。在其基础上,本文添加各项教育相关的子功能,如科普教学中的问题提交功能,允许注册用户提交各种科普问题,其他注册或非注册用户可以对所浏览问题进行回答。本系统以文本文件的形式存储用户产生的各种数据,为了方便用户权限管理,采用MySQL 存储用户信息。

  3、小结

  基于社会计算,本文综合运用社会化搜索技术及 Wiki 技术,设计并实现了一个面向科普领域的教育平台。该平台主要包括社会化科普信息搜索和科普 Wiki 两大模块。在科普领域数据采集中,本文设计采用人工干预与先采集后过滤相结合的爬取策略,提出多细粒度分类器融合的集成分类方法进行数据过滤。实验表明,该方法对于科普领域具有较高的分类性能。本文在检索部分引入社会因子,允许用户对搜索结果打分,从而为用户提供更个性化的搜索服务。同时基于维基百科的理念,采用 JSPWiki 引擎实现一个科普 Wiki,可供用户添加、编辑、评论科普信息,自创科普资源,提升自主学习能力。本平台对于推进全民科普、提升素质教育具有重要意义。(参考文献与图标略)

相关标签:科普论文
  • 报警平台
  • 网络监察
  • 备案信息
  • 举报中心
  • 传播文明
  • 诚信网站