首页 >> 图书情报学 >> 文献研究
从数据挖掘偏差到文献计量偏差
2018年03月22日 09:34 来源:《情报理论与实践》 作者:王冰璐 步一 等 字号
关键词:数据挖掘;数据挖掘偏差;文献计量学;文献计量偏差

内容摘要:通过相关研究综述了数据挖掘偏差的概念、研究进展以及发展方向,并以数据挖掘的基本步骤类比文献计量的基本步骤,进而提出文献计量偏差的基本概念。

关键词:数据挖掘;数据挖掘偏差;文献计量学;文献计量偏差

作者简介:

  作者简介:王冰璐(1995- ),女,北京大学信息管理系,研究方向:信息计量学,科学计量学,引文分析;步一(1994- ),男,印第安纳大学信息学与计算机学院博士生,研究方向:信息计量学,科学计量学;徐扬(1981- ),男,北京大学信息管理系博士,副教授,研究方向:知识管理,知识表示;刘姝雯(1996- ),女,北京大学信息管理系,研究方向:知识管理。北京 100871

  内容提要:[目的/意义]互联网的迅猛发展使得信息量增速不断加快。作为从海量数据中发现有用知识的有力手段,数据挖掘成为近年的研究热点。然而在数据挖掘过程中,输出值和真实值之间往往存在着一定的差距,即数据挖掘偏差。[方法/过程]通过相关研究综述了数据挖掘偏差的概念、研究进展以及发展方向,并以数据挖掘的基本步骤类比文献计量的基本步骤,进而提出文献计量偏差的基本概念。从文献来源选取、文献数据预处理、文献计量方法选取和计量结果解读4个角度重点论述了文献计量偏差的主要表现方式和解决办法。[结果/结论]文章旨在呼吁未来该领域的相关研究关注文献计量偏差及其带来的负向影响,并期望相关研究能够通过科学方法避免文献计量偏差,从而得到更为准确和可靠的结论。

  关 键 词:数据挖掘 数据挖掘偏差 文献计量学 文献计量偏差

  随着计算机、互联网以及数字通信技术的不断发展,各行各业都积累了海量的数据,并且数据的数量仍在不断增长之中。奥地利数据科学家维克托·迈尔—舍恩伯格曾指出:“数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,绝大部分都隐藏在表面之下。”因此,数据挖掘(Data Mining)作为对观测到的数据集进行分析、发现数据内在联系与形成支持决策有用知识的重要手段,成为了当前的热门研究领域。

  不过,由于数据质量、研究主观性和数据环境等诸多问题,在数据挖掘的实际过程中挖掘的输出值和真实值之间往往存在一定的偏差,即数据挖掘偏差。过大的数据挖掘偏差会导致挖掘发现的知识对决策的意义并不大,甚至产生一定的负面影响。然而,数据挖掘着力发现数据中隐藏的、往往以前未知的知识,因而其发现知识的精确性往往难以得到证实,其结果的偏差容易被人们所忽略。因此,对数据挖掘偏差进行研究有利于提高知识发现的合理性和可靠性,具有相当重要的意义。

  文献计量学是以文献或文献相关媒介为研究对象,采用数学、统计学等计量方法,研究文献和文献工作系统的数量关系和规律,以及探讨科学技术动态特征的一门学科[1]。与数据挖掘类似,文献计量也是从文献的相关数据中进行分析,并发现规律和知识。因此,文献计量也存在着产生偏差的可能性。

  本文基于对数据挖掘偏差的概念、研究进展和未来发展方向的梳理,创新性地提出了文献计量偏差的概念及其产生原因,号召研究者关注偏差的存在,着力减少偏差的产生,力图推动文献计量研究朝着更为准确可靠的方向发展。

  1 数据挖掘偏差

  数据挖掘是从大型数据集(可能是不完全的、有噪声的、不确定性的、各种存储形式的)中,挖掘隐含在其中的、人们事先不知道的、对决策有用的知识的过程[2]。而偏差是指模型预测值(或平均值)期望值与正确值之间的差距[3]。Aronson曾提出,数据挖掘偏差是指在最佳规则选取情况下,被观察到的性能与其预期性能之间的差异[4],即在数据挖掘过程中模型的输出值与真实值之间的差距,其本质上是过拟合或过度优化问题[5]。对数据挖掘偏差研究最早可追溯到20世纪90年代,目前相关研究数量相对较少。

  数据挖掘偏差与数据挖掘方差存在着一定的差异。在统计学中,方差是各个数据分别与其平均数之差的平方和的平均数。数据挖掘方差是指在数据挖掘的过程中,给定某个数据点,模型的每一次预测值的变化范围。FortmannRoe曾对二者的概念进行了图形示意,如图1所示[3]。在图1中,靶心代表数据挖掘的真实值,点的分布越靠近靶心,即代表输出值越接近真实值,偏差越小;反之,越远离靶心则代表偏差越大。点的分布越聚集意味着其变化范围越小,则方差越小;点的分布越分散则其波动越大,意味着方差越大。图1的横向维度展现方差,纵向维度展现偏差。可以看出,数据挖掘方差主要用来刻画模型的离散程度和模型的稳定性,而数据挖掘偏差主要用来刻画模型的精确程度和准确性。

  

图1 数据挖掘偏差和方差的图形示意

  数据挖掘偏差产生的原因主要表现在以下4个方面:

  1)数据质量较差。数据挖掘以数据为处理对象,因此数据的质量也关系着数据挖掘的效果。数据错误、数据遗漏、数据异构和数据集偏置等质量问题会导致数据挖掘偏差的出现[6-7]。很多项目由于开始未经过周密的数据质量检验,导致通过数据挖掘建立的模型有偏差,甚至结果完全错误[8]。在实际操作中,对数据进行预处理和质量检验非常重要。

作者简介

姓名:王冰璐 步一 等 工作单位:

转载请注明来源:中国社会科学网 (责编:毕雁)
W020180116412817190956.jpg
用户昵称:  (您填写的昵称将出现在评论列表中)  匿名
 验证码 
所有评论仅代表网友意见
最新发表的评论0条,总共0 查看全部评论

回到频道首页
QQ图片20180105134100.jpg
jrtt.jpg
wxgzh.jpg
777.jpg
内文页广告3(手机版).jpg
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们