从科学方法的变革和哲学思考探究大数据方法 李世宇 摘要:信息与网络技术的迅猛发展给人们存储数据带来了极大便利,在这一背景下数据已逐步由量变转为质变,“大数据”概念应 运而生。成为当下各行各业学者研究的焦点。本文在简述大数据涵义与方法的基础上分析了大数据方法及其改革,立足于科学方法变革与 哲学思考角度提出大数据方,并进一步探究大数据的核心特征及其意义,以期为当下的大数据方法研究提供一定的借鉴价值。 关键词:科学方法变革;哲学思考;大数据方法 1998年.生物化学家托尼・卡斯在《大数据管理者》一文中首次 提出“大数据”概念,并在2008年“大数据”专刊后迅速爆发,成为 社会各界积极研究的热点课题。大数据的爆发带来了第二次数据, 在实现万物皆数理念的同时开启了数据发展的第三个阶段,同时在科学 研究当中,数据作用、地位的改变也引发了诸多哲学问题,使得大数据 研究逐渐被纳入到科学、哲学领域当中。 一、大数据的概述 (一)内涵。首先,大数据是一门数据科学,它借助数据挖掘等方 式来对海量数据这一研究对象的内在规律进行挖掘,所研究的内容涉及 到不同科学领域当中的所有共性数据问题,在找出数据规律的基础上解 答相关的科学问题;其次,大数据是一个技术平台,与常规的数据不 同,大数据的数据收集、提取、存储、分析都离不开软件与硬件的支 持,这些技术共同构成了大数据分析的技术平台;再次,大数据是一种 研究方法,它涉及到生物医学、生物信息学、自然灾害预报等科学,科 学在大数据背景下正逐步走向数据密集型科研;最后,大数据是一项潜 在的资源,根据相关报告,大数据在医疗领域每年所创造的价值将高达 300亿美元,且将会使零售业的利润提高一半以上。 (二)方法。大数据中的数据挖掘主要采取分类、关联分析、聚类 分析、异常检测技术。其中,分类是根据数据学习得出将自变量对应到 因变量以实现自变量分类的分类模型;关联分析是对海量数据当中关联 规则等有意义数据关系的发现;聚类分析是把海量数据划分为同簇对象 相似性高、异簇对象极不相似的多个有意义的簇;异常检测是找出离群 点的过程。 二、大数据方法及其改革 (一)与传统模型方法的区别。部分学者在研究过程中将模型划分 为两类,即物质形式和思维形式的科学模型,前者根据模型来源的不同 分为天然模型与人工模型;后者依据模型特点的差异分为理想模型、数 学模型、理论模型以及半经验半理论模型。通过对比分析得出,大数据 模型不同于传统数据模型,它不具有物质形式,是没有抽象过程的数据 运算,且其算法同数学模型的得出过程大不相同,因此大数据模型并不 属于以上的科学模型,而是一种新型的经验模型。 (二)与统计建模的区别。数据挖掘在模型方法上虽然很接近统计 学,但其与统计建模仍存在本质差异。表现在:1.研究地位。前者的 数据模型是科学研究的主角并担当了科学理论角色,而后者一般是经 验、理论研究当中的配角、检验者;2.数据类型。前者的数据是类型 复杂、质量偏低的海量数据,后者则是精心设计、高质量的实验数据; 3.模型确立。前者借助海量数据确立模型且其目标变量具有不明确性, 后者依据研究问题确立模型且有明确的目标变量;4.建模驱动。前者 采用强调建模过程、模型可更新性的数据驱动,而后者则采用强调设 计、验证合理性的验证驱动。 (三)与计算机仿真的区别。计算机仿真包含了由模型建立、仿真 模型建立和仿真实验所联系的系统、系统模型以及计算机三要素。大数 据方法与计算机仿真方法的区别主要表现在:1.研究对象。前者的研 究对象为海量数据,后者则面向依据系统建立的数学模型;2.推理逻 辑。前者为数据归纳,后者为演绎计算;3.自动程度。前者为计算机 自动进行,后者的计算机仅仅在仿真实验环节采取自动进行;4.说明 力度。前者相比较后者具有更高的说明力;5.角色地位。前者在科学 研究中占据了主体地位,而后者则担当实验角色;6.基础设施。前者 包括传感器、网络设施等,后者通常只涉及一台或多台计算机。 三、大数据的方 (一)逻辑维度。科学论证从逻辑角度来看可分为归纳和要求前提 决定性支持结论的演绎。在大数据分类当中使用得最为广泛的方法是由 包括根节点、叶节点、内部结点的结点与由向边构成的具有层次性的决 策树。其中根节点、内部结点主要由数据集中属性组成而叶节点则由类 标号所组成,由向边是在归纳已有数据的基础上所得出的,其归纳方法 包括求同法和求异法。与其他算法的原理相同,决策树也是根据数据集 中提取分类模型来完成分类的。 (二)主体维度。传统科学定律的理解主要来自于规则性进路的恒常 联系、心理习惯以及必然性进路的必然陛,根据大数据模型可预测的、依据 相关算法与数据得来、不具有必然性的特征可以得出大数据不属于演绎系 统,不符合系统进路与必然性进路,但其预测性使得其符合心理习惯进路。 因此,大数据模型与物理定律可应用在不同的领域当中。 (三)内涵维度。作为大数据哲学及其方法研究当中的一个焦点问 题,因果关系、相关关系的研究目前在业界还没有统一的定论。大数据 因果、相关的考量目前需要研究的主要包括大数据方法是不是仅能获得 相关关系、相关关系可否在科学角色中取代因果关系这两个问题。 方面,大数据算法虽然包含了消除归纳法,但无法体现因果性所 严格强调的充分条件当中的必要条件,不能完全确定其因果性。由此可 见大数据方法仅能发现相关关系,只有在具备具体模型的情况下才能发 现相关关系。另一方面,第二个问题对因果、相关关系间的对立隐含了 假设,实际上针对科学、定律、因果说明目前还存在争议,根据大数据 符合心理习惯进路、不符合系统与必然性进路可得出在仅认为定律是心 理习惯的情况下才可科学说明大数据的相关关系并代替因果性。 (四)功能维度。大数据的功能主要包括对既有数据模型的描述和 预测。从描述角度看,大数据方法因无法发现因果性而不能进行因果说 明,而在定律说明中大数据模型又仅仅符合心理习惯进路,由此可见大 数据模型说明力弱。从预测角度看,大数据模型经过评估、随数据更新 而更新、针对具体问题且海量数据中蕴含的经验信息丰富,使得大数据 预测虽无必然性但预测准确。 一四、大数据的核心特征和意义 科技的进步改变了经验世界,海量的数据使人们的视野更加开拓。 大数据技术超越了人类智力,未来还将逐步突破人们的心理习惯。以说 明力低、预测力高为核心特征的大数据预示了一种全新的科学,相比较 现有的能够借助因果机制、科学定律、模型隐喻类比来说明的科学,大 数据模型利用复杂其计算量大的计算方法从数据形式下的经验世界中直 接获得,在涵盖了经验世界的丰富信息的同时也表现了海量的经验。作 为一种全新的经验表现形式与科学研究类型,大数据同时给科学研究创 造了一种全新的方法。从经验角度来看,大数据实现了无所不在;从方 法角度来看,大数据的核心特征使得其突破了人们的智力与心理习惯; 从科学的角度来看,大数据将会引领现代人们走向一个全新的世界。 五、讨论 随着我国经济水平的快速提升和科技水平的不断进步,一些发达国 家开始逐步制定、实施大数据战略。大数据给科学研究带来了新兴的方 法,通过对海量数据的潜在模式做出描述并在此基础上做出预测,以实 现对数据中富有价值的规律、模型的深人发掘。大数据既是经验表征的 新方法,也是探索经验后的知识的新方式,大数据方法在科学、哲学等 领域当中具有很大的研究前景。(作者单位:江西财经大学马克思主义 学院) 参考文献: [1] 喻国明.大数据方法与新闻传播创新:从理论定义到操作路线 [J].江淮论坛,2014,04:5—7+2. [2] 刘继伟.基于大数据的多尺度状态监测方法及应用[D].华北 电力大学,2013. [3] 肖奎.维基百科大数据的知识挖掘与管理方法研究[D].武汉 大学,2013. Bus_n商ess1.1 1 7・