数据挖掘技术与水文现代化间的关系

随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。

用数据库来存储数据,用机器学习的方法来分析数据,挖掘大量数据背后的知识,这两者的结合促成了数据挖掘的产生。数据挖掘是一门交叉性学科,涉及到人工智能、机器学习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等等多个领域。数据挖掘技术包括算法和技术,数据、建模能力3个主要部分。

数据挖掘的演进过程

数据挖掘其实是一个逐渐演变的过程。电子数据处理的初期,人们就试图通过某些方法来实现自动决策支持,当时机器学习成为人们关心的焦点。尔后,随着神经网络技术的形成和发展,人们的注意力转向知识工程,专家系统就是这种方法所得到的成果。

20世纪80年代,人们在新的神经网络理论的指导下,重新回到机器学习的方法上,并将其成果应用于处理大型商业数据库,而且出现了一个新的术语——KDD(Knowledge discovery in database,泛指从源数据中发掘模式或联系的方法)。人们用KDD来描述整个数据发掘的过程,包括最开始的制定业务目标到最终的结果分析,而用数据挖掘(Data mining,简称DM)来描述使用挖掘算法进行数据挖掘的子过程。DM侧重数据库角度,KDD侧重人工智能角度[1]。

数据挖掘的核心模块技术历经了数十年的发展,其中包括数理统计、人工智能、机器学习。数据挖掘技术在当前的数据仓库环境中进入了实用阶段。

数据挖掘的定义

数据挖掘的定义为“从数据库中发现隐含的、先前不知道的、潜在有用的信息”,是在数据库技术、机器学习、人工智能、统计分析、模糊逻辑、人工神经网络和专家系统的基础上发展起来的新概念和新技术,是指从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含的、未知的、潜在的、有用的信息和知识的过程。更广义的说法是[2]:数据挖掘意味着在一些事实或观察数据的集合中寻找模式的决策支持过程。

数据挖掘与传统分析(如查询、报表、联机应用分析)的本质区别是,数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先未知、有效和可实用3个特征。先前未知的信息是指该信息是预先未曾预料到的,即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。

马克威分析系统简介

马克威分析系统是中国第一套完全自主知识产权,集统计分析、数据挖掘和网络挖掘于一体的数据分析系统。它可以与现有的信息管理系统(MIS)进行集成,在保护现有设备的情况下,节约数据挖掘项目的开支。该系统由数据输入、数据处理、统计分析、数据挖掘、统计制图和电子报表等六大功能模块组成,各模块特点为:

(1)灵活多变的数据输入方式。输入方式包括从界面直接输入、直接打开数据文件、使用数据向导将数据库中的数据导入到分析平台上等,并且与所有主流数据库实现了无缝连接,例如Oracle、DB2、Sybase、SQLServer、Mysql、Informix、Access等。

(2)丰富的数据处理功能。包括数据合并、数据拆分、插入或删除记录、记录处理、权重设置、多维查询、分类汇总、数据抽样、变量计算、缺失值填充、异常值删除、记录排序、变量类型转换、行列转换、随机数生成等。

(3)统计分析是该系统的核心模块之一,有基础统计和高级统计可选。基础统计包括均值分析、交叉表、频率分析、描述分析、一元方差分析、参数T检验、单样本T检验、独立样本T检验、配对样本T检验、相关分析、非参数检验等;高级统计包括回归分析、聚类分析、判别分析、因子分析、时间序列分析、多因素方差分析等。

(4)数据挖掘模块提供了目前市场上较为完备的挖掘方法。包括神经网络、决策树、关联规则、模糊聚类、粗糙集、支持向量机、孤立点分析等。

(5)数据信息的可视化是信息应用的发展趋势。统计制图模块包括直线图、条状图、柱状图、圆饼图、面积图、排列图、误差图、序列图、散点图、自相关图、互相关图、控制图等。

(6)统计报表模块主要针对中国用户。它将主要和常用的报表按照国家统计局的常规模式设定成格式,为用户自动生成表格,包含内设的系统模板以及用户自设的用户模块两类。

水文现代化与数据挖掘

针对我国存在的洪涝灾害、水资源短缺、水环境恶化、水土流失等有关水的问题,水利部提出了从传统水利向现代水利、可持续发展水利转变,以水资源的可持续利用支撑经济社会可持续发展的治水新思路,并对水利现代化提出了基本要求[5]。

水文现代化

水文现代化是水利信息化的基础。数字水文系统就是利用数据库技术建立完善的信息处理和存储体系;利用海量数据库和数据挖掘技术建立信息提取和分析体系;利用地理信息系统等工具建立气象、水文、地形地貌、植被、土壤水分、人类活动影响措施等信息的空间分布数字体系;利用中尺度数值预报模式和分布式水文模型建立数字化的空间和时间分布预报体系;依托网络、地理信息系统和数据库等技术,建立为防汛决策、专业应用、电子政务等提供决策支持的信息应用与服务体系。其核心在于如何形成数字化的、覆盖整个指定地域空间的、多重时空尺度的、多种要素的、对水文分析有用的数据产品。

对于水文现代化而言,要形成与水利信息化相适应的信息服务能力,必须大力建设水文信息数据库,使之成为水利信息资源的重要组成部分,包括两层含义:一是要丰富数据库的内容;二是要对水文部门内部的各类信息资源进行集成,形成有一定聚合度和服务目标的水文信息资源。分散在一个个单独部门的水文数据很难形成可以被开发利用的资源。

实施数据挖掘

实施数据挖掘一般的步骤是:提出和理解问题→数据准备→数据整理→建立模型→评价和解释[2]。

实施数据挖掘应从以下3个方面加以考虑:一是用数据挖掘解决什么样的行业问题;二是为进行数据挖掘所做的数据准备;三是数据挖掘的各种分析算法。

数据挖掘的分析算法主要来自于统计分析和人工智能(机器学习、模式识别等)两个方面。数据挖掘研究人员和数据挖掘软件供应商在这一方面所做的主要工作是优化现有的一些算法,以适应大数据量的要求[4]。

数据挖掘最后是否成功,是否有经济效益,数据准备至关重要。数据准备主要包含两个方面:一是从多种数据源去综合数据挖掘所需要的数据,保证数据的综合性、易用性、数据的质量和数据的时效性,这有可能要用到数据仓库的思想和技术;另一方面就是如何从现有数据中衍生出所需要的指标,这主要取决于数据挖掘者的分析经验和工具的方便性。

3.3 数据挖掘中存在的问题

(1)数据挖掘的基本问题在于数据的数量及维数,数据结构也因此显得非常复杂,如何选择分析变量,是首先要解决的问题。

(2)面对积累起来的大量数据,现有的统计方法等都遇到了问题,人们直接的想法就是对数据进行抽样。怎么抽样,抽取多大的样本,又怎样评价抽样的效果,都是需要研究的问题。

(3)既然数据是海量的,那么数据中就会隐含一定的变化趋势,在数据挖掘中也要对这个趋势作出应有的考虑和评价。

(4)各种不同的模型如何应用,其效果如何评价。不同的人对同样的数据进行挖掘,可能产生差异很大的结果,这就存在可靠性的问题。

(5)数据挖掘涉及到数据,也就涉及了数据的安全性问题。

(6)数据挖掘的结果是不确定的,要和专业知识相结合才能对其做出判断[1]。

水文数据挖掘

水文综合数据库系统与服务平台(水文数据中心)是以现代技术手段向用户提供优质、高效水文信息共享服务的基本保障[5]。信息获取与分析技术的快速发展,特别是遥测、遥感、网络、数据库等技术的应用,有力地促进了水文数据的采集和处理技术的发展,使之在时间和空间的尺度及要素类型上有了不同程度的扩展。由于水在人类生存发展中的特殊作用,因此应用各种新技术获取水文数据,挖掘蕴藏于水文数据中的知识,已成为水文科学发展的新热点。

水文数据挖掘可以应用决策树、神经网络、覆盖正例排斥反例、概念树、遗传算法、公式发现、统计分析、模糊论等理论与技术,并在可视化技术的支持下,构造满足不同目的的水文数据挖掘应用系统。

据统计,我国水文整编资料数据累计量已超过7 GB,加上进行水文预报所需的天气、地理等数据,进行水文分析所需要处理的数据量很大。沿用传统的技术工具和方法,从这些数量巨大、类型复杂的数据中及时准确地挖掘出所需要的知识,必然会因为计算能力、存储能力、算法的不足而无能为力,因此需要高效的水文数据挖掘技术。

数据仓库能把整个部门的数据,无论其地理位置、格式和通信要求,统统集成在一起,便于最终用户访问并能从历史的角度进行分析,最后做出战略决策。数据挖掘技术可从大量数据中发现潜在的、有价值的及未知的关系、模式和趋势,并以易被理解的方式表示出来[3]。

需要强调的是,要想真正做好数据挖掘,数据挖掘工具只是其中的一个方面,数据挖掘的成功要求对期望解决问题的领域(如水文领域)有深刻的了解,理解该领域要素数据的属性,了解其采集的过程,同时还需要对该领域的业务有足够的数据分析经验。

免费
试用
登录
注册
服务
热线
微信
咨询
返回
顶部