2012年第4期 福建 电脑 61 数据挖掘技术应用领域分析探讨 黄广萍 (广西农业职业技术学院广西南宁530007) 【摘 要】:主要从数据挖掘技术的产生、经典的成功案例、应用的领域及现状、存在的问题 以及发展的前景、对数据挖掘领域做概述。 【关键词】:数据挖掘、技术、应用 一、引言 击治理毒品.减少抢劫案件的发生概率.取得明显 上世纪6O年代.由于计算机的主要应用领域 效果;在电邮中加新闻,既避免了客户流失。又为 从科学计算转移到数据事务处理.促使数据库技 消费者和卖家带来价值.一些看似不相关.但又实 术应运而生,使数据管理技术出现了一次飞跃。近 在发生作用的决策.其实都是成功运用数据挖掘 些年来.人们利用信息技术生产和搜集数据的能 的结果。 力大幅度提高,千万个数据库被用于商业管理、政 四、数据挖掘技术在各领域的运用 府办公、科学研究和工程开发等等,这一势头仍将 4.1在军事科研上的应用 持续发展下去。于是,一个新的挑战被提了出来: 数据挖掘技术最早应用在天文学上.由机器 在这被称之为信息爆炸的时代.信息过量几乎成 学习、类型辨识及统计等技术。在短短四小时内所 为人人需要面对的问题。如何才能不被信息的汪 发现的行星胜过20多位天文学家4年的研究成 洋大海所淹没从中及时发现有用的知识.提高信 果。数据挖掘技术不断地为科学研究寻找突破口, 息利用率呢?要想使数据真正成为一个资源.只有 为气象的研究.生物技术的研究等提供了有力的 充分利用它为自身的业务决策和战略发展服务才 工具。 行。否则大量的数据可能成为包袱.甚至成为垃 在现代战争中.信息化战场是战争的重要组 圾。面对“人们被数据淹没。3A'1却饥饿于知识” 成部分 数据挖掘之所以被广泛运用于信息化战 的挑战。数据挖掘和知识发现技术应运而生,并得 场。就在于其具有预测和描述两大功能。预测是根 以蓬勃发展.越来越显示出其强大的生命力。 据已有的数据模样和专家知识建立识别模式.预 二、数据挖掘的概念 测其趋势和结果。信息化战场由一系列瞬时事件 所谓数据挖掘.就是从大量的数据中挖掘出 组成.数据挖掘能发现已有的数据库与新近发生 隐含的、未知的、用户可能感兴趣的和对决策有潜 的战场事件问的联系。预测将要发生的事件.这对 在价值的知识和规则。数据挖掘又称为数据库中 夺取战场决策优势和行动优势至关重要。描述是 知识发现,是一个多学科交叉研究领域.涉及到机 信息推演信息.揭示已有信息更深层的内在表达, 器学习、数理统计、神经网络、数据库、模式识别、 指从现实数据库中发现和抽取未知的、有价值的 粗糙集和模糊数学等相关技术 和可理解的模式。信息。既反映表象,又反映本质。 三、经典案例 . 只有把信息放在相关联的环境中.通过挖掘发现 一些成功运用数据挖掘的案例.显示了其强 反映事物本质的。伊拉克战争开始前,美军就 大生命力:数据挖掘中经典的成功案例一“啤酒与 利用其高技术信息情报手段.对伊拉克进行了长 尿布”的故事.美国沃尔玛连锁店超市.将尿布和 期、全面和深入的监视与情报收集工作,掌握了大 啤酒摆在一起出售.结果使尿布和啤酒的销量双 量政治、经济和军事情报.以此为基础,通过数据 双增加了.这就是因为利用了数据挖掘技术对大 挖掘.美军对各种作战方案进行了充分论证和演 量的历史数据进行分析的结果。后经调查发现。美 练。战前.美总部还利用数据挖掘等技术制定 国的年轻丈夫经常在下班后为小孩买尿布.而在 了联合一体化目标清单.其中包括多达25240个 买尿布又随手买了他们喜欢的啤酒 还有通过打 攻击目标.仅针对伊领导集团及其控制能力的目 62 福 建 电脑 2012年第4期 标就有4559个.在战争巾.美利用庞大的情报侦 款的客户.以采取相应的贷款方案 用聚类的方法 察网继续大规模收集情报.并与以前数据库融合. 将申请人分为高度风险申请者.巾度风险申请者. 挖掘出许多新的信息.预测敌方可能的行动.为其 低度风险申请者:利用关联规则和序列模式发现 让世人惊异的高速突击作战提供了有力保证 今天银行调整利率.明天股市的变化情况:利用预 测的方法对未来经济发展做出判断.指导利率的 目前.我国大巾型医院都建立了医院信息系 调整.在银行的100万笔交易中有500例的欺诈 统(HIS).它可以对大量医疗数据进行交流共享 行为.银行为了稳健经营.就要发现这500例的内 4.2在教育、医疗服务上的应用 和查询.随着大型医院信息管理系统的发展,有关 在因素.减小以后经营的风险.就可以运用利用偏 病人和疾病的数据日益增多.利用数据挖掘技术 差的检测。 4.4其他 在庞大的数据中发现有用的信息,更充分地利用 这些信息.就可以为广大患者提供更有效的服务. 近年来.随着信息技术的发展.我国网站 并能发现医院运作的基本规律.预测医院发展的 建设得到了迅猛的发展.网站的作用除了作 趋势,为管理者决策提供有价值的信息.为发展新 为实现政务信息公开.服务企业和社会公众 的医疗方法提供理论支持 由于医学信息自身的 参与的平台以外.还有一个重要的作用就是为政 特殊性和复杂性,与常规数据挖掘相比.在挖掘对 府决策提供有效地支持 通过数据挖掘技术对用 象的广泛性挖掘算法的高效性和鲁棒性.提供知 户的建议或投诉文本进行自动分词.采用聚类分 识或决策的准确性方面有着更高的要求.数据挖 析方法,实现对建议或投诉问题的自动分类,再通 掘技术在医学上的应用将会出现更多亟待解决的 过数据挖掘技术实现数据的二次聚类.进行关联 问题.随着数据挖掘技术的不断发展.数据挖掘在 性分析,最终形成分析报告.发出预警预测信息 医学领域中将有更重要的实用价值和更为广阔的 达到为决策提供有效支持的目的此外.数据 发展前景。 挖掘技术在诸如公共气象服务中.在通信行业中 随着信息化的深入.教育信息化带来了信息 也得到了有效的利用数据挖掘技术在企业中的应 量的迅速增长和对信息提取的更高要示.我们很 用目前主要集中在市场推广方面.应用于工业制 难再按照传统方法在如此大量的数据中寻找决策 造生产流程还处于理论研究和初步实践阶段 的依据.数据挖掘技术的发展给我们带来了很好 五、存在问题 的工具去发掘数据中隐藏的规律或模式.为教育 尽管数据挖掘有如此多的优点和应用.但数 教学决策提供科学依据 数据挖掘技术可以应用 据挖掘也面l临着许多的问题。首先.数据挖掘对计 于教育信息化的各个方面如教学评价.合理设置 算机的性能和理论算法要求高 海量的数据存放 课程,指导学生选课,进行学习者特征分析,实现 在大型的数据仓库中.对其进行未经引导的搜索 网络教育个性化与智能化 4.3在商业金融上的应用 将导致计算机长时间的工作.对计算机的性能要 求高。另外.面对如此大的数据,现有的统计方法 数据挖掘所要处理的问题.就是在庞大的数 等都遇到了问题.如何对数据进行抽样.怎么抽 据库中找出有价值的隐藏事件.并且加以分析.获 样.抽取多大的样本。又怎么评价抽样的效果,这 取有意义的信息.归纳出有用的结构。作为企业进 些都是尚待解决的难题 行决策的依据。其应用非常广泛,只要该产业有分 其次数据挖掘的结果是不确定的.要和专业 析价值与需求的数据库,皆可利用Mining工具进 知识相结合才能对其做出判断.数据挖掘的目的 行有目的的发掘分析 商家从顾客购买商品中发 不是要求发现放之四海皆准的真理.不是去发现 现一定的关系.提供打折购物券等,提高销售额; 崭新的自然科学定理和纯数学公式,更不是机器 保险公司通过数据挖掘建立预测模型.辨别出可 定理证明 数据挖掘得到的知识是相对的,由特定 是面向特定领域的,由此也要求 能的欺诈行为,避免风险.减少损失,提高利润;电 前提和约束条件.子商务的作用越来越大.可以用数据挖掘对网站 数据挖掘的结果必须是易于理解的.最好能用自 进行分析,识别用户的行为模式.保留客户,提供 然语言来表达 总之.数据挖掘只是一个工具,不是万能的, 个性化服务.优化网站设计。 例如:银行部门根据以前的数据将客户分成 它可以发现一些潜在的用户.但是不会告诉你为 下转第81页) 了不同的类别.就可以根据这些来区分新申请贷 什么,也不能保证这些潜在的用户f2012年第4期 福 建 电脑 81 数据集 事务数个数 事务属性数 属性初始值数 l l000 20 50 2 2000 20 50 由测试结果.在两组实验中我们可以很清楚 3 3000 20 50 地看到我们改进的newApriori算法在相同硬件和 4 4000 20 50 软件条件下.时间上远远少于用传统Apriori算 法。实验结果表明。我们的改进方法能很好地提高 表3.1实验数据集 关联规则算法的时间效率。 实验分为两组.最小支持度设置为3%。 首 4、结束语 先我们先用传统的Apriori算法对实验数据集进 本文为了使算法适合挖掘大数据集.通过改 行频繁项集挖掘,记录其挖掘时间。与我们改进的 进的Apriori算法对数据进行关联挖掘.采用了数 newApriori算法进行时间上的比较。实验数据由 据库分割技术,挖掘出大量数据。实验表明了,这 表3.2与图3.3给出。 种方法确实能够比较有效地挖掘出我们日常生活 实验 传统Apriori算法所 改进newApriori 中经常见到的体裁类别的特殊表达方式.并且对 数据集 用时间(s)秒 算法所用时间(s) 算法做了一个比较.证明了我们改进的算法在时 t.1 l l135.9s 29.6S 间效率上比原始的Apriori算法有很大的提高 2 l809.4s 48.0s 3 2850.8s 83.4s 参考文献: 4 3846.2s l30.5s 『11罗可,郗东妹.采掘有效的关联规则.小型微型计算机系 表3.2两个算法时间效率上的比较 统,2005(8),1374—137. [2】陈建文.数据挖掘算法及应用研究p】.重庆:重庆大学, 2001. 【3】(加)Jiawei Han,Micheline Kamber著.范明等译.数据挖 掘:概念与技术.北京:机械工业出版社.2001.8 【4】颜雪松、蔡之华一种基于Apriori的高效关联规则挖掘 算法的研究计算机工程与应用2002.10 1002—8331一 (2002)10—0209—03 209—21 1 [5]Peter Cabena,Discovering Data Mining From Concept to Implementation,IBM,1997 (上接第62页) 成为现实.数据挖掘的成功要求对期望解决问题 到的是.大型连锁商店和高科技制造产业也将成 的领域有深刻的了解,理解数据,了解其过程.才 为应用数据挖掘技术的重要领域.数据挖掘技术 能对数据挖掘的结果找出合理的解释 必将得到更为广泛,更为深入的应用。 六、总结 目前,无论厂商、集成商还是学术界.基本上 参考文献: 都认同一个观点,即:数据挖掘在技术上已经趋于 [11范明,范宏建数据挖掘导论[】M]北京:人民邮电出版社 成熟,现在更重要的就是如何拓展行业应用.数据 [2]Feldman R.Dagan I Knowledge ̄scovery intextual 挖掘技术已经到了一个普及化的阶段。从行业应 databases(KDT)[c】.Montreal,Canada,progof 1st INt l Conf 用来看,目前大多数的用户都来自电信、银行、保 on Knowledge Discovery andData Mining,1995. 险、税务等领域。应用主题则主要包含:消费者行 [3】姜代红数据挖掘用其在HIS系统中的应用Ⅱ】.电脑与 为分析、信用评分与风险管理、欺诈行为侦测、购 信息技术.2004 物篮分析等方面。综合国内外的发展趋势.可以看 『41田卉用数据挖掘技术构建智能化网络投诉平台 IJl ̄C务办公.2009