毕业论文范文网-论文范文
电气工程 会计论文 金融论文 国际贸易 财务管理 人力资源 学前教育 德语论文 工程管理 文化产业 工商管理 会计专业 行政管理 广告学
机械设计 汉语文学 英语论文 物流论文 电子商务 法律论文 工商管理 旅游管理 市场营销 药学论文 播音主持 人力资源 金融论文 保险学
制药工程 生物工程 包装工程 模具设计 测控专业 工业工程 教育管理 行政管理 计算机论 电子信息 市场营销 法学论文 财务管理 投资学
体育教育 小学教育 印刷工程 土木工程 书法论文 护理论文 心理学论 信息管理 公共事业 给水排水 新闻专业 摄影专业 广电编导 经济学
  • 范文首页 |
  • 毕业论文 |
  • 论文范文 |
  • 计算机论文 |
  • 外文翻译 |
  • 工作总结 |
  • 工作计划 |
  • 现成论文 |
  • 论文下载 |
  • 教学设计 |
  • 免费论文 |
  • 原创论文 |
搜索 高级搜索

原创毕业论文

当前位置:毕业论文范文网-论文范文 -> 免费论文 -> 社科论文

数据挖掘中基于统计相关的属性选择研究

作者: 浏览:4次
免费专业论文范文
免费专业论文
政治工作论文
计算机论文
营销专业论文
工程管理论文范文
医药医学论文范文
法律论文范文
生物专业论文
物理教学论文范文
人力资源论文范文
化学教学论文范文
电子专业论文范文
历史专业论文
电气工程论文
社会学专业论文
英语专业论文
行政管理论文范文
语文专业论文
电子商务论文范文
焊工钳工技师论文
社科文学论文
教育论文范文
数学论文范文
物流论文范文
建筑专业论文
食品专业论文
财务管理论文范文
工商管理论文范文
会计专业论文范文
专业论文格式
化工材料专业论文
英语教学专业论文
电子通信论文范文
旅游管理论文范文
环境科学专业论文
经济论文
人力资源论文范文
营销专业论文范文
财务管理论文范文
物流论文范文
财务会计论文范文
数学教育论文范文
数学与应用数学论文
电子商务论文范文
法律专业论文范文
工商管理论文范文
汉语言文学论文
计算机专业论文
环境艺术专业论文
信息计算科学专业
物流专业论文范文
人力资源论文范文
教育管理论文范文
现代教育技术论文
小学教育论文范文
机械模具专业论文
报告,总结,申请书
理工科专业论文
心理学论文范文
学前教育论文范文



毕业论文范文题目:数据挖掘中基于统计相关的属性选择研究,论文范文关键词:数据挖掘中基于统计相关的属性选择研究
数据挖掘中基于统计相关的属性选择研究毕业论文范文介绍开始:
【论文摘要】:计算机存储和数据库管理技术的飞速发展,收集和管理海量数据成为可能;而计算机和数据库管理技术的普及则降低了与之相关的成本,使之成为现实。面对存储量日益增大的各类数据集,为真正满足决策信息获取的需求,从海量数据中挖掘或提取有用信息、规则、模式的各类数据挖掘方法和技术被提出。不相关或冗余噪声数据的存在,以及出于简约建模的考虑,属性选择相关问题也进入人们的视野。属性选择作为数据挖掘的一个数据预处理步骤,或归纳学习算法的一部分,是海量数据建模的一个重要环节,与属性约简一同构成数据挖掘的两种属性变量处理技术。然而,不同于属性约简的通过属性空间投影减少输入属性,属性选择以属性变量与目标属性属性间相关与冗余关系测度为基础,根据事先设定的属性评估准则(或函数)来选择数据挖掘模型所需的输入属性。属性选择结果存在原始属性度量维度的直接缩减,而属性约简则不然,其输出结果是原始属性测度的线性或非线性组合,不存在原始属性度量维度的减少。由于其决定着构建模型的输入属性,所以属性选择方法的性能直接影响着数据挖掘任务算法的输出结果。但是,属性选择方法的性能直接受属性间相关与冗余关系测度方式、属性空间搜索策略和属性评价函数(方式)等三个因素的影响,三因素的不同组合形成不同的属性选择方法,可以获得不同的性能输出。故从属性间关系的测度、属性空间搜索策略和属性评估方法等角度研究属性选择方法对数据挖掘输出性能影响有其直接的理论价值;而数据挖掘研究的应用导向型特点则决定了其不缺乏现实意义。属性关系测度、属性空间搜索和属性评价准则共同构成属性选择的三位一体过程,是属性选择问题的三个核心。属性关系测度的好坏直接表现为由(略..)测度结果所表述的属性间关系的真实与否,是属性评估与选择的基础,对属性选择输出结果有着直接的影响;属性评价准则,作为属性选择的基准,和属性测度一样,均对属性输出结果产生直接的影响;属性空间搜索决定着最优属性或属性子集产生的方式,对属性选择算法的运行时间和空间耗费起决定性影响。本文主要从第一方面问题——不同属性间相关或冗余关系测度对属性选择方法性能影响——着手讨论基于统计相关的属性选择算法对数据挖掘任务输出的影响。本文的研究内容分为六章。第1章引言。首先陈述数据挖掘产生的时代背景和数据挖掘的意义与作用;然后,就数据集中不相关、冗余以及噪声数据的存在,阐述属性选择的必要性和意义,概述属性选择问题研究的发展和其基本特点,并提出本文所要研究的问题。而后,指出文章所要完成的工作,也就是本文可能的创新之处。最后,对文章结构安排进行了阐述。第2章数据挖掘理论评述。本章分为四节,第一节是对数据挖掘的概念和定义的回顾与述评,主要介绍了数据挖掘发展的基本历程,数据挖掘的定义和基本概念,以及数据挖掘知识发现过程等相关内容。第二节是对数据挖掘的任务和功能的综述,主要介绍了数据挖掘的数据描述与建模预测两大基本任务,以及基于两大基本任务的5类基本职能:类/概念描述(Class/conceptdescription)、频繁模式分析(Frequentpatternanalysis)、聚类(Clustering)、分类(Classification)和预测(Prediction)、演变分析(Evolutionanalysis)。第三节是对数据挖掘方法的介绍,主要介绍了本文实证研究中将要采用的5类预测建模方法:线性回归(LR)、朴素贝(文章此处忽略..)叶斯分类(NB)、分类树归纳学习(C4.5)、K近邻(KNN)和神经网络RBF,以及其基本算法。其次,对属性选择相关问题进行了简要概述,包括属性关系的测度、属性空间搜索策略、属性选择流程,以及基于不同测度的属性选择方法。第3章属性选择理论评述。本章分为六节介绍属性选择问题。第一节对属性选择问题进行概述,主要介绍了属性选择的作用和意义,属性选择所需考虑的三个方面,以及属性选择的应用领域。第二节是对属性选择中属性间关系测度的述评,主要介绍了距离测度(Distancemeasures)、信息测度(Informationmeasures)、相依性测度(Dependencemeasures)、分类误差率测度[3]和一致性测度[31]等常用测度,并在此基础上对上述属性间关系测度方法进行了简要评述;最后,对基于属性关系测度的属性评价准则进行了简要说明。第三节介绍了属性选择算法时间和空间耗费有重要影响的属性搜索策略。第四节,对两组概念进行了简要辨析,首先介绍了属性选择与属性约简的异同;而后则对属性选择和模型选择的关系进行了讨论,并指出属性选择实质也是一种模型选择。第五节,介绍了属性选择的基本流程。最后,在第六节简要介绍了属性选择的两种基本方式:过滤式和绑定式属性选择。第4章基于统计相关的属性选择。本章分三节对基于统计相关的属性选择进行了讨论。第一节,对统计相关进行基本设定,首先对Almuallim与Dietterich(1991)、John等(1997)、Bluma与Langley(1997)和Yu与Liu(2004)等从不同角度对属性“相关”和属性冗余的讨论和定义进行了回顾,并在此基础上提出了简单相关和条件相关的定义;接下来介绍了CFS算法中将用到的两类属性相(此处忽略..)关测度:对称不确定性(Symmetricaluncertainty)和Pearson相关,最后,引入适用于数据挖掘任务的V-M属性相关测度,并介绍了不同类型属性间相关关系的计算公式。第二节,首先介绍了Mark(1999,2000)基于统计复合检验理论所提出的属性评估函数Merits,而后考虑属性间间接作用关系的存在,提出一个基于偏相关调整的属性选择评估函数Merits'。第三节是对基于相关的属性选择方法的讨论,首先介绍了Mark(1999,2000)的属性选择方法CFS,随后,提出基于属性间V-M统计测度的属性选择算法SCFS(StatisticalCorrelationbasedFeatureSelection),最后提出基于Merits'测度的属性选择算法PCFS(PartialCorrelationbasedFeatureSelection)。第5章性能分析和评价。本章分四节分别对试验数据、试验方法、试验输出结果、性能分析评价和算法适用性分析进行了讨论。第一节,重点介绍试验数据的选择和试验方法的科学设计。第二节给出三种属性选择算法在79个数据集上的结果输出。第三节,对试验结果的分析评价,试验结果表明,文中所提出的属性选择方法SCFS及其改进PCFS在部分数据集中输出结果优于CFS,但就总体性能而言,要稍弱于CFS。为探究数据集的结构特征和属性选择算法表现之间是否存在直接的关系,文章在第四节以不同属性选择算法输出差异为选择项,数据集的特征为输入自变量建立logistic离散选择模型。模型结果表明,数据集的结构特征和属性选择性能表现之间的关系因挖掘任务模型的不同而有所不同。第6章结束语。本章在总结本文研究过程、主要研究(此处忽略..)结论的基础上,指出了本研究中所存在的不足,改进的可能以及以后的研究方向。本文的主要研究结论是,一方面,基于统计相关的属性选择算法SCFS和PCFS能够有效地完成数据挖掘建模任务中的属性选择任务。在大多数数据域中,算法在不明显降低数据挖掘任务输出的前提下,能有效减少不相关、冗余及噪声属性在数据挖掘任务中的输入,提升挖掘任务学习的效能;在部分数据域上,算法甚至能提高挖掘任务输出的性能。但其仍存在不足之处,表现在和CFS相比,在总体性能表现上仍显不足。但是其在部分数据集上的表现明显优于CFS,说明其也有可取之处。同时,基于不同属性选择算法输出结果和数据集结构特征的离散选择模型输出表明,在数据挖掘任务执行中不能盲目的选用属性选择方法,而应根据所研究数据集的具体特征和所要训练学习的数据挖掘任务来进行。本文的主要贡献和意义在于:1.从原始属性的统计关系测度入手,提出基于V-M测度的属性选择算法SCFS和PCFS,并通过性能试验验证了算法的可用性和有效性,在部分数据集上表现优于CFS;2.考虑属性间间接作用关系的存在,提出了基于偏相关调整的属性评估函数Merits',在探索属性间关系的测度上进行了有益的尝试;3.拓展了数据挖掘任务执行中可选择属性选择算法的范围;4.通过实证结果指出,属性选择应基于学习任务以及学习对象本身的数据结构特点进行,这对数据挖掘工作的开展具有较强的现实意义。


以上为本篇毕业论文范文数据挖掘中基于统计相关的属性选择研究的介绍部分。
本论文在社科论文栏目,由论文网(www.zjwd.net)整理,更多论文,请点论文范文查找

毕业论文降重
收费专业论文范文
收费专业论文
汉语言文学论文
物理学论文
自动化专业论文
测控技术专业论文
历史学专业论文
机械模具专业论文
金融专业论文
电子通信专业论文
材料科学专业论文
英语专业论文
会计专业论文
行政管理专业论文
财务管理专业论文
电子商务国贸专业
法律专业论文
教育技术学专业论文
物流专业论文
人力资源专业论文
生物工程专业论文
市场营销专业论文
土木工程专业论文
化学工程专业论文
文化产业管理论文
工商管理专业论文
护理专业论文
数学教育专业论文
数学与应用数学专业
心理学专业论文
信息管理专业论文
工程管理专业论文
工业工程专业论文
制药工程专业论文
电子机电信息论文
现代教育技术专业
新闻专业论文
热能与动力设计论文
教育管理专业论文
日语专业论文
德语专业论文
轻化工程专业论文
社会工作专业论文
乡镇企业管理
给水排水专业
服装设计专业论文
电视制片管理专业
旅游管理专业论文
物业管理专业论文
信息管理专业论文
包装工程专业论文
印刷工程专业论文
动画专业论文
营销专业论文范文
工商管理论文范文
汉语言文学论文范文
法律专业论文范文
教育管理论文范文
小学教育论文范文
学前教育论文范文
财务会计论文范文

电子商务论文范文

上一篇:图像边缘检测算法的研究 下一篇:图式理论对因果复合句翻译的阐释

最新论文

精品推荐

毕业论文排版

热门论文


本站简介 | 联系方式 | 论文改重 | 免费获取 | 论文交换

本站部分论文来自网络,如发现侵犯了您的权益,请联系指出,本站及时确认删除 E-mail:229120615@qq.com

毕业论文范文-论文范文-论文同学网(www.zjwd.net)提供社科论文毕业论文,毕业论文范文,毕业设计,论文范文,毕业设计格式范文,论文格式范文

Copyright@ 2010-2024 zjwd.net 毕业论文范文-论文范文-论文同学网 版权所有