数据挖掘技术和算法

AaronSpark · 发表于 2005-9-29 09:53

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？我要加入

x

本帖最后由 wdhd 于 2016-8-31 15:06 编辑

　　技术和算法

　　技术：概念方法

　　算法：一步一步具体实现的细节

　　不同的目标要调用不同的技术

　　数据挖掘根据其目标分为说明性(Prescriptive)和描述性 (Descriptive)数据挖掘两种

　　不同的Data Type调用不同技术

　　三种数据挖掘技术

　　自动聚集检测;决策树;神经网络

　　原因：大量的商业软件应用

　　覆盖了数据挖掘一个较广的范围

　　直接数据挖掘目标是预言，估值，分类，预定义目标变量的特征行为

　　神经元网络;决策树

　　间接数据挖掘：没有目标变量被预言，目的是发现整个数据集的结构

　　聚集检测

　　自动聚集检测

　　方法

　　K-均值是讲整个数据集分为K个聚集的算法。

　　K-均值聚集检测如何工作

　　随机选取K个记录，作为种子节点;

　　对剩余的记录集合，计算每个记录与K个种子节点的距离，将每个记录归到最近的那个种子节点，这样整个记录集初次划分为K个聚集;

　　对每个聚集，计算聚集的质心(聚集中心点);

　　以每个质心为种子节点，重复上述步骤，直至聚集不再改变。

　　Consequences of Choosing Clustering

　　选择距离函数

　　选择合适的聚集数

　　对聚集的解释

　　构造决策树

　　可视化看聚集如何受输入变量的影响

　　单变量测试

　　什么时候使用聚集检测

　　决策树

　　决策树分类

　　决策树分为分类树和回归树两种，分类树对离散变量做决策树，回归树对连续变量做决策树。

　　一般的数据挖掘工具，允许选择分裂条件和修剪规则，以及控制参数(最小节点的大小，最大树的深度等等)，来限制决策树的overfitting。

　　决策树如何工作

　　决策树是一棵树，树的根节点是整个数据集合空间，每个分节点是对一个单一变量的测试，该测试将数据集合空间分割成两个或更多块。每个叶节点是属于单一类别的记录。

　　首先，通过训练集生成决策树，再通过测试集对决策树进行修剪。决策树的功能是预言一个新的记录属于哪一类。

　　决策树如何构建

　　通过递归分割的过程构建决策树。

　　寻找初始分裂

　　整个训练集作为产生决策树的集合，训练集每个记录必须是已经分好类的。

　　决定哪个属性(Field)域作为目前最好的分类指标。一般的做法是穷尽所有的属性域，对每个属性域分裂的好坏做出量化，计算出最好的一个分裂。量化的标准是计算每个分裂的多样性(diversity)指标GINI指标。

　　树增长到一棵完整的树

　　重复第一步，直至每个叶节点内的记录都属于同一类。

　　数据的修剪

　　选择决策树的结果

　　处理输入变量

　　树和规则

　　选择最好的属性的能力

　　什么时候使用决策树

　　神经网络

　　神经元模型

　　生物模型

　　人工神经元

　　神经网模型

　　网的拓扑结构：层次(前馈，反馈);全连通

　　学习方法：有教员的(出入均知道);无教员的(输出不知道)

　　运行机制：同步;异步

　　神经网络的基本特点

　　大量简单节点的复杂连接;高度并行处理;分布式存储，信息存在整个网中，用权值体现出来，有联想能力，可以从一个不完整的信息恢复出完整信息;自组织、自学习。

　　六种常用于模式识别的神经网络分类器

　　Hopfield Net

　　Harmming Net

　　Carpenter/Grossberg 分类器

　　单层感知网

　　多层感知网

　　Kohonen的自组织特性图

　　

[此贴子已经被作者于2005-9-29 9:54:04编辑过]

NASA · 发表于 2005-10-2 08:56

本帖最后由 wdhd 于 2016-8-31 15:07 编辑

　　能分别把六种神经网络做个简要介绍吗?

　　六种常用于模式识别的神经网络分类器

　　Hopfield Net

　　Harmming Net

　　Carpenter/Grossberg 分类器

　　单层感知网

　　多层感知网

　　Kohonen的自组织特性图

账号		自动登录	找回密码
密码			我要加入

[其他] 数据挖掘技术和算法

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

回复：（wsi）数据挖掘技术和算法