截图
简介
这是一个关于clementine数据挖掘培训PPT(部分ppt内容已做更新升级),数据挖掘与Clementine使用培训,通过多个案例来说明数据挖掘与Clementine使用,共305页等内容。培训是给新员工或现有员工传授其完成本职工作所必需的正确思维认知、基本知识和技能的过程。是一种有组织的知识传递、技能传递、标准传递、信息传递、管理训诫行为。其中以技能传递为主,侧重上岗前进行。为了达到统一的科学技术规范、标准化作业,通过目标规划设定知识和信息传递、技能熟练演练、作业达成评测、结果交流公告等现代信息化的流程,让员工通过一定的教育训练技术手段,达到预期的水平,提高目标。目前国内培训以技能传递为主,时间在侧重上岗前。
clementine数据挖掘培训PPT是由红软PPT免费下载网推荐的一款培训教程PPT类型的PowerPoint.
数据挖掘与Clementine使用培训
北京瑞斯泰得数据技术开发有限公司
2016/3/31
一、数据挖掘概述
什么是数据挖掘
数据挖掘的实现路线和流程
数据挖掘方法论——CRISP-DM
为什么进行数据挖掘? 商业观点
业务中产生了大量的数据,这些数据存储在业务系统中却不能创造价值
客户信息数据
客户交易行为数据
客户反馈数据
网络数据
……
计算机变得越来越便宜、功能却越来越强大
商业竞争越来越激烈,对客户了解越多就意味着机会越大
为什么进行数据挖掘? 技术观点
业务中的数据量呈现指数增长(GB/小时)
传统技术难以从这些大量数据中发现有价值的规律
数据挖掘可以帮助我们从大量数据中发现有价值的规律
一个市场营销的例子
一个市场营销的例子
一个市场营销的例子
数据挖掘收益分析
利润分析图
数据挖掘效果模拟分析
什么是数据挖掘?
不同的定义
从大量数据中发现非平凡的、先前不知道的、有价值的规律的过程
从大量数据中自动化(或者半自动化)的发现有价值规律的过程
数据挖掘的其他名称
数据库内知识发现(KDD- Knowledge discovery in databases )
数据/模式分析
商业智能
人工智能
……
数据挖掘的起源
来源于机器学习/人工智能、模式识别、统计学和数据库
传统技术的局限性
巨量的数据
高维数据
数据分布不理想
数据挖掘面临的挑战
海量数据
高维数据
数据复杂性
数据质量问题
数据所有权和分布
隐私问题
数据挖掘方法论—项目顺利实施的保证
商业理解
数据理解
数据准备
建立模型
模型评估
结果发布
商业理解是数据挖掘的起点
商业理解的内容
数据挖掘能解决什么样的商业问题?
数据挖掘得到的结果,是否可以采取相应的行动以提高利润或降低成本?
我们期望模型能够给我们怎样的精确率?
有那些前提假定?
约束分析
时间约束分析
资源约束分析
人力资源
数据资源
软件资源
硬件资源
制定特定的数据挖掘目标
制定的数据挖掘目标应具有:
可评估性(assessable)
可实现性(attainable)
如何给定一个数据挖掘问题
是检验性数据挖掘还是探索性数据挖掘?
确定哪些是可以实现的数据挖掘问题
结果可测度性
信息(数据)的可获得性
评估和控制其他相关因素的影响
数据来源与数据之间的关系
使数据适合数据挖掘
对数据进行适当的合并和汇总
一般数据挖掘分析都要一个行×列(记录×变量)的二维表,必须把从不同数据源得到的不同格式的数据整合成这样一张表,要求:
所有的记录含有排列顺序一致的变量
所有记录的变量信息是完整的(理想化状态,在现实中很难达到)
检查数据质量
影响数据质量的几个主要问题
缺失值
不合理值
不同数据源的不一致
异常值
对数据进行适当的变换
数据的标准化变换
生成新的变量
数据的重新编码
数据降维,从变量角度或者从记录角度
数据挖掘模型的分类
数据描述和汇总(Data description and summarization)
细分(Segmentation)
概念描述(Concept descriptions)
分类(Classification)
预测(Prediction)
相关分析(Dependency analysis)
数据挖掘技术的分类
数据挖掘的典型结果——金融
问题描述:预测信用水平是好还是差,银行据此决定是否向客户发放贷款,发放多少
结果描述:(决策树)
数据挖掘的典型结果——电信
问题描述:根据客户信息,预测客户流失可能性
结果描述:(神经网络)
数据挖掘的典型结果——零售
问题描述:如何决定超市中商品的摆放来增加销售额
结果描述:(Web图)
数据挖掘的典型结果——制造业
问题描述:如何对市场进行细分,使产品满足最有价值客户
结果描述:(Koholen聚类)
数据挖掘的典型结果——政府
问题描述:如何从众多申请经费或者纳税中发现欺诈
结果描述:(回归、神经网络)
检验的形式
方法层面的检验
训练集和检验集
不同方法的互相印证和比较
模型准确性的检验:
商业层面上的检验
利润率的检验
模型结果可操作性的检验
其他检验
关注那些错误的预测
数据挖掘不成功的几种可能性
糟糕的数据
组织抵制
结果没有被有效的发布
得到了无用的结果
模型发布的形式
书面报告
数据库更新
针对特定主题的应用系统
数据挖掘的体系结构
二、Clementine概述
Clementine在数据挖掘中的地位
Clementine发展历史
Clementine的配置
Clementine操作基础
数据挖掘的一般流程及数据挖掘软件在数据挖掘过程中的地位
数据挖掘方法论——项目顺利实施的保证
Clementine发展历程
Clementine是ISL (Integral Solutions Limited)公司开发的数据挖掘工具平台
1998年SPSS公司收购了ISL公司,对Clementine产品进行重新整合和开发,现在Clementine已经成为SPSS公司的又一亮点
Clementine的软件构成
Clementine Client;
Clementine Server;
Clementine Batch;
SPSS Data Access Pack;
Clementine Solution Publisher (Optional)。
Clementine的两种运行方式
单机版运行
以下情况必须使用单机版运行:
数据存储在本机,且不能在网络上共享;
机器不联网;
无Clementine Server可供使用。
以下情况可以使用单机版运行:
要处理的数据量很小(比如:小于2M)并且数据存储在单机或可到达局域网处;
单机内存、硬盘相对要处理的数据量来说足够大,并且速度也满足要求。
Clementine的系统结构
Clementine运行的两种方式
图形界面方式
适用操作系统
Windows系列
特点:
图形化界面
与客户直接交互
适合交互式分析过程
Clementine的界面和设计思路
可视化界面
四个区域分别是建模区、结点区、模型描述区、项目管理区
通过连接结点构成数据流建立模型
Clementine通过6类结点的连接完成数据挖掘工作,它们是:
Source(源结点):Database、Var. Files等
Record Ops (记录处理结点):Select、Sample等`
Field Ops(字段处理结点):Type、Filter等
Graphs(图形结点):Plot、Distribute等
Modeling(模型结点):Neural Net、C5.0等
Output(输出结点):Table、Matrix等
Clementine操作基本知识
鼠标应用
三键与双键鼠标
左键 选择节点或图标置于建模区
右键 激活浮动菜单
中键 连接或断开两个节点
帮助
Clementine操作基本知识
节点的增加,以 为例
Click “Sources”,Click ,Click “流区域”
Click “Sources”,Double Click
Click “Sources”,Drag to “流区域”
节点的删除
Click , Delete
Right Click ,Click “Delete”
节点的移动:Drag
Clementine操作基本知识
节点的编辑
Double Click
Right Click ,Click “Edit”
节点的重命名和解释
Right Click ,Click “Edit”,Click “Annotations”
Double Click ,Click “Annotations”
Right Click ,Click “Rename and Annotations”
拷贝、粘贴
Clementine操作基本知识
构建流时节点的连接
Highlight ,Add to the Canvas
Right Click ,Click “Connect”,Click
Drag the middle mutton from to
构建流时节点连接的删除
Right Click or , Click “Disconnect”
Right Click “Connection”,Click “Delete Connection”
Double Click or
Clementine操作基本知识
流的执行
Highlight “Stream”,Click
Right Click ,Click “Execute”
In the Edit Window of the , Click “Execute”
流的保存
帮助
Help Menu
Dialogue Window
Clementine的优化
包括两个方面的优化
结构优化
用户优化
结构优化
把中间结果存储在Server上(尽量使用server版处理)
从数据流上整理考虑的执行数据流(能一步完成的处理尽量不要分解到多个执行)
减少数据的迁移(数据提前进行规划)
用户优化
自动优化数据流:当使用这一选项时,Clementine将重写数据流以使效率最高(可以通过Clementine Server中的sql_rewriting_enabled来调整是否可以使用)
优化的SQL生成。使尽可能的操作在数据库内进行。
优化Clementine执行。调整数据降维的操作尽可能接近数据源完成。
手动优化数据流
操作顺序:有些操作可以在SQL中完成,有些操作不能在SQL中完成,尽可能把能够在SQL中完成的一起排在前面
数据类型:尽可能在源节点处由用户自定义数据类型,而不是Clementine自动读取。
问题的提出
如何通过数据挖掘实现小灵通信用级别的判断系统
某电信公司按照某种标准将小灵通客户信用等级分为5类,分别是gradeA、gradeB 、gradeC、gradeX、gradeY。现在希望建立一套系统,能够使得市场部人员根据用户的几项关键的个人基本信息判断该客户的信用级别,从而有针对性地对其采用不同的市场营销策略。
数据描述
遵循CRISP-DM的数据挖掘过程
在进行数据挖掘过程中应该注意的几个问题
商业经验的作用
数据的拆分——训练集与检验集
不同模型的印证与比较
结果发布
信用级别静态列表
信用级别写回数据库
实时判断信用级别的分析应用
三、数据理解:数据的可视化和报告
数据组织形式
数据图形展现
数据表格展现
数据挖掘要求的数据格式
数据尺度
根据数据的不同,可以把变量分为以下一些类型
定类变量
例如:客户编号、性别、邮编等
不能比较大小
定序变量
产品等级、信用级别、客户收入水平分类等
可以比较大小、不能进行加减运算
定距变量
出生日期、温度等
可以进行加减运算、不能进行乘除运算
定比变量
收入、长度等
可以进行乘除运算
各类变量尺度比较
描述性统计量
描述统计量(summary statistic),也称汇总统计量或概括统计量
用少量数字概括大量数据的技术
离散变量的描述性统计
频数
累计频数
频率
累计频率(累计必须是定序变量)
连续变量的描述指标
反映数据平均趋势和位置的指标
反映数据离散趋势的指标
反映数据分布状况的指标
反映连续数据平均趋势的指标
平均数
算术平均数
几何平均数
截尾算术平均数:比较稳健有效地描述平均值
中位数:(代表群体基本的趋势,集中的趋势)
众数(多用于离散变量)
四分位数(25%,50%,75%)
百分位数
平均数与中位数的结合使用
对5个数值表示的内容说法有些不同
反映连续数据离散趋势的指标
极差(全距)range =max-min
内距 50%的差距
方差 :更适合离散趋势的描述(趋势放大)
标准差
变异系数:标准差/均值,值越大,则离散程度越大。
平均数与标准差的应用
切比雪夫定理
在任何一个数据集中,至少有(1-1/z2 )的数据项与平均数的距离在z个标准差之内,其中z是任意大于1的值。
切比雪夫定理含义
1.至少75%的数据项与平均数的距离在2个标准差之内;
2.至少89%的数据项与平均数的距离在3个标准差之内;(6西格玛质量管理应用)
3.至少94%的数据项与平均数的距离在4个标准差之内。
连续变量的经验法则
正态分布是一种最常用的连续型分布
关于正态分布的经验法则
1.约68%的数据项与平均数的距离在1个标准差之内;
2.约95%的数据项与平均数的距离在2个标准差之内;
3.几乎全部数据项(99.97%)与平均数的距离在3个标准差之内。
切比雪夫和经验法则的应用
问题
某单位有100个人,他们的平均身高是170cm,标准差为5cm,那么有多少人的身高是落在160cm-180cm这个区间里的呢?
经验法则的应用
根据切比雪夫定理,该单位至少有75%的人身高在160cm—180cm这个区间里
根据正态分布经验法则,该单位大约有95%的人身高在160cm—180cm这个区间里
反映连续数据分布状况的指标
偏度
峰度
图形展现数据
图形技术的应用
图形可以用来直观的展示数据的分布特征和取值情况
常见的描述离散变量的图形有
条形图 饼形图
常见的描述连续变量的图形有
直方图
常见的描述两个离散变量之间关系的图形有
Web图 条形图
常见的描述两个连续变量之间关系的图形有
散点图
常见的描述一个离散变量和一个连续变量之间关系的图形是
条形图
通过图形可以表现多个变量之间的关系
Chapter 2
Clementine 简介
Chapter 2 Clementine 简介
目的:
初步了解Clementine软件
内容:
2.1 SPSS Clementine C/S
2.2 SPSS Clementine 面板
2.3 SPSS Clementine 可视化程序使用基础
节点
SPSS file 节点
Table 节点
2.1 Clementine C/S
启动:
Start..Programs..Clementine 8.1 …
Clementine and Clementine Server
Tools…Server Login
2.2 Clementine 面板
第二讲:数据简单准备与理解
数据准备之读入数据
数据理解之数据质量
数据理解之数据分布
Chapter 3
读取数据文件
Chapter 3 读取数据文件
目的
掌握Clementine如何读取文本格式数据
了解Clementine可以读取的数据格式
掌握Clementine中的字段类型和方向
数据
Smallsamplecomma.com
Chapter 3 读取数据文件
内容及节点:
3.1 Clementine可以读取的数据格式
3.2 读取文本数据与查看数据
3.3 读取SPSS数据
3.4 读取数据库数据(专用spss配置的链接)
3.5 Clementine中的字段类型
3.6 Clementine中的字段方向
3.7 保存Clementine流
3.1 Clementine可以读取的数据格式
文本格式数据
SPSS/SAS数据
Excel,Access,dBase,Foxpro,Oracle,SQL Server,DB2等数据库(每次只能读一个表)
用户输入数据
3.2 读取文本数据与查看数据
3.2 读取文本数据与查看数据
3.2 读取文本数据与查看数据
3.2 读取文本数据与查看数据
3.2 读取文本数据与查看数据
3.3 读取SPSS数据
变量标签
值标签
3.4 读取数据库数据
ODBC设置
3.5 Clementine中的字段类型
离散型
二分 eg:sex:m/f
多分 eg:等级:好/中/差
离散 eg:
连续型
整数
实数
日期、时间
其它
3.6 Clementine中的字段方向
3.7 读取其它格式的数据
Sas
Fixed text file:同一字段在各行的同一列
Chapter 4
数据理解之数据质量
Chapter 4 数据理解之数据质量
目的:
掌握如何应用Clementine发现数据的准确性、完整性
熟悉用于数据质量分析的几个节点
内容:
4.1 数据理解
4.2 缺失值定义
4.3 Quality节点介绍
4.4 Distribution节点----初步理解字符型字段的分布
4.5 Histogram/Statistics节点----初步理解数值型字段的分布
数据:
Smallsamplemissing.txt
Risk.txt
4.1 数据理解
在数据挖掘之前,理解数据的取值范围及数值分布是非常重要的
Histogram/Statistics
Distribution
数据质量越高,挖掘结果准确性越高
Quality
4.2 缺失值定义
Missing values are values in the data set that are unknown, uncollected, or incorrectly entered. They are invalid for their fields.
缺失值的定义:type节点
系统默认缺失值----on
Null----数值型字段----空值----“”----“$Null”
Empty String ----字符型字段----空值----“”
White Space ----字符型字段----空值以及空格值----“”或“ ”----包括Empty String
指定缺失值----Blank Value
系统默认缺失值
指定特殊缺失值----“99”
缺失值的检查:quality节点
4.2 缺失值定义
4.2 缺失值定义
数据缺失情况
数据量的大小
包含缺失值的字段的数量
缺失值的数量
缺失值的处理方法
忽略含缺失值的字段
忽略含缺失值的记录
默认值代替缺失值
根据一定规则填充缺失值
4.3 Quality节点介绍
查看缺失值情况
查看各类型缺失值的分布情况
Blank Value的指定
4.3 Quality节点介绍
Quality结果
4.4 Distribution节点----初步理解字符型字段的分布
单个字段的值分布
例:人群中各种风险等级人数及百分比
与其它分类字段合并
例:分性别显示各种风险等级人数及百分比
例:各种风险等级中男性女性各占比例
4.5 Histogram/Statistics节点----初步理解数值型字段的分布
单个字段的值分布
例:人群收入水平
与其它分类字段合并
例:显示各种风险等级的收入水平
例:显示各收入水平的各风险等级比例
Chapter 5
简单数据整理
Chapter 5 简单数据整理
目的:
掌握Clementine中的数据整理技术
熟悉用于数据整理的几个节点
内容
5.1 Clem语言简介
5.2 Select节点介绍
5.3 Filter节点介绍
5.4 Derive节点介绍
5.5 自动生成操作节点
数据
Risk.txt
SmallSampleMissing.txt
5.1 Clem语言简介
Clementine Language of Expression Manipulation
应用节点:Derive导出, Select选择, Filter过滤
构建材料:函数、符号、数字、字段
记录敏感:对每条记录返回值(整数、实数、布尔值、字符值、日期、时间)或评估是否满足条件
两种表达式:条件表达式与计算表达式
5.2 Select节点介绍
用于根据一定条件选择或丢弃某些记录
CLEM构建
5.3 Filter节点介绍
对某些字段进行重命名或丢弃某些无意义的字段
无意义字段
缺失值占大比例
所有记录有相同值
中间过程生成的中间变量
5.4 Derive节点介绍
根据原有字段值生成新字段值
按公式生成字段
生成二分型字段
生成多分型字段
对所有记录按同样标准生成新字段
对不同记录按不同标准生成新字段
对多个字段进行同一转换
5.4 Derive节点介绍
5.5 自动生成操作节点
自动生成“Select”
自动生成“Filter”
第三讲主要内容
数据理解之数据关系探测
基本建模方法简要介绍
Chapter 6
数据理解之
数据间简单关系
Chapter 6 数据理解之数据间简单关系
目的:
掌握如何理解字段间关系
熟悉用于字段关系理解的几个节点
内容
6.1 Matrix节点----研究字符型字段间关系
6.2 Web节点----研究字符型字段间关系
6.3 Statistics节点----研究连续型字段间线性相关关系
6.4 Plot节点----研究连续型字段间关系
6.5 Histogram节点----研究连续型字段与字符型字段的关系
数据
Risk.txt
Chapter 6 数据理解之数据间简单关系
解决问题
风险等级是否与收入有关
风险等级是否与性别有关
如果一个人的信用卡数量较多,是否意味着它欺诈的可能性也大
6.1 Matrix节点----研究字符型字段间关系
解决问题
月付款的人是否比周付款的人风险程度更高
男性是否比女性风险程序更高
Matrix节点:
交叉表(列联表)来显示字符型数据间关系
行字段与列字段的选择
显示百分比
6.1 Matrix节点----研究字符型字段间关系
6.2 Web节点----研究字符型字段间关系
例:婚姻状态、抵押贷款等是否与风险等级有关
几个小概念:
人数
总数百分比
大类百分比
小类百分比
强、中、弱相关关系
结果解读
6.2 Web节点----研究字符型字段间关系
6.3 Statistics节点----研究连续型字段间线性相关关系
例:收入是否随年龄呈线性增长
Statistics节点设置
结果解读
注意:
线性相关关系而非相关关系(线形相关是相关关系的一种,其他相关关系最终需要转化为线形相关来研究)
6.3 Statistics节点----研究连续型字段间线性相关关系
6.4 Plot节点----研究连续型字段间关系
例:显示孩子数目与贷款数目的关系
用点的大小来反映其代表记录的多少
用点的密度来反映其代表记录的多少
用不同颜色的点来反映不同类别的记录
6.4 Plot节点----研究连续型字段间关系
6.5 Histogram节点----研究连续型字段与字符型字段的关系
例:不同风险等级的人的收入情况
显示某收入水平的各风险等级人数
显示某收入水平----各风险等级在该收入水平所占的比例
表格展现数据
表格的元素构成
表格类型在SPSS里实现
堆叠表(Stacking)
嵌套表(Nesting)
交叉表(Crosstabulation)
分层表(Layers)
堆叠表
嵌套表
交叉表
分层表
把层去掉以后的效果
枢轴表技术(Pivot Tables)
Clementine表格
Chapter 7
建模技术概览
Chapter 7 Clementine中的建模技术
目的:
了解Clementine中提供的各种建模技术
内容
7.1 Clementine提供的模型技术
7.2 Neural Networks(神经网络)
7.3 规则归纳模型
7.4 统计模型
7.5 聚类模型
7.6 关联规则模型
7.7 Sequence模型
7.8 总述
7.1 Clementine提供的模型技术
几种技术:预测、聚类、关联规则
预测技术:
InputsOutput
六种方法:
Neural Networks
规则归纳:C5.0,C&RT
与时间或顺序有关的关联规则:Sequence(Capri)
统计学:回归、Logistic回归
7.1 Clementine提供的模型技术
聚类技术
无Output
无监督的学习
三种方法:
Kohonen
统计学:K-means、TwoStep
关联规则
Both Input and Output
三种方法
GRI,Apriori
Sequence (Capri)
7.2 Neural Networks
模仿人脑
Input/Output可以是Num,也可以是Symbolic
MLP与RBFN
劣势:黑匣子
7.3 规则归纳模型
是决策树算法
与Neural Net相比的优势
结果好解释
自动删除无意义的Input字段
主要是根据结果变量值对数据按Input进行细分
有两种结果形式:决策树形式或规则集形式
7.4 统计模型之线性回归
统计模型与Neural Net相比:
严格的假设(如误差正态分布)
用简单方程表达模型,便于解释
可自动选择字段
无法捕捉Inputs字段间的交互作用
统计模型:
线性回归
Logistic回归
主成分分析
7.4 统计模型之回归
线性回归:
方程:Y=a+b1x1+b2x2+ +bnxn
原理:寻找使误差平方和最小的系数
Output字段----Numeric输出必须是连续型
Input字段----Numeric/Symbolic
Logistic回归:
方程
原理:寻找使误差平方和最小的系数
回归系数随结果值而改变,与NN,RI相比,不适合复杂数据
Output字段----Symbolic输出必须是离散性
Input字段----Numeric/Symbolic
7.4 统计模型之主成分分析
数据降维技术:
用少量不相关数据(主成分)来代替大量相关数据(原始数据)作分析
主成分是原始数据的线性组合
更可能与统计分析方法合并使用(相对于机器学习),尤其是在多个等级分类字段
可用于预测模型或聚类分析之前
7.5 聚类模型
发现有相似值记录的群体
多用于市场(细分客户)和其它商业应用
与主成分分析相似,多用于预测模型之前
无监督学习(无output)
三种聚类分析方法:
Kohonen
K-means
TwoStep
7.5 聚类模型
Kohonen聚类
是一种实施无监督学习的神经网络算法
一维或二维网格,各神经元相互连接
K-means聚类
又称为快速聚类,(速度快,适合大量数据)
用户指定类别数
与记录顺序有关(小数据量与记录顺序无关,大数据需要先执行一定程序找出数据各类别中心)
TwoStep聚类
用户指定范围,模型根据统计学标准自动选择类数
消耗机器资源少
能给出一个较好的结果
7.6 关联规则模型
寻找数据中一起发生的事情
与Web相似,但以极快的速度发掘更复杂的模式
与规则归纳不同之处
每个规则的Output字段可能各不相同
规则可用于查看,但非预测
可生成同一output字段的规则,用于预测
与规则归纳相比,运行较慢,可增加限制条件从而提高速度
两种算法:Apriori,GRI(广义规则探测)
7.7 Sequence模型
与关联规则不同之处在于寻找与时间/顺序有关的规则
应用领域:零售、网络日志、过程改进
用于字符型字段,数值被当作是字符
用CARMA算法
7.8 综述
如果要预测某个字段----有监督的机器学习和其中一种统计方法(依结果字段而定)
如果想发现有相似行为(许多字段)的个体----聚类
关联规则不能直接用于预测,但它是一种用于理解数据内模式的有用工具
如果对顺序、时间有兴趣,可用Sequence算法
7.8 综述
如果想进一步选择具体的预测技术,依赖于目的字段,output字段与input字段间关系
有一定经验规律,但不是规则
Clementine的优势之处在于建模的简单
Clementine只能发现数据内存在的关系,如果数据本身不相关联,不可能提取出一个模型
数据挖掘是一个迭代、重复的过程
第四讲:预测建模技术
神经网络模型技术
决策树模型技术
回归分析技术
模型间评估技术
预测的重要性
在当今充满竞争的社会里,一个企业如果能准确地预知其未来,那么其生存机会将大大增加,预测科学就是处理对未来的预测等问题的学科。
预测相关注意事项
预测对象所在的环境常常处于动态变化之中,一些不可知事件会对预测结果造成很大影响;
被用来进行预测的数据常常是不稳定、不确定和不完全的,由其来源和收集的方式所决定;
不同的时间区域常常需要不同的预测方法,形式上难以统一;
因为不同的预测方法在复杂性、数据要求以及准确程度上均不同,因此选择一个合适的预测方法是很困难的。
Chapter 8
Neural Networks
Chpater 8 Neural Networks
目的:
掌握如何在Clementine中进行Neural Network 模型的构建和解读
掌握Neural Network节点
数据:Risktrain.txt
Chpater 8 Neural Networks
内容
8.1 Neural Net节点介绍
8.2 构建Neural Network
8.3 模型管理区介绍
8.4 结果查看和结果解释
8.5 模型预测值生成
8.6 模型评价
8.7 理解预测原因
8.8 模型总结
神经网络模型预测技术
8.1 Neural Net节点介绍
字段方向----Type节点或表
In----X字段----自变量字段
Out----Y字段----结果字段----聚类、主成分分析除外
Both----自变量和结果字段----关联规则或顺序算法
None----不用字段
ID----typeless----None
五种Neural Net方法,默认Quick
过度训练(长时间接触同一个数据源,并用同样特征去描述其他数据集,结果往往错误)
停止规则(避免过度训练)
字段的相对重要性分析
避免过度训练问题选择测试集错误较低,或者两集错误交叉点
8.2 构建Neural Network
例:用age、sex、income等来预测客户的风险等级
8.3 模型管理区介绍
浏览模型结果
导出模型代码
将模型载入数据流
将模型导入项目管理区
保存、清除、装载模型管理区
8.4 结果查看和结果解释
结果的浏览:Right click generated “model”
模型准确性
输入字段或层
输出字段或层
各输入字段的相对重要性
8.5 模型预测值生成
8.6 模型评价----预测值与实际值的比较
利用Matrix比较,通常关注的不是整体,例如欠费用户群而不是整个用户群。
8.6 模型评价
Evaluation Node----评估比较模型,以选择最优模型
Evaluation 的原理:将数据按预测值和置信度从高到低排序,将数据拆分为多个集合,每集合包含相同的记录数,然后作图。
关注值:flag变量的真值,set变量的第一个值
五种图形:收益图、功效图、响应图、投资回报图、利润图
8.6 模型评价
8.7 理解预测原因
Web节点--Symbolic Input & Symbolic Output
Distribuiton节点—Symbolic Input & Symbolic Output
Histogram节点--Numeric Input & Symbolic Output
8.8 模型总结
预测风险中最重要因素是婚姻状态和收入
离异、单身、鳏寡人士可能是坏客户
神经网络模型,高收入人群是好客户,但这一点并不与实际相符,如此预测,可能会给银行带来损失
题外话:可用验证数据集,利用分析节点、评估节点、Matrix节点对模型进行评估
Chapter 9
规则归纳模型
决策树技术
Chapter 9 规则归纳模型
目的:
掌握如何在Clementine中进行规则归纳模型的构建和解读
掌握C5.0节点
数据
Risktrain.txt
Chapter 9 规则归纳模型
内容
9.1 C5.0、C&RT介绍
9.2 构建C5.0模型
9.3 C5.0 决策树型结果浏览和解释
9.4 C5.0 规则集型结果浏览和解释
9.5 模型预测值生成
9.6 模型评价
9.7 模型总结
9.1 C5.0、C&RT介绍
C5.0与C&RT的相似之处:构建决策树,按照自变量与结果变量的关系将数据拆分成各子群
C5.0与C&RT的不同之处:
9.2 构建C5.0模型
模型的准确性与一般性
模型的验证方法
交叉验证(分散数据集,不断用新数据去验证)
模型结果字段值的减少(输入变量最终并非全部进入模型)
建立多个模型:
耗时长
难以解释结果
9.2 构建C5.0模型
9.3 C5.0 决策树型结果浏览和解释
结果:
决策树、模型形式
可分支的子根
众数
显示例数与置信度
继承性
9.4 C5.0 规则集型结果浏览和解释
9.5 模型预测值生成
9.6 模型评价----预测值与实际值的比较
利用Matrix来比较预测值与实际值
9.6 模型评价----不同值的收益图
9.7 模型总结
C5.0使模型可以不用Web、Histogram等即可有效地理解模型
与Neural Net不同,没有Sensitivity Analysis,但同样可以辨别字段的重要性
决策树的优点
可以生成可以理解的规则
计算量相对来说不是很大
可以处理连续和种类字段
决策树可以清晰的显示哪些字段比较重要
决策树的缺点
对连续性的字段比较难预测
对有时间顺序的数据,需要很多预处理的工作
当类别太多时,错误可能就会增加的比较快(对分类变量重新划分,二分或者数据降维,spss聚类分析法)
一般的算法分类的时候,只是根据一个字段来分类(假设各字段间相关度不是很高)
Chapter 10
模型比较
Chpater 10 模型比较
目的
掌握如何利用Analysis节点进行模型的评估
掌握如何利用验证数据集比较不同模型
内容
10.1 Analysis节点用于比较模型
10.2 Evaluation节点用于比较模型
10.3 利用验证数据集进行模型比较
数据
Risktrain.txt
Riskvalidation.txt
10.1 Analysis节点用于比较模型
10.1 Analysis节点用于比较模型
评估多个模型
评估各模型结果的一致性
10.2 Evaluation节点用于比较模型
10.2 Evaluation节点用于比较模型
评估多个模型
评估各模型结果的一致性
10.3 利用验证数据集进行模型比较
第五讲主要内容
聚类分析模型技术
关联规则模型技术
序列探测模型技术
Chapter 11
Kohonen Networks
Chpater 11 Kohonen Networks
目的
掌握Kohonen神经网络的建立、结果解释
掌握Kohonen节点
内容
11.1 Kohonen节点介绍
11.2 构建Kohonen Networks
11.3 结果解释
11.4 为每条记录产生类别字段
11.5 结果理解
数据
Shopping.txt
Kohonen网络结构
11.1 Kohonen节点介绍
聚类分析
发现数据的总体结构及相互关系
类间差别,类内相似
11.2 构建Kohonen Networks
Kohonen节点
字段方向设置:
购买产品与否----In
其它----None / Out / Both
反馈图:红色越深,记录越多
指定类别数:长*宽
11.3 结果解释
Kohonen结果
X-轴
Y-轴
11.4 为每条记录产生类别字段
$KX----Kohonen
$KY----Kohonen
Cluster=$KX----Kohonen><$KY----Kohonen
11.5 结果理解
各Cluster人群多少----条图
各Cluster人群的一般特征
年龄----条图
性别----条图
购买产品----Web图
孩子
婚姻状态
工作状态
各Cluster人群总述
各种聚类方法比较
聚类分析之我见
聚类分析的优势在于:它能够在我们对数据了解很少时,提供一种了解数据的方法。发现个体与变量间的综合关系。
例如:根据各省市的各种经济指数将所有的省市分为几个等级。
例如:根据各种指数的取值范围,将模式相近的指数的聚为一类。
聚类分析的缺陷在于:各类之间均值等可能有差别,但每个个体划归哪类更多地依赖于数字,解释起来比较困难。
Chapter 12
关联规则
Chpater 12 关联规则
目的
掌握关联规则在Clementine中的建立、结果解释
掌握Apriori节点
无监督的探索性模型
内容
12.1 关联规则简介
12.2 Apriori节点及结果解释
12.3 产生特定结果的规则集
12.4 特定结果规则集应用于各记录
数据
Shopping.txt
12.1 关联规则简介
解决问题考虑的是关联,得到的是规则,处理变量之间的相关,而非客户之间)
买香烟的人是否倾向于也买巧克力或啤酒
高血脂的人是否也常伴有高血压
买车险的人是否也倾向于买房险
节点
GRI----Numeric字段可作为输入字段,可用于连续型变量
Apriori----只接受Symbolic字段(只能用字符型输入)作为输入字段
特殊之处:产生的模型不能直接加入数据流
12.2 Apriori节点及结果解释
Apriori节点设置
字段类型及方向:无主次先后之分
Content1----flag----both
Content2----flag----both
Content3----flag----both
Contentn----flag----both
结果:
有多少人购买了香烟?占总人数的百分比
其中,有多少人购买了巧克力?占多少百分比
12.2 Apriori节点及结果解释
12.3 产生特定结果的规则集
Generate menu
Rule set
View
12.4 特定结果规则集应用于各记录
Chapter 13
序列检测
Chpater 13 序列检测
目的
掌握Clementine如何对与时间序列有关的数据进行建模
熟悉Sequence节点
也会存在规则的重复
内容
13.1 序列检测简介
13.2 序列检测所要求的数据结构
13.3 序列检测模型
13.4 Sequence节点及结果解释
13.5 Sequence结果用于各条数据
数据
Telrepair.txt
13.1 序列检测简介
解决的问题:与顺序有关的关联规则
Antecedent1Antecedent2 Consequent
可用节点:Sequence、Capri
13.2 序列检测所要求的数据结构
数据结构1
一个客户一次购买多个产品算一条记录
数据结构2
一个客户一次购买多个产品算多条记录
13.3 序列检测模型
Sequence与Capri二者各有优势
二者使用不同的算法
均可指定顺序检测标准
对于“A1””A2””C”,Capri可以不包含下列
“A1””A2”
”A2””C”
“A1””C”
13.4 Sequence节点及结果解释
Sequence节点设置:
字段类型及方向
ID field----Numeric/Symbolic----Any
Time field----Range----In
Content fields----Set----In/out/both----多个一致
13.4 Sequence节点及结果解释
结果:
在先买了A1 ,又买了A2 的客户中,60%的人后来买 了C;
12%的客户(48例)是先买了A1 ,又买了A2 ,最后又买了C
可对规则进行重新排序
13.4 Sequence节点及结果解释
13.5 Sequence结果用于各条数据
总结
业务问题是关键
历史数据是支撑
业务思路、数据分析思路的转变
数据分析的常态与技巧
如何使用数据分析应用结果是业务思路的延伸
方法永远是方法,工具永远是工具
五、 Clementine组合模型技巧
1.离散变量预测问题;
2.离散变量模型的检验;
3.组合模型概述;
4.二值预测问题的组合模型。
Clementine中提供的模型概述
离散变量预测问题是最重要的一类问题
离散变量预测问题也就是分类问题
在Clementine(8.1)中有很多模型可以做分类问题
Neural Net
C5.0
C&RT
Logistic
连续变量预测问题可以通过某种形式转化为离散变量预测问题
多值变量问题可以转化为两值预测问题
离散值预测模型的几个重要检验指标
1.准确率
2.命中率
3.覆盖率
离散值预测模型的几个重要检验图形
1.收益图(Gains)
2.响应图(Response)
3.功效图(Lift)
4.利润图(Profit)
5.投资回报图(ROI)
离散值预测模型的几个重要检验图形
什么是组合模型
在数据挖掘模型中,每种模型都有各自的优点和缺陷,为了更好的利用模型的优点,在Clementine中可以把不同模型通过一定的方式组合在一起以解决特定的问题
为了提高模型的精确度,我们可以把多个模型通过某种方式组合在一起
组合模型类型
为了提高模型的可解释性,可以应用C5.0对预测或者聚类结果进行解释
为了得到各指标对模型影响的重要程度,可以应用神经网络对指标重要性进行分析
可以通过模型的特定组合提高模型的准确性——下面以数据挖掘模型中最常用的二值预测来说明组合模型如何能够提供模型的准确性
二值预测是数据挖掘中重要问题
二值预测问题是个非常常见的数据挖掘问题
流失、客户获得、欠费、欺诈……
多值预测可以转化为二值预测问题
连续预测问题可以转化为多值预测问题
二值预测结果的可能表达方式
T or F,我们称为预测值;
预测值为T,预测准确率为P;或者预测值为F,预测准确率为P;
T的概率为p,称为预测评分(scoring)。
和置信度区分
例:以预测流失为例
预测客户A流失;
预测客户B不流失,把握程度为0.8;
预测客户C的流失概率为0.792。
多值(set)问题向二值问题的转化(flag)
多值集合变量向几个二值变量的转化(设为标志)
连续预测问题向多值预测问题的转化
从C&RT算法想到的……用分级节点
二值预测的结果表述
T or F
评分(scoring)
T->1.0
F->0.0
二值预测结果的评价
(1)总体准确率
(2)命中率
(3)覆盖率
Clementine中预测二值问题
由预测值和预测把握程度向预测评分的转化
练习1
对数据集data1.csv建立二值预测模型,实现以下目标深圳电信/组合模型)
应用C5.0模型得出预测模型,对模型的准确率(总体准确率、命中率、覆盖率)作出描述;
应用神经网络模型建立预测模型,练习把离散问题连续化的方法;(提示:flag->range,T->1.0)
应用C5.0模型建立scoring型的预测模型( 提示:$C,$CC的组合)
组合模型解决二值预测的几种思路
投票法(Voting)——少数服从多数,小概率服从大概率原则,主要目的在于提高命中率
修正法——根据预测结果与实际结果比较调整预测(多个训练集,一个检验集)
投票法之一——多个模型一致
对于同一问题建立不同模型,会得出不同的结果,多个模型同时预测同一结果时,往往这个结果更加可信
方法的优点和缺点:
优点:提高模型预测精度
缺点:会有一些记录没有预测结果
投票法之二——建立奇数个模型
建立奇数个预测模型
遵循少数服从多数原则
Derive node (type: Conditional)
If ‘$N-Outcome’ == ‘$C-Outcome’ or ‘$N-Outcome’ == ‘$R-Outcome’then ‘$N-Outcome’else ‘$C-Outcome’
带$的变量需要加引号
投票法之三——更高把握程度原则
应用那些具有更多把握程度的模型进行预测
If ‘$CC-Outcome’ > ‘$NC-Outcome’
Then ‘$C-Outcome’
Else ‘$N-Outcome’
投票法之四——根据把握程度汇总进行投票
建立不同模型的评分(scoring)模型
对不同模型得到评分(score)进行平均
转化为二值预测问题
Converting : If all_score>0.5 then ‘T’ else ‘F’
Converting the confidence back If all_score > 0.5 Then (all_score – 0.5) * 2 Else (0.5 - all_score) * 2
练习2
应用data2分别应用神经网络模型、C5.0模型和C&RT模型建立二值预测模型,再按照以上4中思路建立预测模型。对于test数据完成下表:
修正法之一——模型堆叠(stacking)
把模型的预测输出作为另外模型的输入
修正法之二——找出错误预测的规律(error modelling)
对于一个预测模型,我们能够发现错误预测的规律吗?
挑出那些错误的,建立模型(常常需要平衡数据)
缺点:有些记录会没有预测
修正法之三——多个模型一致(agreement modelling)处理投票法一中的不确定值
多个模型预测一致的作为预测
对那些不一致的重新建立模型进行预测
Select node ‘$N-Outcome’ /== ‘$C-Outcome’
Derive node (type: conditional) If ‘$N-Outcome’ == ‘$C-Outcome’ Then ‘$N-Outcome’ Else ‘$N1-Outcome’
修正法之四——对模型建模(speciallist modelling)
建立关于何时规则模型或神经网络模型预测准确的模型,得出模型的适用条件(数据情况)
根据数据情况选择使用不同的模型
练习3
对于数据集data1 to data5按照修正法思路1-思路4建立模型,对于数据集test完成下表:
总结——提高二值预测效果的几种思路
离散问题向打分(scoring)问题的转化
投票法之一——多个模型一致
投票法之二——建立奇数个模型
投票法之三——更高把握程度原则
投票法之四——根据把握程度汇总进行投票
修正法之一——模型堆叠(stacking)
修正法之二——找出错误预测的规律
修正法之三——多个模型一致
修正法之四——对模型建模
六、数据挖掘技术在电信行业中的应用
数据挖掘技术在电信行业中的应用
案例1:流失分析
案例2:流失症状与营销预演
案例3:交叉销售(套餐分析)
客户生命周期理论—客户分析的基础
案例一
电信行业的流失分析
电信行业流失分析的数据挖掘模型
客户流失分析之商业理解
移动通信业是一个竞争异常激烈的行业,对于移动通信运营商来说,如何对其客户进行有效的管理,尽可能的减少客户的流失和跳网是一个紧迫的问题。在这里我们将介绍数据挖掘在移动通信业关于客户流失研究中的应用。
数据挖掘技术将提供功能强大的模型,可以回答“哪些客户最可能流失?”和“为什么这些客户会流失?”等问题。
客户流失分析之商业理解
什么是流失,流失如何定义
连续欠费不交?号码长期不用?二分标记变量?
流失和哪些因素相关
顾客年龄?性别?收入?行业?话费水平?话务质量?
确定数据挖掘目标
(1)对客户进行聚类分析,寻找那些流失量比较大的客户群
(2)建立规则,描述那些易于流失的客户群的特征
(3)建立打分模型,对客户流失可能性(概率)进行评价
客户流失分析之数据理解
客户流失分析之数据理解
客户流失分析之数据理解
客户流失分析之数据准备
把CDR月度数据汇总成6个月的总体数据
根据CDR数据生成各种不同的平均数据和组合 数据
归并客户信息数据、CDR数据与话费数据
对客户现在付费类型的合理性进行简单分析
客户流失分析之建立模型和模型评估
客户流失分析之模型发布
对每个特定客户的流失可能性进行打分评估
写回数据库
客户流失分析之建模图
案例二
流失症状与营销预演
说明
本案例意在说明如何应用Clementine实现规则导出和营销预演
本案例是一个简化了的电信流失问题,我们不追求变量选择的完整性
本案例目的是说明过程,不追求模型的准确性,对模型不进行任何调整
流失分析使用变量
目标变量:二分变量(是否流失)
输入变量:
长途时长
国际时长
本地时长
通话时长合计
投诉次数
支付方式
本地话费支付方式
长途话费支付方式
年龄
性别
收入估计
婚姻状态
孩子数量
是否有汽车
流失分析模型
在流失分析规则导出中我们应用C5.0模型建立模型
在流失分析营销预演中我们应用神经网络建立模型
流失分析规则导出
数据流——总体
超级节点1——规则总结
超级节点2——规则对应(Clementine自动生成)
超级节点3——指定客户
可以在该节点中根据需要指定对哪些客户是否流失进行分析
主要结果1
生成了预测客户是否流失的决策树图如下(片断):
主要结果2
生成了客户流失和不流失的若干规则如下:
主要结果3——针对指定客户的流失规则(1)
例如针对年龄小于30岁的客户我们可以得到如下流失情况和对应流失规则:
主要结果4——针对指定客户的流失规则(2)
我们也可以针对某一个客户给出详细的预测(其中客户编号由使用者指定):
流失分析营销预演
数据流——总体
超级节点——营销预演
主要结果1:计算成本收益情况
根据用户指定的每个客户的平均成本、营销活动折扣率和市场活动预测回应率自动得出营销活动的预计净收益和市场活动的最优覆盖面及最优流失评分临界值。
主要结果2:营销活动成本收益图(1)
主要结果2:营销活动成本收益图(2)
案例三
电信行业的交叉销售分析(套餐分析)
客户交叉销售模型
目的
发现客户选择数据业务的关联性
根据客户已经选择数据业务,向客户进行交叉销售
研究客户价值(或客户分群)与产品组合之间的关系
分析各个产品之间的关联性进行交叉销售
关联规则结果
关联规则结果应用(1)
关联规则结果应用(2)
业务人员输入某一项业务后,可以列出应该向哪些客户推荐这项业务,这些客户目前选择了哪些业务,向他们推荐这些业务的把握程度如何。
关联规则结果应用(3)
业务人员按照某种规则选出一部分客户后,可以列出这些客户选择了何种业务,并提出应该向这些客户推荐哪些数据业务以及这种推荐的把握程度。
电信交叉效果实际应用效果
客户价值与交叉销售关系
电信行业的交叉销售数据挖掘分析
数据流1——数据准备 (P4_basket) 数据变换,变换为市场篮数据
数据流2——数据准备(P5_custbasket)计算客户价值
数据流3——探索选择套餐之间的关系,确定套餐组合(E3_products)
数据流4——向用户推荐套餐(D2_recommend)
数据流5——细分客户群,并分析各个细分群体选择套餐的倾向性(M3_prodassoc)
数据流6——不同价值客户群体选择套餐情况的探索性分析(E4_prodvalue)
数据流7——研究不同价值群体的选择套餐组合的情况并预测(M4_prodprofile)
电信行业交叉销售建模图
展开