大数据数据挖掘ppt

简介 相关

截图

大数据数据挖掘ppt

简介

这是大数据数据挖掘ppt,包括了大数据平台生态系统,应用与研究,软件著作权,大数据是什么?数据挖掘是什么,解决方案-比赛任务等内容,欢迎点击下载。

大数据数据挖掘ppt是由红软PPT免费下载网推荐的一款课件PPT类型的PowerPoint.

基于大数据平台的数据挖掘的研究与应用 曹水根 研究与应用 赛题背景: 阿里巴巴旗下电商拥有海量的买家和卖家交易场景下的数据。利用数据挖掘技术,我们能对未来的商品需求量进行准确地预测,从而帮助商家自动化很多供应链过程中的决策。这些以大数据驱动的供应链能够帮助商家大幅降低运营成本,提升用户的体验,对整个电商行业的效率提升起到重要作用。 解决方案-比赛任务 评测成本: 在本赛题中,参赛者需要提供对于每个商品在未来两周的全国最优目标库存和分仓区域最优目标库存的预测。我们会提供每一个商品的补少成本(A)和补多成本(B),然后根据用户预测的目标库存值跟实际的需求的差异来计算总的成本。参赛者的目标是让总的成本最低。 解决方案-比赛任务 赛题数据: 我们提供商品从20141010到20151227的全国和区域分仓数据。参赛者需给出后面两周(20151228-20160110)的全国和区域分仓目标库存。 商品在全国的特征包括商品的本身的一些分类:类目、品牌等,还有历史的一些用户行为特征:浏览人数、加购物车人数,购买人数。注意我们要预测的未来需求是“非聚划算支付件数”(qty_alipay_njhs)。 数据预处理 采样与过滤 加权采样: 以加权方式生成采样数据;权重列必须为double或int类型,按照该列的value大小采样;如col的值是1.2和1.0;则value=1.2所属样本的被采样的概率就大一些。 随机采样: 以随机方式生成采样数据,每次采样是各自独立的。 过滤与映射: 对数据按照过滤表达式进行筛选。"过滤条件"中填写where语句后面的sql脚本即可;"映射规则"可以rename字段名称。 分层采样 : 根据用户指定的分组字段分层采样样本 数据合并 JOIN: 类似sql join的功能,将两张表通过一个字段关联合成一张表;同时用户可以rename输出的字段名称 合并列: 将两张表的数据按列合并,需要表的行数保持一致,否则报错。 UNION: 类似sql union的功能,将两张表的数据按行合并,左、右表选择输出的字段保持完全一致;"去重"是union,不"去重"是union all。 增加序列号 在数据表第一列追加ID列。 缺失值填充 忽略元组 人工填写缺失值 使用全局常量(如Unknown)填写缺失值 使用属性的中心度量(如均值或者中位数)填充缺失值 使用与给定元组属同一类的所以样本的属性均值或中心值 使用最可能的值填充缺失值 拆分 按照比例拆分样本集,如设置0.6,切分成60:40两个样本集 归一化 min-max 标准化 也称为离差标准化,是对原始数据的线性变换,使结果值映射到[0 - 1]之间。转换函数如下: 其中max为样本数据的最大值,min为样本数据的最小值。这种方法有个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。 标准化 Z-score标准化方法 这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1,转化函数为: 结合赛题的实际情况所做的一些具体的数据预处理步骤 特征工程 菜鸟-需求预测与分仓规划项目的特征工程 特征变换 特征变换 随机森林 特征重要性评估 特征重要性评估 特征选择与生成 统计分析 机器学习 机器学习 机器学习 机器学习 机器学习 机器学习 评估 评估 软件著作权 总结 1、找工作要早作准备 2、大数据工作类型IrY红软基地

展开

同类推荐

热门PPT

相关PPT