体育统计学论文PPT

简介 相关

截图

体育统计学论文PPT

简介

这是一个关于体育统计学论文PPT,主要介绍绪论,统计资料的收集与整理,样本特征数,正态分布,统计推断,方差分析(单因素方差分析),相关分析,回归分析。(一元线性回归)等等内容。体育统计学 第一章 绪论 第一节 体育统计及其研究对象统计的作用 ▲ 统计的分类(从性质上)(一) 描述性统计 对事物的特征与状态进行数量描述 体育统计的概念体育统计是运用数理统计的原理和方法对体育领域里各种随机现象规律性进行研究的一门基础应用学科。属于方法论学科范畴。理解: 1:用普遍的方法研究特殊领域的问题。 2:无论描述统计还是推断统计,都服务于对随机现象规律性的研究。 ▲ 统计工作的基本过程 统计资料的搜集:(基础环节) ——根据研究设计的要求获取有关数据资料。 统计资料的整理:(中间环节) ——按照分析的要求对数据资料进行审核和分类。 统计资料的分析:(决定性阶段) ——按照研究目的对整理后的数据进行统计学处理。 ▲ 体育统计的研究对象及其特征研究对象:(1)体育领域里的各种可量化的随机现象。(2)非体育领域里对体育发展有关的各种随机现象。 ▲ 体育统计研究对象的特征运动性特征: ——反映运动能力心理能力等方面的数量指标是具有 运动性特征的。(1,与运动有关;2,是动态的)综合性特征: ——兼有自然科学和社会科学的综合属性。客观性特征: ——数据来源于客观事物本身,是对客观事物的反映。 第二节 体育统计在体育活动中的作用是体育教育科研活动的基础有助于训练工作的科学化能帮助研究者制定研究设计能帮助研究者有效地获取文献资料第三节 体育统计中的若干基本概念总体与个体 1,总体的概念:根据统计研究的具体研究目的而确定的同质对象的全体。2,个体的概念:组成总体的每个基本单位,欢迎点击下载体育统计学论文PPT哦。

体育统计学论文PPT是由红软PPT免费下载网推荐的一款体育课件PPT类型的PowerPoint.

体育统计学 第一章 绪论 第一节 体育统计及其研究对象统计的作用 ▲ 统计的分类(从性质上)(一) 描述性统计 对事物的特征与状态进行数量描述 体育统计的概念体育统计是运用数理统计的原理和方法对体育领域里各种随机现象规律性进行研究的一门基础应用学科。属于方法论学科范畴。理解: 1:用普遍的方法研究特殊领域的问题。 2:无论描述统计还是推断统计,都服务于对随机现象规律性的研究。 ▲ 统计工作的基本过程 统计资料的搜集:(基础环节) ——根据研究设计的要求获取有关数据资料。 统计资料的整理:(中间环节) ——按照分析的要求对数据资料进行审核和分类。 统计资料的分析:(决定性阶段) ——按照研究目的对整理后的数据进行统计学处理。 ▲ 体育统计的研究对象及其特征研究对象:(1)体育领域里的各种可量化的随机现象。(2)非体育领域里对体育发展有关的各种随机现象。 ▲ 体育统计研究对象的特征运动性特征: ——反映运动能力心理能力等方面的数量指标是具有 运动性特征的。(1,与运动有关;2,是动态的)综合性特征: ——兼有自然科学和社会科学的综合属性。客观性特征: ——数据来源于客观事物本身,是对客观事物的反映。 第二节 体育统计在体育活动中的作用是体育教育科研活动的基础有助于训练工作的科学化能帮助研究者制定研究设计能帮助研究者有效地获取文献资料第三节 体育统计中的若干基本概念总体与个体 1,总体的概念:根据统计研究的具体研究目的而确定的同质对象的全体。 2,个体的概念:组成总体的每个基本单位。 3,总体的分类: 有限总体:基本研究单位的边界是明晰的,并且基本研究单位的数量是有限的总体。无限总体:基本研究单位的数量是无限多个的总体。 样本 1,样本的概念: ——根据研究需要与可能,从总体中抽取的部 分研究对象所形成的子集为样本。 2,样本的分类:随机样本和非随机样本 必然事件和随机事件 1,必然事件:在确定的条件范围内,必然发生 (或不发生)的事件。 (具备可预言性) 2,随机事件:在一定的实验条件下,有可能发生,也有可能不发生的事件。(具备不可预言性,只能猜)随机变量 1,随机变量:随机事件的数量表现。 总体参数和样本统计量 1,总体参数:反映总体数量特征的指标。 2,样本统计量:反映样本数量特征的指标。概率 1,古典概率:适用于总体明晰的情况下。 2:统计概率:适用于总体状况不明的情况下。 ▲ 补充内容:连加和的缩写式 ★ 在高等数学中,采用连加求和缩写式形式来表示连加求和数,它的一般形式为: 其中:∑连加求和号 变量(一组观测数据) 在 中, i 是下标,n 是上标 , i 、n 表示连加求和的界限,即从通项公式具体分解的第一项开始相加一直到第n项为止。各具体项根据 i 的取值不同而有所不同,i 取1为第一项,取“n”为第n项。 课堂练习:展开连加和缩写式体育统计学 第二章 统计资料的收集与整理 第一节 统计资料的收集 ▲ 收集资料的基本要求 1:资料的准确性 2:资料的齐同性 3:资料的随机性 ▲ 收集资料的基本方法 1:日常积累 2:全面普查 3:专题研究 ▲ 几种常用的抽样方法简单随机抽样(完全随机抽样)抽取特点:1:不分组,不分类,不排队地抽取; 2:总体中每个个体都有被抽中的机会; 3:总体中每个个体被抽中的机会是均等的。抽取方法:1:抽签法 2:随机数表法(见随机数表)该方法的优点:样本代表性好该方法的缺点:总体含量大时,编号困难。工作量大。 ▲ 几种常用的抽样方法分层抽样抽取步骤方法: 1:按属性特征分成若干类型、部分或层; 2:在类型、部分或层中按照比例进行简单随机抽样。分层的需注意的问题: 1:层间必须有清晰的界面;(类间差异大,类内差异小) 2:必须知道各类型中的个体数目和比例; 3:层的数目不宜太多,但也不要极少。分层抽样的优点: 1:能够提高样本代表性,又不至于给调查工作带来麻烦,在代表性和工作量之间做出了平衡; 2:适用于总体情况复杂、个体数目较多的情况。分层抽样范例 ▲ 几种常用的抽样方法整群抽样整群抽样的特点:区别于简单随机抽样和分层抽样,抽样的单位不再是总体中的个体,是总体中的划分出来的群。划分群应注意的问题: 群间差异要小,群内差异要大。讨论: 调查广东省初中毕业生体质达标的情况。如何抽样? 第二节 统计资料的整理 ▲ 资料的审核 1:初审——简单排误 2:逻辑检查——专业知识、常识,指标关系间排误 3:复核——按比例抽样复核 ▲ 频数整理——频数分布表的制作频数分布表的编制 (实例) 分组方法单变量值分组 1. 将一个变量值作为一组 2. 适合于离散变量 3. 适合于变量值较少的情况单变量值分组表组距分组 将变量值的一个区间作为一组适合于连续变量适合于变量值较多的情况必须遵循“不重不漏”的原则可采用等距分组,也可采用不等距分组组距分组的步骤(等距分组)求全距(极差)R:R=最大值-最小值确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,可以按 Sturges 提出的经验公式来确定组数K 确定组距I:组距(Class Width)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即:组距=( 最大值-最小值)÷ 组数 (k)确定组限 (组限:是指每组的起点值与终点值) 5. 根据分组整理成频数分布表 ★ 填写组限 按照从上到下、从小到大的顺序填写,只写下限,不写上限 ★ 划记 将数据逐个划记到相应的组中,五个为一组 ★ 计算:频数(f);频率;组中值( 组中值=该组下限 + 组距/2 ) 组距分组涉及的几个概念 1. 下 限:一个组的最小值 2. 上 限:一个组的最大值 3. 组 距:上限与下限之差 4. 组中值:下限与上限之间的中点值 课堂练习 4.确定组限: 第一组下限(L1)=最小值(Xmin) - 组距(I)/2 =107 -5 /2 =104.5≈105 其他组组限的确定:从第一组开始,每一组的下限加上组距,就得到该组的上限,此上限又是下一组的下限,于是就形成了一列左闭右开的半开区间 5.根据分组整理成频数分布表:(略,参照书P17-P18)需要说明的几个问题 关于组数的确定: 1:可以依据已有的成熟的专业经验来确定; 2:可参考前苏联专家制定的参考表(如右表)确定: 关于图形的绘制:可以绘制直观的图形来方便了解数据的信息。较常使用的图形形式有多边形图和直方图等。图形中,一般横坐标代表组限,纵坐标代表频数。《作业》 1.每人准备一本固定的作业本。 2.教材P19第二章习题第4题,按照步骤与格式制作频数分布表及其直方图。体育统计学第三章 样本特征数第一节 集中位置量数数据的分布特征及其测量指标集中趋势(Central tendency) 中位数 (Median) 中位数,又称中数,中点数。 符号Md (Median),定义:是指位于一组数据中较大一半与较小一半中间位置的那个数。 中位数 (Median) 特征:此数可能是数据中的某一个,也可能根本不是原有的数据。不受极端值的影响计算方法:将数据依大小次序排列,若数据个数为奇数,则取数列中间的那个数为中数;若数据个数为偶数,则取中间两个数的平均数为中数。 众数 (Mode) 概念:样本观测值在频数分布表中频数最多的那一组的组中值。(分组数据的众数,属于引申概念)原始概念:众数,符号Mo,它指在一组数中出现次数最多的那个数。计算方法是直接找到出现次数最多的那个数。众数具有不唯一性。例如:分组数据中众数的计算频数最多的那一组的组中值。如书P21-P22: 练习:找找众数,利用上次所做的作业。几何平均数概念:样本观测值的连乘积,并以样本观测值的总数作为次数,开方所得的数据。主要适用于一组数据中有少量数据偏大或偏小,数据分布呈偏态。计算公式: 举例说明:1,2,3,4,8,16,42,108 见教材P22,例题3.4 算术平均数算术平均数简称为平均数或均值,符号为M(Mean)总体算术平均数:希腊字母μ (音:miu) 样本算术平均数:英文字母 (音:X bar)。算术平均数是由所有数据之和除以数据个数所得的商数,用公式表示为: 算术平均数在应用上有如下特点: ①算术平均数是一个良好的集中量数,具有反应灵敏、确定严密、简明易解、计算简单、适合进一步演算和较小受抽样变化的影响等优点。 ②算术平均数易受极端数据的影响,这是因为平均数反应灵敏,每个数据的或大或小的变化都会影响到最终结果。第二节:离中趋势量数 全距(极差,两极差)概念:一组数据最大值与最小值之差。公式: R=最大值(Xmax) -最小值(Xmin)特征与缺陷: 1:能够了解数据的范围(区域,区间)。 2:只考虑极值,容易受到异常数据的影响,属于粗略的指标值,精细程度不够。绝对差与平均差绝对差: 平均差;方差和标准差 1:是离散程度的测量指标值之一,最常用。 2:能反映数据的分布。 3:能反映各变量值与均值的平均差异。 4:根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差。 总体方差和标准差的计算公式样本方差和标准差自由度(degree of freedom) 一组数据中可以自由取值的数据的个数当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值例如,样本有3个数值,即x1=2,x2=4,x3=9,则 x = 5。当 x = 5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值样本方差用自由度去除,其原因可从多方面来解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差σ2时,它是σ2的无偏估计量 平均数与标准差在体育中的应用平均数与标准差在决策中的直接应用。 变异系数在稳定性研究中的应用。 法在原始数据逻辑审核中的应用。 平均数与标准差在决策中的直接应用例题:教练员要从两名标枪运动员中决定一人参加 比赛,如何作出决策? 队员甲:40.50;41.26;40.44;39.62;40.12 42.10;39.84;40.18;38.70;39.54 队员乙:40.48;42.88;40.50;39.50;38.00; 43.32;38.72;41.82;36.84;40.24 简单应用平局数与标准差进行数据决策的步骤: 1:确定样本数据的全域。 2:确定样本数据的平均水平。 3:确定样本数据的离散程度。 4:根据专业专项应用要求采取相应不同决策。注意:决策前提是认同所取得的数据是真实客观有效的。 变异系数在稳定性研究中的应用例题:某运动员主项为100m跑,兼项为跳远,在竞技期内,其主、兼项目测试结果如下: 100m: s s 跳远: m m 试比较该运动员主项、兼项成绩的稳定性。 (试比较该运动员100m跑、跳远两成绩的离散程度。)解答:二者的指标单位不同且性质不同,不能够直接进行比较。 依据变异系数的概念特征,可以计算CV进行比较: 由于该运动员100m跑的CV<跳远的CV,故该运动员的100m跑的成绩比跳远成绩稳定。(或说100m跑成绩的离散程度小于跳远成绩) 例题:随机抽取某市300名初中男生的身高,经检验基本服从正态分布,并得出 cm, cm,在这300名学生中,有三人的身高原始数据为 cm, cm, cm。试用 法检查这三个数据是否为可疑数据。 法进行原始数据逻辑审核的步骤: 1:求 的下限和上限。 2:数据检验,看数据是否存在 [ 下限,上限 ] 区间之内。 3:作出初步判定 a:在区间之内,可以初步认定数据正常; b:在区间之外,需要进一步审核数据的准确性。 《作业》 1.计算教材P19第二章习题第4题中样本数据的所有集中量数指标和离散量数指标。 2.教材P39第三章习题第2题。 3.自习教材第三章与第四章未讲到的内容。体育统计学第五章 正态分布 正态分布的概念与性质 正态分布的重要性 1. 描述连续型随机变量的最重要的分布 2. 可用于近似连续型的离散变量的分布 3. 经典统计推断的基础概率密度函数 f(x) :随机变量 X 的频数  :总体方差  =3.14159; e = 2.71828 x = 随机变量的取值 (- < x < )  = 总体均值正态分布函数的一些性质概率密度函数在x 的上方,即f (x)>0 正态曲线的最高点在均值,它也是分布的中位数和众数正态分布是一簇分布,每一特定正态分布通过均值和标准差来区分。 决定曲线的位置,称为位置参数;决定曲线的形状,称为形状参数。曲线f(x)相对于均值对称,尾端向两个方向无限延伸,且理论上永远不会与横轴相交正态曲线下的总面积等于1,即概率值等于1 随机变量的概率由曲线下的面积给出 和 对正态曲线的影响正态分布的概率标准正态分布标准正态分布 ★ 标准正态分布的重要性一般正态分布的不同取决于均值和标准差 计算概率时 ,每一个一般正态分布都需要有自己的正态概率分布表,这种表格是无穷多的。若能将一般正态分布转化为标准正态分布,计算概率时就只需查一张表(标准正态分布表)就可以了。 先将一个一般正态分布转换为标准正态分布计算概率时,查标准正态概率分布表对于负的 x ,可由 (-x)-  x得到对于标准正态分布,即X ~N(0,12),有 P (a X b)  b  a P (|X| a) 2 a 1 对于一般正态分布,即X ~N( , 2),有 标准化的例子A(5,102) 标准化的例子B(5,102)正态分布(实例) 正态分布(实例)正态分布(实例)【例】设X~N(1,4),求P (0F ,则拒绝原假设H0 ,表明均值之间的差异是显著的,所检验的因素(A)对观察值有显著影响若FF ,则不能拒绝原假设H0 ,表明所检验的因素(A)对观察值没有显著影响 单因素方差分析表 (基本结构) 单因素方差分析 (一个例子)单因素方差分析 (一个例子)单因素方差分析 (计算结果)解:设四个行业被投诉次数的均值分别为,m1、m2 、m3、m4 ,则需要检验如下假设 H0: m1 = m2 = m3 = m4 (四个行业的服务质量无显著差异) H1: m1 ,m2 ,m3, m4不全相等 (有显著差异) Excel输出的结果如下 ★ 方差分析中的多重比较 (作用)多重比较是通过对总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异多重比较方法有多种,这里介绍Fisher提出的最小显著差异方法,简写为LSD,该方法可用于判断到底哪些均值之间有差异 LSD方法是对检验两个总体均值是否相等的t检验方法的总体方差估计加以修正(用MSE来代替)而得到的 方差分析中的多重比较 (步骤)提出假设 H0: mi = mj (第i个总体的均值等于第j个总体的均值) H1: mi  mj (第i个总体的均值不等于第j个总体的均值) 检验的统计量为 方差分析中的多重比较 (基于统计量xi-xj的LSD方法)通过判断样本均值之差的大小来检验 H0 检验的统计量为 :xi – xj 检验的步骤为 提出假设 H0: mi = mj (第i个总体的均值等于第j个总体的均值) H1: mi  mj (第i个总体的均值不等于第j个总体的均值) 计算LSD 方差分析中的多重比较 (实例)根据前面的计算结果: x1=27.3;x2=29.5; x3=26.4;x4=31.4 提出假设 H0: mi = mj ;H1: mi  mj 计算LSD 方差分析中的多重比较 (实例)体育统计学第八章相关分析变量间的关系 (函数关系)是一一对应的确定关系设有两个变量 x 和 y ,变量 y 随变量 x 一起变化,并完全依赖于 x ,当变量 x 取某个数值时, y 依确定的关系取相应的值,则称 y 是 x 的函数,记为 y = f (x),其中 x 称为自变量,y 称为因变量各观测点落在一条线上 变量间的关系 (相关关系)变量间关系不能用函数关系精确表达一个变量的取值不能由另一个变量唯一确定当变量 x 取某个值时,变量 y 的取值可能有几个各观测点分布在直线周围 相关关系的类型相关关系的图示相关系数对变量之间关系密切程度的度量对两个变量之间线性相关程度的度量称为简单相关系数或积差相关系数。若相关系数是根据总体全部数据计算的,称为总体相关系数,记为若是根据样本数据计算的,则称为样本相关系数,记为 r 简单相关系数 (积差相关系数) 样本相关系数的计算公式相关系数取值及其意义 r 的取值范围是 [-1,1] |r|=1,为完全相关 r =1,为完全正相关 r = -1,为完全负正相关 r = 0,不存在线性相关 -1  r < 0,为负相关 0 < r  1,为正相关 |r| 越趋于1表示关系越密切; |r| 越趋于0表示关系越不密切相关系数取值及其意义相关系数的计算(实例) 相关关系的计算(实例)解:根据样本相关系数的计算公式, 相关系数的显著性检验 1. 目的在于检验两个变量之间的线性相关关系是否显著。等价于对回归系数 b1的检验采用 t 检验检验的步骤为第一步:提出假设:H0:   ;H1:   0 相关系数的显著性检验若IrI大于表上的=5%相应的值,且小于表上=1%相应的值,称变量x与y之间有显著的线性关系若IrI大于表上=1%相应的值,称变量x与y之间有十分(非常)显著的线性关系若IrI小于表上=5%相应的值,称变量x与y之间没有明显的线性关系 相关系数的显著性检验(实例)以例8.1为例:对其相关系数进行检验解:第一步:提出假设: H0:   ;H1:   0 第二步:计算检验统计量: 相关系数的显著性检验(实例)体育统计学第九章 回归分析(一元线性回归)什么是回归分析? (内容)从一组样本数据出发,确定变量之间的数学关系式对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度回归分析与相关分析的区别相关分析中,变量 x 变量 y 处于平等的地位;回归分析中,变量 y 称为因变量,处在被解释的地位,x 称为自变量,用于预测因变量的变化相关分析中所涉及的变量 x 和 y 都是随机变量;回归分析中,因变量 y 是随机变量,自变量 x 可以是随机变量,也可以是非随机的确定变量相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量 x 对变量 y 的影响大小,还可以由回归方程进行预测和控制 回归模型的类型回归模型与回归方程回归模型回答“变量之间是什么样的关系?” 方程中运用 1 个数字的因变量(响应变量) 被预测的变量 1 个或多个数字的或分类的自变量 (解释变量) 用于预测的变量 3. 主要用于预测和估计一元线性回归模型 (概念要点)当只涉及一个自变量时称为一元回归,若因变量 y 与自变量 x 之间为线性关系时称为一元线性回归对于具有线性关系的两个变量,可以用一条线性方程来表示它们之间的关系描述因变量 y 如何依赖于自变量 x 和误差项 的方程称为回归模型一元线性回归模型 (概念要点) 对于只涉及一个自变量的简单线性回归模型可表示为 y = b0 + b1 x + e 模型中,y 是 x 的线性函数(部分)加上误差项线性部分反映了由于 x 的变化而引起的 y 的变化误差项  是随机变量反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响是不能由 x 和 y 之间的线性关系所解释的变异性0 和 1 称为模型的参数一元线性回归模型 (基本假定)误差项ε是一个期望值为0的随机变量,即E(ε)=0。对于一个给定的 x 值,y 的期望值为E ( y ) = 0+  1 x 对于所有的 x 值,ε的方差σ2 都相同误差项ε是一个服从正态分布的随机变量,且相互独立。即ε~N( 0 ,σ2 ) 独立性意味着对于一个特定的 x 值,它所对应的ε与其他 x 值所对应的ε不相关对于一个特定的 x 值,它所对应的 y 值与其他 x 所对应的 y 值也不相关回归方程 (概念要点)描述 y 的平均值或期望值如何依赖于 x 的方程称为回归方程简单线性回归方程的形式如下 E( y ) = 0+ 1 x 估计(经验)的回归方程参数 0 和 1 的最小二乘估计最小二乘法 (概念要点)最小二乘法 (图示)最小二乘法 ( 和 的计算公式)估计方程的求法 (实例) 【例】根据例10.1中的数据,配合人均消费金额对人均国民收入的回归方程 根据 和 的求解公式得估计(经验)方程 人均消费金额对人均国民收入的回归方程为估计方程的求法 (Excel的输出结果)回归方程的显著性检验离差平方和的分解因变量 y 的取值是不同的,y 取值的这种波动称为变差。变差来源于两个方面由于自变量 x 的取值不同造成的除 x 以外的其他因素(如x对y的非线性影响、测量误差等)的影响对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差 来表示离差平方和的分解 (图示)离差平方和的分解 (三个平方和的关系) 2. 两端平方后求和有离差平方和的分解 (三个平方和的意义)总平方和(SST) 反映因变量的 n 个观察值与其均值的总离差回归平方和(SSR) 反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和残差平方和(SSE) 反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和样本决定系数 (判定系数 r2 )回归平方和占总离差平方和的比例 回归方程的显著性检验 (线性关系的检验 )检验自变量和因变量之间的线性关系是否显著具体方法是将回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用F检验来分析二者之间的差别是否显著如果是显著的,两个变量之间存在线性关系如果不显著,两个变量之间不存在线性关系回归方程的显著性检验 (检验的步骤)提出假设 H0:线性关系不显著 回归方程的显著性检验 (方差分析表)估计标准误差 Sy 实际观察值与回归估计值离差平方和的均方根反映实际观察值在回归直线周围的分散状况从另一个角度说明了回归直线的拟合程度计算公式为回归系数的显著性检验 (要点)回归系数的显著性检验 (样本统计量 的分布)回归系数的显著性检验 (样本统计量 的分布)回归系数的显著性检验 (步骤)提出假设 H0: b1 = 0 (没有线性关系) H1: b1  0 (有线性关系) 计算检验的统计量回归系数的显著性检验 (实例)提出假设 H0:b1 = 0 人均收入与人均消费之间无线性关系 H1:b1  0 人均收入与人均消费之间有线性关系计算检验的统计量回归系数的显著性检验 (Excel输出的结果)预测及应用利用回归方程进行估计和预测根据自变量 x 的取值估计或预测因变量 y的取值估计或预测的类型点估计 y 的平均值的点估计 y 的个别值的点估计区间估计 y 的平均值的置信区间估计 y 的个别值的预测区间估计利用回归方程进行估计和预测 (点估计)利用回归方程进行估计和预测 (点估计) y 的平均值的点估计利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值的一个估计值E(y0) ,就是平均值的点估计在前面的例子中,假如我们要估计人均国民收入为2000元时,所有年份人均消费金额的的平均值,就是平均值的点估计。根据估计的回归方程得 利用回归方程进行估计和预测 (点估计) y 的个别值的点估计利用回归方程进行估计和预测 (区间估计)点估计不能给出估计的精度,点估计值与实际值之间是有误差的,因此需要进行区间估计对于自变量 x 的一个给定值 x0,根据回归方程得到因变量 y 的一个估计区间区间估计有两种类型置信区间估计预测区间估计利用回归方程进行估计和预测 (置信区间估计) y 的平均值的置信区间估计 利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值E(y0)的估计区间 ,这一估计区间称为置信区间 E(y0) 在1-置信水平下的置信区间为利用回归方程进行估计和预测 (置信区间估计:算例) 【例】根据前例,求出人均国民收入为1250.7元时,人均消费金额95%的置信区间 解:根据前面的计算结果 =712.57,Sy=14.95,t(13-2)=2.201,n=13 置信区间为利用回归方程进行估计和预测 (预测区间估计) y 的个别值的预测区间估计 利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的一个个别值的估计区间,这一区间称为预测区间 y0在1-置信水平下的预测区间为利用回归方程进行估计和预测 (置预测区间估计:算例) 【例】根据前例,求出1990年人均国民收入为1250.7元时,人均消费金额的95%的预测区间 解:根据前面的计算结果有 =712.57,Sy=14.95,t(13-2)=2.201,n=13 置信区间为影响区间宽度的因素 1. 置信水平 (1 - ) 区间宽度随置信水平的增大而增大 2. 数据的离散程度 (s) 区间宽度随离散程度的增大而增大 3. 样本容量区间宽度随样本容量的增大而减小 4. 用于预测的 xp与x的差异程度区间宽度随 xp与x 的差异程度的增大而增大置信区间、预测区间、回归方程 多元线性回归模型多元线性回归模型 (概念要点)一个因变量与两个及两个以上自变量之间的回归描述因变量 y 如何依赖于自变量 x1 , x2 ,…, xp 和误差项  的方程称为多元线性回归模型涉及 p 个自变量的多元线性回归模型可表示为多元线性回归模型 (概念要点) 对于 n 组实际观察数据(yi ; xi1,,xi2 ,  ,xip ),(i=1,2,…,n),多元线性回归模型可表示为多元线性回归模型 (基本假定)自变量 x1,x2,…,xp是确定性变量,不是随机变量随机误差项ε的期望值为0,且方差σ2 都相同误差项ε是一个服从正态分布的随机变量,即ε~N(0,σ2),且相互独立多元线性回归方程 (概念要点)描述 y 的平均值或期望值如何依赖于 x1, x1 ,…,xp的方程称为多元线性回归方程多元线性回归方程的形式为 E( y ) = 0+ 1 x1 + 2 x2 +…+ p xp 多元线性回归方方程的直观解释多元线性回归的估计(经验)方程总体回归参数 是未知的,利用样本数据去估计参数的最小二乘估计参数的最小二乘法 (要点)回归方程的显著性检验多重样本决定系数 (多重判定系数 R2 )回归平方和占总离差平方和的比例 修正的多重样本决定系数 (修正的多重判定系数 R2 )由于增加自变量将影响到因变量中被估计的回归方程所解释的变异性的数量,为避免高估这一影响,需要用自变量的数目去修正R2的值用n表示观察值的数目,p表示自变量的数目,修正的多元判定系数的计算公式可表示为回归方程的显著性检验 (线性关系的检验 )检验因变量与所有的自变量和之间的是否存在一个显著的线性关系,也被称为总体的显著性检验检验方法是将回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用 F 检验来分析二者之间的差别是否显著如果是显著的,因变量与自变量之间存在线性关系如果不显著,因变量与自变量之间不存在线性关系回归方程的显著性检验 (步骤)提出假设 H0:12p=0 线性关系不显著 H1:1,2,,p至少有一个不等于0 回归系数的显著性检验 (要点)如果F检验已经表明了回归模型总体上是显著的,那么回归系数的检验就是用来确定每一个单个的自变量 xi 对因变量 y 的影响是否显著对每一个自变量都要单独进行检验应用 t 检验在多元线性回归中,回归方程的显著性检验不再等价于回归系数的显著性检验回归系数的显著性检验 (步骤)提出假设 H0: bi = 0 (自变量 xi 与 因变量 y 没有线性关系) H1: bi  0 (自变量 xi 与 因变量 y有线性关系) 计算检验的统计量 t 一个二元线性回归的例子一个二元线性回归的例子 (Excel 输出的结果) 一个二元线性回归的例子 (计算机输出结果解释) 销售额与人口数和年人均收入的二元回归方程为 非线性回归 1. 因变量 y 与 x 之间不是线性关系 2. 可通过变量代换转换成线性关系用最小二乘法求出参数的估计值并非所有的非线性模型都可以化为线性模型几种常见的非线性模型 指数函数几种常见的非线性模型 幂函数几种常见的非线性模型 双曲线函数几种常见的非线性模型 对数函数几种常见的非线性模型 S 型曲线非线性回归 (实例) 【例】为研究生产率与废品率之间的关系,记录数据如下表。试拟合适当的模型。非线性回归 (实例)非线性回归 (实例)用线性模型:y =01x+ ,有 y = 2.671+0.0018x 用指数模型:y =  x ,有 y =4.05(1.0002)x 比较 直线的残差平方和=5.3371<指数模型的残差平方和=6.11。直线模型略好于指数模型本章小结相关系数与相关分析一元线性回归模型、回归方程与估计的回归方程多元线性回归模型、回归方程与估计的回归方程回归方程与回归系数的显著性检验非线性回归的线性化 5. 用Excel 进行回归分析5nG红软基地

展开

同类推荐

热门PPT

相关PPT