截图
简介
这是一个关于体育统计学论文PPT课件,主要介绍了体育统计的性质与作用、基本内容和意义、统计资料的收集与整理、样本特征数、概率和概率分布、体育评分方法、非参数检验、单因素方差分析、回归分析等内容。体育统计学任课教师:陆瑞当 (私人演示讲稿 不得翻录) 体育统计学棒、垒球的魅力 第一章 绪论一、概念: 1、体育统计——以辩证唯物主义思想为指导,应用数理统计 的理论和方法,对体育随机现象的数量描述,揭示体育领域中事物发展变化的内在规律。 2、数理统计——以概率论为基础,专门研究数据的搜集、整理、分析和推断的一门学科。(内容有:数据的处理;样本统计量的研究;统计推断;方差分析;回归分析;抽样理论;质量控制;试验设计等。) 二、数理统计作用 o 产生原因:技术掌握程度;生理条件;心理状态;社会历史背景和地理环境等因素有关。第二节 基本内容和意义(重点和难点) 2、推断统计:(1)概念: 推断统计是指在描述统计的基础上,用样本统计量去推断总体的性质,并说明判断可能产生误差的范围。(2)主要内容: 参数的估计和假设检验。 3、调查或试验设计(1)概念; 调查或试验设计是根据研究目的用最简便方法取得原始数据达到科学效果。 其内容有多种多样。 二、学习体育统计的目的和意义。三、学习要求和方法小结:1、体育统计的基本概念。2、体育统计学研究对象。3、体育随机现象的特点,欢迎点击下载体育统计学论文PPT课件哦。
体育统计学论文PPT课件是由红软PPT免费下载网推荐的一款学校PPT类型的PowerPoint.
体育统计学任课教师:陆瑞当 (私人演示讲稿 不得翻录) 体育统计学棒、垒球的魅力 第一章 绪论一、概念: 1、体育统计——以辩证唯物主义思想为指导,应用数理统计 的理论和方法,对体育随机现象的数量描述,揭示体育领域中事物发展变化的内在规律。 2、数理统计——以概率论为基础,专门研究数据的搜集、整理、分析和推断的一门学科。(内容有:数据的处理;样本统计量的研究;统计推断;方差分析;回归分析;抽样理论;质量控制;试验设计等。) 二、数理统计作用 o 产生原因:技术掌握程度;生理条件;心理状态;社会历史背景和地理环境等因素有关。第二节 基本内容和意义(重点和难点) 2、推断统计:(1)概念: 推断统计是指在描述统计的基础上,用样本统计量去推断总体的性质,并说明判断可能产生误差的范围。(2)主要内容: 参数的估计和假设检验。 3、调查或试验设计(1)概念; 调查或试验设计是根据研究目的用最简便方法取得原始数据达到科学效果。 其内容有多种多样。 二、学习体育统计的目的和意义。三、学习要求和方法小结: 1、体育统计的基本概念。 2、体育统计学研究对象。 3、体育随机现象的特点。 4、体育统计的三个基本内容。 5、学习的目的、要求和方法。第二章 统计资料的收集与整理 一、内容简介 本章将介绍体育统计工作很重要的第一步。其主要包括体育统计工作资料收集的来源;收集统计资料的常用方法;整理统计资料的步骤和方法。二、重点和难点 1.如何收集体育统计的原始资料 2.收集体育统计资料应该值得注意的问题 3.整理体育统计资料的步骤和计算方法三、学习方法和要求 1.要求掌握收集体育统计资料的基本方法,能根据研究目的学会收集并保证收集到原始资料的完整性和准确性。 2.要求反复自练,熟练掌握整理资料的步骤和计算方法。第一节 体育统计资料的收集 在收集资料之前必须根据研究目的和统计原则,对需要 收集资料的内容、项目和指标进行深思熟虑;对研究的对象和统计方法仔细选择。然后,按照统计原则和要求制定收集资料的细则,尽可能用较少的人力、物力和财力获取原始资料的科学性(即资料的有效性、可靠性和客观性),使统计资料的误差降到最低限度。一、体育统计资料的来源 根据辩证唯物主义的理论和观点,通过各种渠道获取与体育有相互关系的信息等方面的数字或数据都可称为体育统计资料。因此,体育统计资料的来源来自多方面,有时这些资料可以说是杂乱无章,其中还有错、漏等问题的存在,必须进行审查和整理。如对某种教学或训练方法前、后效果多种指标的测试;运动员选材多种指标的测试;生理指标、心理指标的测定;运动生化试验和生物力学的测试;学校体育的情况调查;少数民族体质调查等等。资料的来源一般是根据研究目的去搜集获得。我们将其分成三种类型: 0 (一)体育测验 体育测验的具体形式包括各种大小比赛成绩,临场技、战术运用、反攻的成功率,身体素质、生理、心理指标测定等。其次是学生体育运动、体育理论学习的考查、考试成绩以及在教学、训练过程中,测得的各种指标等等,获得的大量原始数据都是体育统计资料的来源。(二)体育实验 体育实验主要是针对某一专题研究的目的,运用较精密仪器、量具对人体体育运动生理、生化以及体育机械等运动生物力学的测试结果获得数据资料。(三)体育调查 体育调查是对被测对象不施加任何处理过程的情况下,直接进行测试收集数据。其优点是相对省时。体育调查一般分为全面调查和非全面调查。非全面调查又包括典型调查、重点调查和随机抽样调查。随机抽样调查包括单纯随机抽样、机械抽样、类型抽样和整群抽样等四种方法,均属于概率抽样。 一、抽样的方法: 1、随机抽样: 在总体中随机抽取个体,不加任何限制,也叫无限制抽样。 2、机械抽样: 先将总体所有的个体依次编号排序,再按应该抽查的个体数,确定要抽查的个体间隔。例如:某市区有18000名12岁男孩,根据要求的概率和允许抽样误差范围,确定应抽查其中1000人进行身高、体重测试,则需要抽查的间隔应为:18000÷1000=18。然后,可从任何一个编号开始,每间隔17个号抽查1名,抽到满1000人为止。 3、类型抽样: 在抽样前,把总体中所有的个体按照一定的要求或规定划分成几种类型组,然后在每一类型组中随机抽取一定的个体。 4、整群抽样: 从总体中随机整群地抽取。其优点是容易组织,但抽取时过于集中,会影响抽样结果的代表性。二、收集体育统计资料常用方法 收集资料的方法有多种多样。常用的方法主要有:(一)专题研究资料的收集方法 专题研究包括实验研究和调查研究。它是根据研究的目的,在保证精度的前提下,用最小的样本含量获取比较完整、准确度和代表性较高的数据资料。其优点是提高研究工作效率。(二)日常资料的积累方法 主要是在日常生活和工作中,对教学、训练、群体活动和组织竞赛成绩等,都可以积累许多宝贵的数据,这是体育科学研究工作的重要资料来源。在使用这些数据时,要注意数据的准确性和保证测试条件的齐同性。 0 (三)全面普查法 是对研究总体中所有的个体都进行调查,因而需要大量的人力、财力、物力,工作时间长,任务重,同时量大,难组织。近几年我国曾进行的大中小学生体质调查研究就属于这种普查形式。开展普查工作,事先要有周密地安排,做到忙而不乱,测试后要对指标及时逐项审查,及时填补、更改漏测、错测数据,并对资料进行认真地整理与分析。(四)文献资料的收集 对已发表过的文献资料,结合自己的专业特点和须要或拟选的科研课题为核心,摘录起来,供研究时,进行比较和对照。三、收集资料应注意的几个问题 1.根据研究目的和体育统计的原则制订细则。 2.对收集的内容、测试的指标要能有效地反映出研究事物的属性。 3.保证原始数据的完整性、准确性,能精简尽量精简,不要太庞杂,用最少的人力、物力、财力获得真实、客观地反映出研究事物的属性。 4.为保证收集到可靠的资料,对测试应有统一的操作规程;统一的记录方法;拟定统一的记录表格;校对好测试仪器;对测试者和受试者进行思想动员,力求积极配合。第三节 统计资料的整理 为保证数据资料的准确性和完整性,对收集到的大量原始数据必须进行整理,使之由无序变成有序,呈现一定的规律性。常用的整理方法有分组法、频数分布法、指数法等,本节主要介绍频数分布法。一、原始数据的初审 对原始数据进行认真地审核,可以发现“漏、误、疑”数据。对缺漏数据要尽量填补或补测;对错误数据,要用时纠正或复测;对可疑数据要进行确认或复测,以上情况若不能复测,该数据应作废。 0 二、原始数据的复审 对原始数据的全面复审主要有以下三个方面: 1.逻辑检查 逻辑检查是运用逻辑推理方法,依据各项指标间的内在联系,对数据进行复审核处理,发现疑、误之处。如运动前后的脉搏,大腿长、小腿长的比例,身高、体重的比例等,是否符合一般规律。 2.计算检查 检验计算方法及结果是否正确,如体表面积,心、肺功能指数等。 3.抽样复查 经审核验收后,最好再来一次按比例进行随机抽查。三、频数分布表制作的步骤 1.求两极差:在全部观测值中,最大值与最小值之差称为极差,一般用R表示。其表达式: R = X max — X min 2.确定组数与组距: 分组多少要根据具体情况而定。分组过少,误差较大,而分组过多,计算繁琐。组数与样本含量有直接关系,现介绍前苏联的马萨利金分组表作为参考。 表 2 —1 分组参照表 1 样本含量(n) 分组组数(k) 30— 60 5— 8 60—100 7—10 100—200 9—11 200—500 11—16 0 0 3.确定组限:组限有两个:上限和下 限,一般数值由小到大,从上到下排 列,数值小者为下限数值大者为上限。 在确定组限时,要保证第一组应该包含最小值(R min),最后一组应该包含最大值(R max)。 4.列表划记:将每一个数据用一个竖杠或其它划记数方法表示均可。要求整齐、清楚和便于相加记数。 5.记数: 清点各组个数之和称为频数,一般用 f 表示。还可以计算相对频数(f /n)、 累计频数及累计频率等。 0 一、内容简介 本章将介绍体育统计工作很重要的第二步。其主要内容有样本平均数、标准差和变异系数的计算方法及应用。二、重点和难点 1.平均数、标准差和变异系数的计算方法 2.平均数、标准差的合成 3.变异系数在体育统计中的应用 三、学习方法和要求 1.要求熟练掌握平均数、标准差和变异系数的计算方法。 2.要求反复自练,弄清样本统计量的各自特征。 3.学会计算平均数和标准差的合成方法。第一节 平均数和标准差 体育统计是用样本的统计量来推测总体的参数,其统计量最常用的是均数和标准差。均数是反映同类对象观测值的平均水平与集中趋势的统计指标;标准差是反映数据资料变异程度的统计指标(即离散程度)。一、平均数的定义及其计算方法 1.定义 算术平均数(简称均数)是所有变量值Xi (i=1,2-------n)之和除以变量值的个数n所得的商。 2.计算方法 (1)原始数据直接计算法:此种计算方法适用于小样(n≤30)。见书上第22—23页。 (2)加权计算法:当变量值个数较多时(n≥30),用直接法计算比较麻烦,容易出错。可将原始数据分组后再用加权法计算。具体见书上第24页。 (3)简捷计算法: 当一组连续型数据被编制成等组距频数分布表时,我们用每个组的下限与频数的乘积之和除以总频数所得的商再加上半个组距(也称为组中值)。具体见书上第25页。注:集中量数是反映一组变量值的平均水平与集中趋势的统计指标。最常用的集中量数是平均数,它包括算术均数、中位数和众数等,以上主要介绍了算术平均数,其余自己复习。见书上第26—27页。 0 平均数作为集中趋势的一个指标,用来描述随机变量观测数系列的平均水平,但还不能充分地说明随机变量观测数系列分布的情况。有时虽然两个随机变量的平均数是相等,但随机变量的观测值分布在平均数两侧的离散程度却不一定相同。例如:(见下表) 两系列随机变量观测数比较表 1 系列 观 测 数 平均数 离散程度 甲 1 5 9 5 4(大) 乙 4.9 5 5.1 5 0.1(小) 随机变量甲和乙两系列的平均数都是5,但是甲系列数值的离散程度比乙系列要大得多。因此,为了进一步衡量这两个系列数值的特征,我们将引用标准差这样的一个量数来描述。二、标准差的定义及计算方法: 1.定义 各变量值与均数离差的平方和平均后的平方根值。定义式:S=√∑(X-μ)÷(n – 1) 2.计算方法劲(见书上第30页) 自由度:用(n-1)表示;是人们为了确定物体(或物体系)的位置而需要的独立变数的数目。例如:在三维空间内能自由运动的质点和刚体共有6个自由度(其中3个平移,3个转动),这是物理量上。在数学中是对变量个体数的限度描述。(度:程度;量度;限度。) 注:反映资料变异程度的统计指标有全距、方差和标准差等,其中最常用的是标准差。有关方差将在后面章节中叙述。第二节 变异系数的计算方法及应用一、定义:样本标准差与平均数的百分比称为变异系数,一般用符号CV表示。二、定义式: CV=(S÷µ)×100% 变异系数同标准差一样,是表示数据分布离散程度的指标之一。因为变异系数定义为标准差与均数之比,所以CV没有单位限制,既消除了均数对变异的影响,又适用于不同项目、不同单位数据之间变异程度的比较。三、变异系数的应用与计算 变异系数主要应用在比较两顶不同单位时,它们的离散程度。 例2-1 已知15岁女孩120人的平均数身高为157.38厘米,标准差为3.75厘米;平均体重为41.28公斤,标准差为2.87公斤。试比较身高与体重的变异程度。 解:根据题意和公式,分别计算身高与体重的变异系数 CV身高 = (3.75÷157.38)×100% = 2.38 % CV体重 = (2.87÷41.28)×100% = 6.95 % 因为有:CV体重>CV身高 所以,120名女孩子体重间的变异程度比身高间的变异程度大。 * 例题2-2:1973年测得中国男排12名队员纵跳高度70,77,79,77,76,73,71,77,70,83,76,77,试求平均数、标准差、变异数。(见书上第35页练习三)解:用计算器CASIO f x —3600P 操作步骤: (一)、开始部分 INV AC MODE 3 (二)、输入数据:7 0 RUN , 77 RUN, 79 RUN, 77 RUN,…,76 RUN, 77 RUN. (三)、调用数据 kout 3 显示 12 即样本含量 n = 12 INV 1 显示 75.50 即平均数为 75.50 INV 3 显示 3.87 即标准差为 3.87 (紧接按键)÷ INV 1 INV = 显示 5.129 即变异系数为 5.13% 若 kout 1 显示 68568 即∑X2=68568 kout 2 显示906 即∑X=906 例题2-3: 为测量跳远运动员踏板的精确性,以跳板前沿为起点线,超过取正值,不到取负值,现有A、B两运动员5次测验的距离 (厘米)如下,试问哪个运动员踏板的精确性好?第5题(书上第36页)A:-12,-14,3,-16,-20;B:5,-25,-30,-10,15 解:计算第一个运动员的平均数、标准差和变异系数 (计算器操作步骤) 第一步:INV AC MODE 3 第二步:12 +/- RUN ,14 +/- RUN, 3 RUN,16 +/- RUN, 20 +/- RUN 第三步:INV 3 ÷ INV1 INV = 显示 –74.46 (取绝对值) 即A运动员5次测验的变异系数为74.46% 。 INV 3 显示8.786353055为标准差; INV 1 显示-11.8为平均数。计算第二个运动员的平均数、标准差和变异系数 0 第一步:INV AC MODE 3 第二步:5 RUN 25 +/- RUN 30 +/- RUN 10 +/- RUN 15RUN 第三步: INV 3 显示19.17028951为标准差; INV 1 显示- 9为平均数。 INV 3 ÷ INV 1 INV = 显示 –213.003216 (取绝对值) 即B运动员5次测验的变异系数为 213.0032% 。(A好于B) 小结: 1、本章主要讲述了收集资料和资料的整理方法。 2、样本特征数的计算方法及其反映统计指标的集中(或离散)趋势。 3、变异系数的计算方法及其描述体育运动成绩的变异程度。 第四章 数理统计基本知识数理统计基本知识有:随机事件;概率及概率分布。一、内容简介 本章将介绍体育统计应用数理统计的基础理论是概率及其分布。其主要内容有概率的基本知识和标准正态分布在体育统计中的应用。二、重点和难点 1.概率的统计意义 2.标准正态分布的性质 3.标准正态分布在体育统计中的应用 三、学习方法和要求 1.要求明确、区分频率与概率及其概念 2.要求反复自练,弄清概率的计算方法。 3.熟练掌握、计算标准正态分布在体育中的应用。第一节 总体与样本一、常用的重要概念: 1、总体——根据研究目的确定研究同质对象的全体。 2、个体——总体中的每一个研究对象称为个体。 3、样本——从总体中随机抽取有代表性的部分个体。 4、样本含量——样本中所包含的个数称之。 5、参数——代表总体特征的统计指标称为参数。例如:总体平均数、总体标准差和总体样本率等。 6、统计量——由样本的统计指标得到的特征数称为统计量。例如:样本平均数、样本标准差和样本率等。注:总体和样本的概念是相对而言。具体应根据研究范围而确定。二、统计误差 1、概念 统计误差——把实验或调查得到的数据资料(或信息)与研究对象的真实情况存在的差异称为统计误差。 2、类型 主要分为两大类型:一类是测得值与真值之差,另一类是样本统计量与总体参数之差。第一类误差也称为测量误差 测量误差来源有多种因素造成,常见的有:(一)系统误差: 1.量具、仪表的误差。解决办法是准备工作要过细和用具的统一。 2.操作误差。解决办法是加强培训,提高操作能。 (二)过失误差:人为因素。即工作人员在实施的过程中,有意或无意的过错造成。解决办法是加强思想教育,提高工作效率。 (三) 随机测量误差:不可避免,尽量减小。如某运动员100米成绩是11.32秒,结果测得值是11.35秒,11.31秒,11.34秒等。这是体育统计具有随机性的特点之一。 第二类误差也称为抽样误差 由于随机抽样我们要求必须具有一定的代表性,但不可避免样本统计量与总体参数之间总会有一定的差异。解决方法是增加样本含量。三、有效数字 我们将从左起非零数字开始,清点有效数字的位数,命名它是几位有效数字。引入有效数字以后,将仅保留最后一位为估计数字。因此,有效数字一般包含有准确数和估计数字。如体重为45.6公斤即为3有效数字,45为准确数,6 为估计数字。 一、随机事件(见书上41页)在一定条件下,可能发生也可能不发生的事件。(记住几个概念和类型)若用一个变量指标X来表示即称为一个随机变量。二、概率 (概率的定义式分两种形式) 1、概率的古典定义 设在实验中全部等可能的、独立的基本结果有N个,其中有M个属于事件A,则在此实验中,称事件A出现的概率P等于M与N之比。(P(A)=M/N) * 对概率的古典定义式理解必须注意:等可能;独立的基本结果。见书第7页。 2、概率的统计意义 在重复无穷多次的条件下,该事件发生频率的稳定值。例如:在抽样调查或实验设计中,重复n次,事件A出现了m次,则称m/ n为事件A在n次实验中出现的频率。当n 不断扩大时,频率的取值逐渐稳定在一个常数p附近摆动,则称该事件A有概率,而且定义为:P=m/ n=p 必须注意:随机性是样本质量的重要条件;代表性是增 加样本统计量推断总体参数的准确性。 3、概率的重要性质 (1)、对任何随机事件A都有0≤P≤1 ,而且不为负值,其中有两个特例: ①当P(A)= 1时,概率为100%。说明这种事件每次试验都必定出现,称为必然事件。 ②当P(A)= 0时,概率为零。说明这种事件一次都不可能出现,称为不可能事件。 (2)、概率具有加法:P(A+B)=P(A)+P(B);乘法:P(A×B)=P(A) ×P(B) 。 (3)、取遍所有可能值,诸概率之和等于1。三、 随机变量的概率分布 1、随机变量 (1)概念:随机事件用数量指标X(X是一个符号)来表示,那么,数量指标X便是一个随机变量,简称变量。若是多个数量指标称为一组变量。 (2)随机变量的分类根据随机变量可能取得的值,分为两种类型:第一种离散型随机变量——在量尺上任意两点(a ,b)之间,只能读取有限个数值。 例如:2和4之间只有一个正整数3 ,再无别的正整数。比如:体育运动中常见的引体向上运动成绩为5次和7次之间唯有6次等等。第二种连续型随机变量——在量尺上任意两点(a ,b)之间,均可以无穷细分,并且可以取无限多个大小不同的数值。例如:跳远成绩从4米到5米之间都有可能取无限多个数值。 2、概率分布 (1)概念 以随机变量X的所有可能取值及其所对应的概率,对随机变量X的变化规律的描述,称为随机变量X的概率分布,简称分布。 (2)表示方法(见书上P47)。 (3)离散型随机变量的概率分布是由分布列表示的(见书上P49) (4)连续型随机变量的概率分布是由概率函数P(X)所对应的曲线和X轴所组成的曲线或叫曲边梯型所围成的面积来表示的(见书上P50)。 综上所述:对应不同的随机变量,可以求得各种不同的概率分布和近似分布。常用的概率分布有二项分布、正态分布、t分布、F分布等。由于连续型分布函数求法计算比较复杂,专家们已计算并制成各种分布函数表附于书后,供给大家需用时查阅。 正态分布是体育统计中最重要的一种分布。它是连续型的概率分布。一、正态分布表(见书上第52页)。二、正态分布重要性质(见书上第52—53页)。三、正态分布在体育中的应用 1、已知u 值,求面积已知u 值,其中包括两种可能:一是题目直接给出u 值。二是根据题意、给出的已知条件计算出u 值。然后,通过查表得出u 值在标准正态分布曲线下的面积。 2、已知面积,求u 值。 “正态分布概率”一般是指标准正态分布曲线下的面积。因此,根据题意给出的概率值为标准正态分布曲线下的面积。然后,通过查表得出u 值。 0 在解题前必需对概率分布、正态分布表、u 值、平均数、标准差等相互之间的关系弄清。然后,根据题意和已知条件求解。 验证解题的方法 ;是在你解题的计算过程中,是否用完已知条件。若已用所有已知条件计算,并根据题意逐一求解。说明解题结果正确。例题1:如果X~N(21.3,3.10), 求X落在区间(15,30)的概率。解:根据题意给出已知正态分布的平均数为21.3,标准差为3.10。求X1=15,X2=30落在的分布区间? u 1= (15-21.3)÷3.1≈ -2.03 查附表1得0.4788(新版为从无穷小到无穷大得0.0212) u 2 = (30-21.3)÷3.1≈ 2.81 查附表1得0.4975 (新版为从无穷小到无穷大得0.9975) 即 0.4975+0.4788 = 0.9762(0.9975-0.0212=0.9763) 答:X落在区间(15,30)的概率为0.9762(即有97.62 % 落在此概率区间)。 第4题 :设在径赛中犯规概率为0.2, 求5人比赛,犯规少于2次的概率。解:根据题意和已知条件有: C25× 0.22×0.8(5-2) C25= (5!÷(5-2)!2!) =(5×4×3×2×1)÷(3×2×1)×(2×1)=10 C25× 0.22×0.8(5-2) =10×0.04×0.512= 0.2048 答:犯规少于2次的概率小于0.2048 。第6题 :某工种工资每小时平均3元,标准差为0.45元,若工资数服从正态分布。求工资在3.2元/小时以上的百分比。解:根据题意有:u = (3.2 - 3)÷0.45≈0.44 查附表1得0.1700 因为 3.2元比平均数3元大 因此 0.5+0.17=0.67 即1-0.67=0.33 (或0.5-0.17=0.33) 0.33×100%=33% 答:工资在3.2元/小时以上的有33% 。 第10题 :三个学生参加不同的测验,A72分,B85 分,C17分,A的测验平均数为85,标准差为7;B 的测验平均数为90,标准差为3;C的测验平均数为25,标准差为7。试问如何比较这三个学生的成绩(成绩为正态分布)解:根据题意,首先计算出各自的u 值 U A =(72-85)÷7= -1.4285≈ -1.43 U B =(85-90)÷3= -1.6666≈ -1.67 U C =(17-25)÷7= -1.1429≈ -1.14 因为 –1.14 > -1.43 > -1.67 因此 田赛 C17 > A72 > B85 (径赛 C17 < A72< B85) 答:(略) 0 第12题 :某日在餐馆里,客人花在早餐上金额服从正态分布,平均数为37.4分标准差为12分,如有420人的早餐费在35分以上,求该餐馆接待吃早餐的总人数。解:根据题意和已知条件,首先计算u值 u=(35-37.5)÷12= -0.2083≈ -0.21 查附表1得0.0832 有420人在35分以上 则0.5+0.0832=0.5832 1:0.5832=X:420 即:X=420÷0.5832≈720(人)(或420 / X=0.5832) 答:该餐馆接待吃早餐的总人数大概有720人。 作业题: 1、某市为制定初中一年级男生60米短跑锻炼标准,随机抽取206人进行测试,经计算得平均数为9.10秒,标准差为0.50秒。按这种水平要求15%的人为优秀;30%的人为良好;45%的人为及格;10%的人为不及格。试求出各等级的成绩标准? 2、某地区有一万名初中男生,抽样100米跑成绩统计量平均数为14.5秒;标准差为0.5秒。 ⑴ 若需要制定出一个锻炼标准,只能有40%的人达标,这个运动成绩标准应为多少秒? ⑵ 若开运动会,估计有多少人的运动成绩小于13秒?前八名的运动成绩最少为多少秒? ⑶ 若以样本平均数为中点,试求出一个能包括6000人运动成绩的概率分布区间?小结: 1、重点讲述了概率分布和正态分布的性质。 2、正态分布在体育中的两种运用和计算方法。 第五章 体育评分方法一、内容简介 本章将介绍用体育统计对体育现象进行量化的评分方法。其主要内容有标准百分法、百分位数法和累进评分法。 二、重点和难点 1.标准百分和累进评分的计算方法 2.累进评分的优、缺点 3.累进评分量表的制作三、学习方法和要求 1.要求明确目的、应使各项目的评分具有可比性。 2.要求反复自练,熟练计算方法。 第一节 标准百分法标准百分法是对随机变量进行标准化变换。它以平均数为中心(50分),确定给分点为0分,满分点为100分,以标准差为基本单位的计分方法。在计算过程中,必需注意测试项目是田赛还是径赛。例题1 : 800米跑,样本统计量平均数为3`03``(183秒),标准差为12秒。现确定评分范围±2.5σ。试制标准百分量表。 解:分析:1.田赛为高优指标;2.已知平均数,标准差;3.评分范围。计算给分点0分:183+2.5 ×12=183+30=213(秒);满分为:183-30=153(秒)。根据书上第76页给定的公式(将公式写出),然后用3600P计算器编程如下: INV AC INV PCL MODE 0 P1 (183-ENT 1)÷12×(100÷5)+50= MODE . 调用程序,输入变量值。设某学生800米成绩为195秒。 P1 195 RUN 显示30 即该生得分为30分。 例题2 某体育学院二年级女生立定跳远成绩,样本统计量的平均数为2.1米,标准差为0.20米。现确定评分范围±3σ。试制标准百分量表。(要求步长为0.1秒)解:分析:1.田赛为高优指标;2.已知平均数,标准差;3.评分范围。计算给分点0分:2.1-3 ×0.2=1.5(米);满分为:2.1+3 ×0.2=2.7(米)。根据书上第76页给定的公式(将公式写出),然后用3600P计算器编程如下:用计算器编程进行现场统计或直接制表 INV AC INV PCL MODE 0 P1 (ENT 1-2.1)÷0.2×(100÷6)+50= MODE . 调用输入变量值。如某学生成绩为2.45米。 P1 2.45 RUN 显示79.17 即该生为79分。依此类推。注意:检验编程是否正确⑴.将平均数输入显示50; ⑵.将给分点成绩1.5输入显示0; ⑶.将满分(2.7)输入显示100 然后将数据逐一递增(或递减)输入制成标准百分量表。(用三线表) 第二节 累进评分方法 累进计分法是应用幂数函数Y=Xα的曲线,横轴上X值作为成绩等量增加,纵轴上Y值作为分数是不等增加。累进评分法的优点:给分与运动成绩的难度增加相适应。 α值愈大累进速度愈快。一般以二次幂函数为宜。具体计算方法步骤: 1、确定满分点和基准点(给分点),并计算D值。 2、根据抛物线方程(Y=KD2 – z),联列方程组,并解方程组,求得Z和K值。 3、列出累进评分方程,并做累进评分表。(见书上第81—84页) 必须注意:评分的项目是田赛还是径赛,其应用的公式各不相同。 例题1 现根据体育学院某年级100米考核成绩资料统计量平均数为12. 4秒;标准差为0.466秒,确定11.8秒为100分(满分点),13.2秒为60分(给分点)。试制该年级100米跑的累进评分表。 解:依题意,100米成绩为径赛项目〔D=( x-X) ÷s +5〕首先求D值: D60 =(12.4-13.2)÷0.466+5=3.283 D100=(12.4-11.8)÷0.466+5=6.288 列方程组: 3.2832K-Z= 60 …………(1) 6.2882K-Z=100 …………(2) 解方程组得:K = 1.391 Z = - 45 即累进评分方程为:Y = 1.391D2 + 45 利用3600P计算器计算制表 INV AC INV PCL MODE 0 P1 ((12.4-ENT 1 )÷0.466+5) INV X2 ×1.391+45= MODE . 调用程序,输入成绩。要求制表步长(间距)为0.1秒 P1 11.8 RUN 显示100 …… P1 13.2 RUN 显示60 将输入得到的结果逐一填入表中。(画出三线表) 例题2: 测得某年级男生跳远成绩属正态分布,其统计量平均数为5.20米; 标准差为0.40米。现确定X-1S 为 60分,X+3S为100分。杨某成绩为5.64米;周某成绩为 4.78米。试按累进评分法,求他们的得分?解:依题意,计算D值得:(D60=5-1=4;D100=5+3=8) 给分点为60分D值为4, 满分点为100分D值为8 列方程组:42K-Z= 60 …………(1) 82K-Z=100 …………(2) 解方程组得 K = 0.8333 Z = - 46.6667 得累进评分方程为:Y = 0.8333D2 + 46.6667 利用3600P计算器计算制表 INV AC INV PCL MODE 0 P1 0.8333 ×((ENT 1-5.20)÷0.40+5) INV X2 +46.6667= MODE . 杨某成绩为: P1 5.64 RUN 显示 78 即为78分(取整数) 周某成绩为: P1 4.78 RUN 显示 60 即为60分(取整数) 另外确定步长后可调用输入成绩制表。 作业题: 1、某年级男生400米跑成绩样本统计量平均数为56 秒;标准差为2秒。试用X±2.5S的范围评分,步长为1秒计分方法,制定出标准百分表。 2、某年级女生100米成绩样本统计量平均数为14.5 秒;标准差为0.45秒。现确定给分点为60分、运动成绩为 15秒;满分点为100分、运动成绩为13秒。试制该年级女生100米成绩的累进评分量表。小结: 1、体育评分方法有多种多样,主要熟练标准百分 和累计评分方法。 2、要熟悉掌握计算器的操作方法。第六章 参数估计与假设检验一、内容简介 本章将介绍用体育统计对体育现象进行参数的估计和假设检验的方法。其主要内容总体参数的区间估计、体育统计的假设检验。二、重点和难点 1.参数估计的计算方法 2.选取假设检验的计算方法和推断三、学习方法和要求 1、明确估计和检验对象的性质,确定计算方法和推断 2、要求反复自练,熟练掌握计算方法。 3、分清用标准误计算总体参数的置信区间和用标准差计算概率分布区间。第一节 参数估计 一、参数点估计 实际上是从总体中随机抽取一个样本,并用这个样本的均数(或统计量)作为估计量去估计总体均数(或参数)称之点估计。当样本的含量越大则估计的精度越好。二、参数的区间估计 重点:1、什么叫标准误?其计算方法。(见书上第85页新书 89-90页) 2、标准误与标准差的区别?(新书92页) 3、什么叫置信区间?(见书上第87页新版95页) (一) 总体均数的区间估计: ⑴ 变量服从正态分布,σ已知时,用u值。 ⑵变量服从正态分布,σ未知时,用t值。 说明:一般来说大样本用u值,小样本用t值。因为当自由度n`=5时,t分布已基本为正态分布。同时,做一般的研究时,很难得到σ值和随机抽取很大的样本含量。因此,提倡用t值来计算区间较好。 例题:为研究广西16岁男生60米跑成绩。现从各校随机抽取160名作为样本,经测试结果,其统计量平均数为8.76秒;标准差为0.45秒。试求95%和99%的置信区间?解:依题意,先求标准误 SX=0.45÷√160 ≈0.0356 计算95%的置信区间 8.76±1.96×0.0356 = 8.76±0.0698 (即落在8.69~8.83范围内) 计算99%的置信区间 8.76±2.58×0.0356 = 8.76±0.0918 (即落在8.67~8.85范围内) 答:(略) (二)总体方差的区间估计(见书上第91~93页 )与总体均数的区间估计不同的是: ⑴计算方法不同。 ⑵方差实际上是标准差的平方。 ⑶查书上第277页附表6(χ2 值表)。第二节 假设检验 假设检验内容非常丰富。但在实际应用中,主要是利用统计学专家给出的各种检验工具对统计假设进行显著性检验。因此,在这里我们将从显著性检验的角度来介绍。一、假设检验的基本思想 简略地说,假设检验是一种带有概率性质的反证法,进行判断的内在依据是所谓的小概率法则,即“小概率事件在一次试验中不会发生”。其基本思想是:先给出一个统计假设,称为“原假设”(通常是假设要比较的两者有无差异,如H0 :μ0=μ1),并假定原假设成立,认为产生差异的原因是由于随机抽样误差造成的。然后,根据给定的小概率P值来判断。若小概率事件发生了,可认为原假设是错的,应该拒绝原假设。说明两者有显著性差异;若小概率没有发生,只能暂且接受原假设。为什么说“只能暂且接受原假设” 呢?因为有可能是我们随机抽样时,样本含量太小使小概率没有发生。因此,我们还有机会通过扩大样本含量等办法来使小概率发生。所以说在拒绝原假设无充分理由的情况下,只能暂且接受原假设,即称为“差异不具有显著性”。二、假设检验的步骤 假设检验问题是多种多样,不同类型或同一种类型不同条件下的问题要用不同的工具来检验。检验工具主要包括所有统计量和相应的接收域或拒绝域。统计量通俗地讲就是一个与样本有关的式子,域是一个数值范围。原假设是否成立,则以统计量的数值落在哪个范围内。当统计量的数值落在是一个小概率这个范围内时就拒绝原假设。拒绝域的边界点称为临界值。假设检验的工具虽然是多种多样,但检验的操作步骤基本相同。一般步骤如下:第一步:提出统计假设 统计假设是根据检验的问题而定。一般每个假设检验问题提出两个设。一种称为原假设,记为H0 :μ0=μ(或μ1=μ2)。它通常假设要比较的两者没有差异,如两总体参数相等、样本来自于服从某种分布的总体(或两样本来自于相同分布的总体)等。另一种称为备择假设,记为HA:μ0≠μ(或μ0≠μ1),它是在原假设被否定后接受的假设,所以总是和原假设相对立,通常假设要比较的两者是有差异的问题。第二步:选择检验工具,计算统计量的值 当我们拿到一个假设检验的实际问题后,首先对问题进行分析,并根据问题的类型和满足的条件选择一个适用的检验工具。然后,根据实际得到的样本计算工具中的统计量的值。 0 第三步:确定显著性水平α值,求临界值 假设检验内在的判断依据是小概率法则,这个小概率就是显著性水平α值。一般取α=0.05,但为了增强说服力,也可取其他值如α=0.01(其具体方法将在后面介绍)。确定α值后,再求临界值。第四步:判断结果 将统计量的值与临界值比较,若统计量落在拒绝域中,则小概率事件发生了,即原假设不能成立,故拒绝原假设,接受备择假设,这种情况统计中常称“差异具有显著性”。若统计量的值未落在拒绝域中,则无充分的理由拒绝原假设,只能暂且接受原假设,这种情况常称“差异不具有显著性”。三、单侧检验与双侧检验 单侧检验与双侧检验在实际检验时,主要有两方面的不同: 1、备择假设不同。比如在参数检验中,双侧检验总假设要比较的两参数不相等,而单侧检验则假设其中一个大于(或小于)另一个。 2、拒绝域不同。双侧检验一般用 P (2)查表求临界值,而单侧检验则用 P (1)查表求临界值。 在样本含量和显著性水平相同的情况下,单侧检验比双侧检验更容易拒绝原假设。在难以确定是否可用单侧检验时,建议使用双侧检验。 四、检验结论的两类错误 既然判断依据是“小概率事件在一次试验中不会 发生”,但事实上小概率事件并非是不可能事件,只是发生的概率较小而已。另外,小概率事件没发生,也并不能保证原假设一定正确。因此,假设检验的结论并不总是正确的,也有可能犯错误。(请结合书上第102~103页的图6.9进行对照复习理解)五、假设检验结论的理解假设检验的结论都是与概率相联系的 1、 假设检验只能判断是否能在一定的概率保证下否定原假设。另外,假设检验的结论与显著性水平α有关。在一种显著性水平下为拒绝原假设;在另一种显著性水平下结论可能变为接受原假设。因此,在具体应用中,给出检验结论时,要同时给出所用的显著性水平。 2、拒绝原假设是有说服力的,而接受原假设是没有说服力的。这是因为拒绝原假设是有明确的概率保证即犯错误的概率不超过α。而接受原假设则没有明确的概率保证。从假设检验的判断方法来看,拒绝原假设时是有比较充分的理由。接受原假设则仅仅是由于没有充分的理由拒绝原假设,这并不意味着就有充分的理由接受原假设。在很多情况下,不能拒绝原假设是由于样本太小造成的。 3、结论的说服力与α有关在样本含量n固定的情况下,相对而言,拒绝原假设时α越小结论越强,接受原假设时α越大结论越强。 4、差异显著性的高低,不能说明差异大小,只能说明我们判断“有差异”的把握程度的大小。在差异有显著性时,差异的大小仍需要用参数(或它们的估计值)之间的差值来衡量。 0 六、均数的检验 μ=μ0的检验 μ=μ0的检验是要判断一个总体均数μ是否等于一个已知数μ0。 1、已知总体服从正态分布(见书上第103~106页) 当总体服从正态分布时,μ=μ0的检验可用如下的t检验工具。例题:某省某年龄组男生50米跑的成绩总体水平约为9.15秒,现随机抽测该省某地区该年龄组男生91人,50米跑成绩均数为9.27秒,标准差为0.69,问该地区50米跑成绩是否与省总体水平不同?(已知成绩服从正态分布)分析:本例是要判断该地区的总体均数μ是否也等于9.15秒,属μ=μ0的检验,且根据题意已知总体服从正态分布,可用书上(105页公式6·8)新书109页公式7.1计算统计量的值。解:设H0:μ=μ0 =9.15 HA :μ≠μ0 t = (9.27-9.15)÷(0.69÷√91) = 1.659 查书上t值表双侧检验得:P (2) t 0.05(90) =1.987 P (2) t 0.10(90) =1.662 因为计算得出t 的绝对值比查表得到的t 值小 (即 ∵|t|=1.659<1.662<1.987) 所以接受原假设,差异不具有显著性(则有P>0.10)。答:不能认为该地区该年龄组男生的50米跑成绩与省总体水平不同。 2、大样本的检验(通常要求n≥100) 对于大样本,不管总体是否服从正态分布,μ=μ0的检验均可使用如下的近似u检验工具计算统计量(见书上第108页公式6·9 ) 。例题:某地区根据体质普查资料得知,该地区79年18岁女青年身高总体平均数为μ0 =158.2厘米,83年又抽测了400名18岁女青年身高平均数为158.8厘米,问可否认为该地区83年18岁女青年身高总体均数大于79年的μ0 ?分析:本例n = 400,为大样本的检验。另外,随着我国经济的发展,人民的生活水平提高,青少年的营养状况不断改善,身高总体水平不会出现下降的趋势,即μ<μ0的可能不会出现,故可用单侧检验。解:设H0:μ=μ0 HA :μ>μ0 t = (158.8-158.2)÷(5.34÷√400) = 2.247 查书上附表2第264页单侧检验得: P (1) t 0.05(500) =1.648 P (1) t 0.025(500) =1.965 因为计算得出t 的绝对值比查表得到的t 值大 (即 ∵|t|=2.247>1.695>1.648) 所以拒绝原假设,差异具有显著性(则有P<0.025)。答:可认为该地区83年18岁女青年身高总体均数大于79年。 0 μ=μ0的检验若是在两个总体均数都未知的情况下,从两个总体中各抽出一个样本来判断两总体均数是否相等。 1、已知两总体服从正态分布,且两总体标准差相等(即σ1=σ2)。或者说方差的齐同性(即σ21=σ22)。例题:已知同性别同项目的运动员最大摄氧量服从正态分布,现随机抽测男子中长跑优秀运动员18人,测得最大摄氧量(单位:毫升/千克/分)平均数为68.2,标准差为4.03,一般运动员25人,平均数为61.4,标准差为23.78。问中长跑项目中,优秀运动员的最大摄氧量是否高于一般运动员?(已知方差齐同性,即为条件相同σ1=σ2)。分析:优秀运动员的总体均数μ1和一般运动员的总体均数μ2都是未知。现要比较它们是否相等,故属于μ1=μ2的检验。根据题意得知两总体都服从正态分布,且有σ1=σ2,用书上第112页公式7-4来计算统计量。由于最大摄氧量综合反映运动员心肺机能的水平,从理论上可以断定,优秀运动员总体上不会比一般运动员差,即不会有μ1<μ2的情况出现,所以用单侧检验。 0 解:设H0:μ1=μ2 HA :μ1≠μ2 将数据代入公式计算得: t = 5.661 查书上t 表单侧检验得: P (1) t 0.05(41) ≈1.684 P (1) t 0.0005(41) ≈3.551 ∵|t|=5.661>1.684>3.551 所以拒绝原假设,差异具有高度显著性(则有P<0.005)。答:优秀运动员的最大摄氧量明显高于一般运动员的最大摄氧量。 ⑴ 本例中的自由度应为41,但表中没有,只能 用最靠近的40查表求得。若需要比较精确的情况下,可用插值法。⑵ 这套检验工具要求σ1=σ2 ,但在实际工作中,通常是不知道σ1=σ2是否成立,一般也需要进行显著性检验来判断,具体方法见方差齐性检验。若方差齐性检验接受原假设H0:σ1=σ2 ,则可使用这套检验工具,否则不能使用这套工具,可用非参数检验方法。 0 2、大样本的检验(通常要n1≥100 、n2≥100) 在大样本的情况下,无论总体是否服从正态分布,也不管是否σ1=σ2,μ1=μ2的检验都可用如下的近似u检验工具。 统计量:u = (X1-X2)/√(s21÷n1)+(s22÷n2) 例题:某地随机抽测200名城市8岁男孩,得肩宽身高指数(肩宽/身高×100)平均数为21.4,标准差为0.76,200名乡村8岁男孩的平均数为21.6,标准差为0.78,问该地区城、乡8岁男孩该指数总体水平是否有差异?解:设H0:μ1=μ2 HA :μ1≠μ2 将数据代入公式计算得:u = -2.579 查书上附表2第289页双侧检验得: P (2) t 0.05(200) =1.972 P (2) t 0.01(200) =2.601 ∵|t|=2.579>1.972 P<0.005 ∴ 拒绝原假设,差异具有显著性。答:该地区城、乡8岁男孩该指数总体水平有差异。 (三)配对资料的检验 以上μ1=μ2的检验方法要求两样本是互相独立。但在实际工作中,还会遇到许多对互相关联的两样本进行检验问题。通常是对同一批试验对象、同一指标,在不同状态下进行测试比较。在教学、训练中,为了检查一种教学或训练方法是否有效,对每个试验对象在教学或训练前、后各测一次成绩进行比较。前、后两批数据来自于同一批试验对象,每个试验对象都被测了一对数据,这样的样本是互相关联。对于这样资料的检验称为自身比较。另一种是人们在实验中为减少干扰因素,常用的“配对试验”法,先按有关条件相近似的原则,把试验对象两两配成对子,再用随机方法将每一对分到两组中去。然后,对各组实施不同的教学或训练方法,比较两种教学法或训练方法的效果。这种配对试验得到的数据显然也是成对的,两个样本是互相关联的,对这种试验结果的数据进行比较称之配对比较或称为配对资料的检验。对于配对资料的原假设可以不是直接判断μ1=μ2是否成立,而是将样本1中的数据减样本2中的数据,以得到一个差数后,根据差数来判断μ=μ1-μ2=0是否成立。显然,μ1与μ2之间的关系完全对应于μ与0之间的关系。例题:将18名学生按身体条件基本相同的原则配成9对,并用随机方法将每对中的两人分到甲、乙两个组中。甲、乙两组分别采用不同的方法训练一阶段后,测得铅球成绩如右下表解:根据两组数据算得的差数,再计算出差数的平均数和标准差(用MODE 3计算),代入t=(d÷sd) ×√n 设 H0 :μ=0 HA:μ≠0 t=-14.44÷(25.83÷√9)=-1.6778 确定α=0.05,查t值表(双侧)得: P (2) t 0.05(8) =2.306 ∵|t|=1.68<2.306 P>0. 05 ∴ 接受原假设,差异不具有显著性。答:可认为两种训练方法效果相同。 (INV 1÷INV 3 =× 9 INV√ 显示-1.6778 即t= -1.6778) 七、标准差的假设检验 标准差的假设检验也称方差齐性检验(方差为标准差的平方)。它是要在两个总体标准差σ和σ0 都是未知的情况下,根据样本的标准差来判断σ=σ0或σ1=σ2是否成立。由于方差齐性检验主要用于在进行μ1=μ2的检验或方差分析时,判断是否满足方差齐性的条件,通常只在α=0.05的情况下作一基本判断。在总体服从正态分布时,可用χ2分布检验或F分布检验。具体见书上第117页。八、率的假设检验(一)率和率的标准误 1、定义(P117) 2、计算方法:具体见书上第117页。 3、要求:首先对定义理解清楚,然后才是进行计算方法。 (二)率的u检验率的检验方法主要有u检验、四格表的χ2检验和四格表的精确检验。在这里主要介绍率的u检验。 0 通常用P来表示样本的率,用π来表示总体率。π=π0的检验是需要判断一个总体率π是否等于π0 (π0为一个已知数)。并且满足以下条件: P≥0.01 (1-P)≥0.01 nP≥5 n (1-P)≥5 时可用如下的近似u检验工具:统计量:u = (p-π0)÷√π0(1-π0)/n 应用这套工具的条件是要排除率太小或太大的极端情况,并且在率越接近极端情况时,就要求样本含量越大。因此,一般要求n P与n(1-P)均大于5,P与(1-P)均大于0.01时,P的分布近似服从正态分布,这时可用统计量u检验两率的差异。例题: 某县上报该县小学生“体锻”达标率为78%,现抽查200人,其中有143人达标,试问是否可以否定该县上报的数据?分析:本题中该县上报达标率π0=0.78,但真正的达标率π未知,现要根据样本的情况判断是否能否定π=π0,所以是π=π0的检 验。这里必须注意的是我们在随机抽查的样本200人中,有143 人达标,实际达标率为π=143÷200 = 0.715。显然π<π0,但也许有可能是由于抽样产生误差引起差异的因素存在。为此,需要从理论上更进一步的去论证判断结果。解:经分析认定,本题符合率的u检验条件。 ①P = 143÷200 = 0.715 (即P≥0.01) 同时(1-P)=0.285《 (1-P)≥0.01》 ② nP≥5 n (1-P)≥5 设H0:π=π0 HA:π≠π0 u = (p-π0)÷√π0(1-π0)/n = -2.2191 查书上附表2得P (2) t0.05(200) = 1.972 (此题n较大,t 与u分布相同,查t值表) ∵| u|=2.2191>1.972 ∴拒绝原假设,差异具有显著性。答:可以否定该县上报的数据。(做出这样的结论有95%是对的,有5%错误的可能性) 2、π1=π2的检验 π1=π2的检验是在两个总体率π1和π2都未知的情况下,根据样本判断π1=π2是否成立。当两样本都满足 P≥0.01(1-P)≥0.01 nP≥5 n (1-P)≥5 时可用如下的近似u检验工具。 统计量:u = (P1-P2)/√PC(1-PC)×(1/n1+1/ n2) 例题:甲、乙两运动员同练某一高难度体操动作,经一段训练后进行考查,两人各做60次,甲成功37次,乙成功32次。问两人完成该动作的总体成功率是否相同?解:经分析本题符合率的u检验。 P1=37÷60=0.6167 P2=32÷60=0.5333 PC = (37+32) / (60+60) = 0.575 设H0:π=π0 HA:π≠π0 u = (P1-P2)÷√PC(1-PC)×(1/n1+1/ n2)=0.9241 查书上附表2得 P(2) t 0.05(60) = 2.000 ∵| u|=0.9241<2.000 ∴接受原假设,差异不具有显著性。 答:不能认为两运动员的总体成功率不同。 小结:1、掌握标准误和置信区间计算方法,区分正态分布区间与参数区间。 2、要学会根据自己的研究目的和事物属性确定检验方法。 第一节 符号检验 非参数检验适用于任意分布的数据检验,不受总体参数是否属正态分布或近似正态分布的制约。如分布未知或极度偏态;各组变异程度相关悬殊或个别值偏离过大;只有等级、名次、评价纪录等等,均可采用。其优点是易学,简便。但是,必须注意的是:①样本含量n较小时,非参数检验的灵敏度较低。②当P值接近于0.05或0.01时,作结论应特别慎重。具体见书上第134页。一、符号检验法(或称关联法) 符号检验的检验量是Min,即正符号个数是n+ 和负符号n-中的最小者Min[n+,n-]。符号检验主要是用来检验配对(或自身比较)资料的差异显著性。其主要特点有两点:(一)它所直接比较的不是两个样本的统计量,而是直接比较两个样本的分布,即直接比较全部样本数据。 (二)不计数据两两比较的差值d,并只记差值d的正、负符号,零符号不计,样本差异的大小将通过符号的个数表示出来。 例题:某个教师为了提高学生的综合反应能力,设计了一套综合反应速度的练习,将40名学生随机配对分成两组。经一年训练后,测得实验组有16人高于对照组,对照组有4人高于实验组。试问这种训练方法有无显著性意义? 分析:根据题意可有多种解题方法。下面用三种方法解题,试看其结果。第一种方法: 建立原假设H0:即两组经训练后无差异(也称无效假设),是来自同一总体,正、负符号个数不相等,是由随机分组因素所造成。统计符号个数 S =nmin[16, 4 ]= 4 , n`=n++n-=16+4=20 查书上附表7第279页得 S0.05 =5 S= 4< S0.05=5 拒绝原假设,这种训练方法具有显著性意义。答:教师设计这一套综合反应速度的训练方法,对学生确实有一定的效果。第二种方法:用校正的χ2公式 χ2=∑(|Q-T|-0.5)2/T 1、原假设H0: 理论值 T=20÷2=10 2、将数据代入公式 χ2=∑(|Q-T|-0.5)2/T = (|16-10|-0.5)2÷10+(|4-10|-0.5)÷10=6.05 3、本资料为“四格表资料”或称为“2×2列联表”。其自由度n`= (2-1)(2-1)=1 查书上附表6得χ2 0.05(1) =3.84 4、∵χ2=6.05>χ2 0.05(1) =3.84 ∴ P<0.05 5、拒绝原假设,这种训练方法有显著性意义。 答:教师设计这一套综合反应速度的训练方法,对学生确实有一定的效果。第三种方法:用简便公式计算。 1、设“+”号个数为b ,“-”号个数为c。计算公式χ2= (|b-c|-1)2/(b+c) 2、将数据代入公式 χ2=(|b-c|-1)2/(b+c) = (|16-5)2÷20=6.05 其结果与第二种方法一致。 例题:为探讨游泳对人体呼吸机能的效果,随机抽取10名学生进行三个月训练后,测得肺活量如下表。问是否有显著改善。 10名学生训练前、后测得的肺活量 单位:毫升 编号 1 2 3 4 5 6 7 8 9 10 训练后 3250 3150 3350 3850 3050 3550 3500 3300 3800 3400 训练前 3200 3000 3400 3650 2950 3450 3400 3400 3700 3350 符 号 + + - + + + + - + + 解:计算符号 n+=8,n-=2,S=n min=[8,2]=2 , n`=8+2=10 查书上附表7得 S 0.05(9) =1 ∵ S =2>S 0.05(9) =1 ∴P<0.05 接受原假设,说明学生训练前、后肺活量有显著性差异。若用配对(自身比较)的t检验,学生可利用自学时间进行计算。计算结果 t =2.4922 查书上附表2得 t 0.05(9) =2.262 ∵ t =2.4922>t 0.05(9) =2.262 ∴ P<0.05 结论:拒绝原假设,经训练后学生肺活量有显著性改善。注:结果与符号检验一致。说明:符号检验虽然方法简捷,尤其是χ2检验更为方便。但是,这种方法检验灵敏度不够高。小结: 本章主要为介绍内容。它的缺点是在于只记录差值d的符号个数,而没有计算出差值具体的数值,最终会丢失了许多重要的信息。特别是小样本,检验效率较低。最少用于20对以上的检验为好,若样本含量n小于8时,不宜采用。因此,这里再次提醒大家一般不要用非参数的检验方法来进行参数的假设检验。第八章 单因素方差分析一、内容简介 本章将介绍用体育统计对体育现象进行参数的假设检验的单因素分析方法和多重比较。其主要内容是单因素的分析方法和在什么情况下进行多重比较。二、重点和难点 1.弄清概念和计算方法 2.单因素的分析方法和多重比较的计算方法及推断三、学习方法和要求 1、明确检验对象的性质,确定计算方法和推断。 2、要求反复自练,熟练掌握计算方法。第一节 方差分析的基本思想 在实际工作中,为了改进体育教学和训练,提高教学质量和运动成绩。现实中的事物是复杂的,影响它的因素是多种多样的。这些因素间常常又是相互制约、矛盾和依存。如何通过有限的观察或实验数据,分析出各个因素以及各因素之间的交互作用的影响,抓住解决事物的主要矛盾问题,这就是方差分析需要解决的主要课题之一。 方差即是标准差的平方。它是反映数据波动大小的测度之一。也是计算数据变异情况的最好指标。方差分析是比较两组或两组以上样本平均数之间差异显著性的统计方法,又称变异数分析。一、方差分析的基本思想 样本平均数之间的差异可能是由多种原因造成,如果各种能控制的误差(如测试误差、系统误差等)基本能控制以后,那么造成差异的原因只有两种: 1、偶然误差:指在随机抽样或实验过程中,随机因素影响所形成的随机误差。即各组内个体之间存在的差异也称为实验误差。 2、条件误差:指在不同的实验条件下,处理方法不同所造成的差异。即采用不同的教学方案引起各组之间产生的变差。 体育统计的显著性检验正是研究这两种误差的大小,区别出它们之间的差异程度。如采用不同的教学、训练方法产生的效果没有显著性差异,即认为是个体之间的差异(抽样误差)造成,说明各个样本来自同一总体。如果不同的教学、训练方法产生的效果有显著性差异,说明各样本的平均数不是来自同一总体。 方差分析就是比较和检验个体间的变异与组间的变异。即用组内均方(M.S内)与组间均方(M.S间)之比(F= M.S间/ M.S内)来表示差异程度。并把全部数据的差异叫总变差。总变差是由试验误差和条件变差两部分构成。方差的基本思想是: 1、由数据的总变差中分出试验误差和条件变差,并赋予确定的数量。 2、 用条件变差和试验误差在一定意义下进行比较,如两者相差不大,说明条件的变化对指标影响不大;如果两者相差较大,条件变差比试验误差大得多,说明条件的变化对指标的有一定的影响;如果条件变差比试验误差大得多,说明条件变差影响是很大,不可忽视。 二、方差分析的适用条件(见书上第163页) 1、每个方案下的总体都必须服从正态分布或近似正态分布。 2、每个方案的总体方差可以是未知,但必须相等(即方差条件的齐同性)。 3、每个方案下的各一个观测值是相互独立。 * 方差分析在此前提下,用统计量F进行检验。三、单因素方差分析 考察因素只有一个的试验叫单因素。例如:试验对象是同年级、同性别、同年龄各项身体发育水平基本相同的学生,随机分成三组,用不同的教学方案进行试验。此试验只考虑教学方案(一个因素)的影响。即一个因素三种不同水平属于单因素试验。它所讨论的问题可归纳为:在这K个总体标准差皆相等的条件下,问这K个总体的平均数是否相等。单因素方差分析包括两种情况: 一种是各组样本含量相等;另一种是各组样本含量不相等。 (一)、各组样本含量相等 例题:把条件基本相同的30名少体校运动员随机分成3组,采用三种不同的训练方法训练一年后,测得他们100米蛙泳的成绩都比原来的成绩有提高见下表。问这三种教学训练效果是否有差异?三组运动员100米蛙泳成绩提高 单位:秒 编号 甲组(X1) 乙组(X2) 丙组(X3) ∑ 1 1 5.0 4.6 2.9 2 3.1 3.0 2.0 3 3.6 2.9 2.1 4 3.7 3.1 1.9 5 4.9 3.6 1.9 6 3.3 2.3 2.1 7 5.1 4.6 3.0 8 4.2 3.9 2.4 9 3.5 3.2 1.8 1 0 4.4 3.7 2.0 1 解: ㈠原假设H0:(假设三种训练方法之间没有显著性差异) ㈡计算统计量F值用计算器编程计算 1、开始部分 INV AC INV PCL MODE 0 P1 (这一步只要是将计算器中的6个寄存器和两个编程区清零,并将确定使用P1编程区。) 2、编程: ENT 5 .0 Kin + 1 Kin + 4 INV X2 Kin + 5 ENT 4. 6 Kin + 2 Kin + 4 INV X2 Kin + 5 ENT 2 .9 Kin + 3 Kin + 4 INV X2 Kin + 5 1 Kin + 6 INV RTN MODE · 3、输入各组序号为2的数据3.1 RUN 3.0 RUN 2.0 RUN 、序号为3的数据……依次类推,一直输到第10个 4.4 RUN 3.7 RUN 2.0 RUN 。输入完后调用数据的方法如下: Kout 6 显示 10 即 n=10 (这是检验输入的样本含量是否正确) Kout 1 显示 40.8 即 ∑X1=40.8 Kout 2 显示 34.9 即 ∑X2=34.9 Kout 3 显示 21.8 即 ∑X3=21.8 Kout 4 显示 97.5 即 ∑∑X=97.5 Kout 5 显示 347.55 即 ∑∑X2=347.55 1、定义总的离差平方: L总=∑∑X2 -(∑∑X)2 /N 计算器操作方法:Kout 5 - Kout 4 INV X2 ÷ 3 0 = 显示 30.675 2、定义组间离差平方和:L组间=∑(∑X)2/ n -(∑∑X)2 /N 计算器操作方法: Kout 1 INV X2 + Kout 2 INV X2 + Kout 3 INV X2 = ÷ 1 0 - Kout 4 INV X2 ÷ 3 0 = 显示 18.914 3、定义组内离差平方和: L组内= L总-L组间 = 30.675-18.914=11.761 ㈢列方差分析表 1 方差分析表 1 方差来源 离差平方和 自由度 方差 F P 1 组 间 18.914 2 9.457 21.69 <0.01 ** 组 内 11.761 27 0.436 总变差 30.675 29 1 1 ㈣查F 值得 F 0.01(2,27) = 5.49 ㈤结论:经方差分析结果,三种训练方法之间存在着差异,有非常显著性意义。 (二)各组样本含量不相等 例题:为探讨三种不同的铅球教学方法效果,从某年级三个班中,随机抽取同年龄、运动能力基本相同的男生分成三组,经两个月教学训练后,测得各组学生成绩如下表。试分析三种训练方案的教学效果有无显著性差异? 三组学生铅球成绩表 单位: 米 1 序号 方案1(A1) 方案2(A2) 方案3(A3) ∑ 1 1 7.73 8.88 5.50 2 6.45 4.85 6.46 3 8.72 5.96 5.00 4 5.55 8.62 5.60 5 5.33 5.65 6.40 6 5.45 6.86 5.12 7 6.50 5.98 5.10 8 5.27 6.68 5.45 9 5.08 6.84 6.30 10 5.17 7.80 5.25 11 5.16 6.89 5.15 12 7.52 5.24 13 6.95 5.60 14 7.40 15 7.20 1 ∑X 66.41 104.17 72.17 242.75 ∑X2 415.49 739.37 403.83 1558.68 n 11 15 13 39 平均数 6.04 6.94 5.55 1 解:(1)原假设H0: μ1=μ2=μ3 (2)计算统计量(用计算器 MODE 3 得出各组数据填入表中) (3)计算离差平方和 ①L总= 1559.68-242.75 INV X2 ÷ 39 = 47.72 ②L组间= 66.41 INV X2 ÷11+104.17 INV X2 ÷15+72.17 INV X2 ÷ 13-(242.75 INV X2 ÷39) = 14.05 ③L组内 = L总-L组间= 33.67 (4)列方差分析表 1 方差分析表 1 方差来源 平方和(L) 自由度(n`) 方差(M.S) F P 1 组 间 14.05 2 7.03 7.48 <0.01 ** 组 内 33.67 36 0.94 总 变 差 47.72 38 1 (5)确定α=0.01,查F值表得 F0.01(2,36)= 5.25 F >F0.01(2,36) (6)结论:经方差分析结果,三种铅球教学方案效果具有高度显著性意义。 现仍以蛙泳的三种教学法方案为例, 其计算方法步骤如下: 1、取α= 0.05水平,查“多重比较q值表”,自由度n`=27,因为附表中没有27,取24~30的中间值,即K=2时,q0.05 = 2.90 ; K=3时,q0.05 =3.51 2、计算标准误根据计算公式 用计算器操作: 0.436÷10=INV √ 显示:0.2088 即SX =0.2088 3、计算:将q×. SX填入下表中,并用其积作为该显著性水平和两样本均数所需的最小差值。即与各对均数的差数进行两两比较,判断差异的显著性。 1 多重比较各组均数间差异比较表 1 组别 平均数 平均数差值(甲.乙-丙)(q× .SX) 平均数差值(甲-乙)(q× .SX) 甲 4.08 1.90(0.74)* 0.59 (0.61) 乙 3.49 1.31(0.61)* 丙 2.18 1 注:列表时,必须把各组均数从大到小来排序。(二)各组样本含量不相等现仍以铅球的三种教学法方案为例,其计算方法步骤如下: 1、取α= 0.05水平,查“多重比较q值表”,自由度n`=36得: K=2时,q0.05 = 2.86 ;K=3时,q0.05 =3.44 2、算标准误 根据计算公式 A1与A2 用计算器操作:(注意先清零) SX =0.94÷2×(1÷11+1÷15)=INV √ 显示:0.27214 即SX =0.27214 A1与A3 SX = 0.28 A2与A3 SX = 0.26 3、计算:将q× SX填入下表中,并将其结果(积)作为该显著性水平和两样本均数所需的最小差值。即与各两组均数的差数进行两两比较,判断差异的显著性。 当K=2时 A1与A2 q× . SX = 0.77 A1与A3 q×. SX = 0.80 A2与A3 q×. SX = 0.74 当K =3时 A1与A2 q×. SX = 0.93 A1与A3 q×. SX = 0.96 A2与A3 q×. SX = 0.89 1 多重比较各组均数间差异比较表 组别 平均数 均数差值(A2.A1-A3) (q×. SX) 平均数差值(A2-A3)(q×. SX)(A2) 6.94 1.39(0.89)* 0.90(0.77)* (A1) 6.04 0.49(0.80) (A3) 5.55 1 注:列表时,必须把各组均数从大到小来排序。 4、结论:经比较结果,认为教学训练方案二比方案一、方案三均有显著性差异;方案一与方案三之间无显著性差异。这样我们可以有95%的把握认为:方案二对某年级男生铅球成绩的提高有显著作用,即三种教学方案中方案二为最好。五、方差分析中应注意的问题(见书上第161页) 1、在进行单因素方差分析时,除该因素分为几个水平进行试验外,其它因素则应尽量保持不变。 2、方差分析中F检验的灵敏度和MSE 3、各样本重复试验的次数最好是相等,这样方差分析较为简便,作F检验时发生第二类错误的可能性较小,精度也就较高。 4、方差分析的假定条件之一是方差条件的齐同性,故应做方差的齐性检验。作业题: 为探讨不同的训练方法对提高100米跑成绩的效果。现从初一男生中抽出同年龄、运动成绩基本相同30名学生,随机分成三组进行三种不同的训练方法。一年后测得他们的运动成绩如下表。试问三种训练方案的效果是否有显著差异?并用多重比较出最好的训练方案? 测得30名学生100米成绩表 单位:秒序号 一组 二组 三组 1 1 15.3 13.1 16.2 2 14.3 13.8 15.4 3 13.8 14.0 14.8 4 15.1 13.3 14.5 5 14.6 13.5 15.1 6 14.8 12.9 15.6 7 13.9 13.7 15.4 8 14.9 13.4 14.9 9 14.0 12.8 13.5 1 0 14.5 14.1 13.8 1 第九章 回归分析 一、内容简介 本章将介绍用体育统计对体育现象进行相关与回归的分析方法。其主要内容是直线回归方程的计算方法和检验回归方程的精度。二、重点和难点 1.弄清相关与回归的基本概念及其意义。 2.回归方程的求法和回归方程精度的检验方法。三、学习方法和要求 1、明确检验对象的性质,确定计算方法和推断。 2、要求反复自练,熟练掌握计算方法。 世间一切事物的存在不可能完全是独立的,都是相互联系、相互制约的。相互间的联系在统计学中称为相关。相互联系密切程度与制约影响的大小只能是相对而言。要想从事物发展变化规律中,探讨出它们之间相关程度及其相互作用,在体育统计方法中常用“相关与回归”来探索两个或两个以上变量之间的相关程度及其作用的变化规律。第一节 相关与回归的基本概念一、两种不同类型的变量关系 在长期的工作和生活实践中,人们发现变量间的关系主要有两种类型:函数与相关。(一)函数关系 函数关系是对确定的、非随机变量而言,这种关系也称确定性关系。其数学定义:对变量X的每一个确定值,变量Y都有一个确定值与之对应关系。例如自由落体下落距离S的值与所需的时间t值之间的关系就是函数之间的关系。还有园的面积A与半径R之间的对应关系等。(二)相关关系 相关关系是针对随机变量而言,也称非确定性关系。例如对应于一个确定的X值,变量Y的值并不一定完全确定,有多种可能,这种可能是一个概率分布区间。例如人体的身高与体重;30米跑的运动成绩与跳远成绩之间的关系;运动员体重与推铅球成绩之间的关系等。这些指标之间都存在着密切关系,并总趋向于明显。但是,它们都不是确定性的函数关系。因此,统计学用来描述两种或两种以上事物(变量)之间关系密切程度的数量特征叫相关系数。一般统计学用r来表示: 当r = -1时,即r为负值时,称为负相关。 当r = 0时,即r为零时,称为无相关。 当r = 1时,即r为正值时,称为正相关。二、相关的意义(结合书上第171~172页的图形来学习、理解) 在复杂的体育现象中,孤立的研究某一种现象、观察一种指标是不太符合实际的,也可能不会得到理想的结论。因此,必须从事物的相互联系、指标的相互影响中给出定量的描述,有利于分析、比较和揭示事物发展和变化的规律。这就是相关的实用意义。 应该指出:函数与相关是人们的认识及表达有关,它们之间并无绝对的界限,有时也是难加以严格区别。对相关来说,两变量之间的相关尽管没有确定性的唯一对应关系。但是,从统计意义上,在一定的条件下,它们之间又可以拟合为某种确定的函数关系。三、直线回归 研究两个变量间的相关关系,当散点图呈直线趋势时,经检验具有显著性意义便可进一步建立由一个变量X(称自变量)推测另一个变量Y(称因变量)的方程式,这种推算方程式的建立统计学上称为回归。这个方程叫回归方程。当建立的推算式是在坐标面上针对散点图作为最优的配线是直线方程进行拟合称为直线回归方程。第二节 相关系数与回归方程的计算计算的步骤和方法具体见书上第165~1168页例题:某教师研究腹肌力量与跳远成绩之间的相关程度。现用仰卧起坐次数代表腹肌力量,测得10名学生的两项成绩如下表。试建立回归方程。 1 10名学生仰卧起坐与跳远成绩表 1 序号 仰卧起坐X(次) 跳远Y(米) X2 Y2 XY 1 1 39 5.00 1521 25.00 195.00 2 35 4.75 1225 22.56 166.25 3 38 4.90 1444 24.01 186.20 4 38 4.85 1444 23.52 184.30 5 42 5.30 1764 26.09 222.60 6 44 5.50 1936 30.25 242.00 7 40 4.70 1600 22.09 188.00 8 43 5.40 1849 29.16 232.20 9 40 5.10 1600 26.01 204.00 1 0 49 5.20 2401 27.04 254.80 ∑ 408 50.70 16784 257.735 2075.35 解: 1、计算相关系数 (1)列表并计算各数值填入表中 (2)计算各种离差平方和 LXX = ∑X2-(∑X)2/ n =16784-(408)2÷10=137.4 LYY = ∑Y2-(∑Y)2/ n =257.735-(50.7)2÷10=0.686 LXY = ∑XY-(∑X·∑Y/ n ) =2075.35-(408×50.7÷10)=6.79 (3)求相关系数r值 r = LXY/√LXX·LYY = 6.79÷√137.6×0.686 = 6.79÷9.7156=0.6989 (4)查相关系数表得 r 0。05(8) = 0.632 (自由度n`=10-2=8) (5)结论:r =0.6989>r 0。05(8) =0.632 P<0.05 **说明腹肌力量与跳远成绩相关显著性意义。 因为相关有显著性意义,因此要建立回归方程。如果没有显著性意义,就没有必要建立回归方程 2、建立回归方程 (1)计算回归系数b和常数项a (b YX 是Y对X的回归系数,简写为b) b= LXY/LXX=6.79÷137.46=0.0494 a= 5.07-0.0494×40.8=3.0545 (2)建立回归方程 Y=3.0545+0.0494X 此方程为由仰卧起坐对跳远成绩的预测方程式。 3、计算回归方程的标准估计误差首先让我们用预测方程计算预测值与实测值有多大误差:从成绩表中得知 当X2 =35时,预测值Y=3.0545+0.0494×35=4.78 实测值为4.75 当X6 =44时,预测值Y=3.0545+0.0494×44=5.23 实测值为5.50 从表中序号2和6的实测值与预测值的比较结果,确有一定的误差。我们把这种用回归方程中的X值来估计Y值所产生的误差称为估计误差。如果把估计值看作与X值对应的各个Y值的平均数,就可以按照计算标准差的方法来计算出这种估计误差大小的标准称为标准估计误差。一般用符号SYX 或SY来表示。 SY =√[LYY-(LXY)2/LXX]/(n-2) =√[0.686-(6.79)2÷137.4] ÷(10-2)= 0.2093 0 因为用X值来估计Y值有一定的误差,这种误差将落在实测值的左右波动,这将和平均数的标准误一样也服从正态分布。同理,可根据正态分布理论来估计其波动的可能性范围。由此可见,标准估计误差的值越小,说明波动范围越小,回归方程的预测精度就越高。反之,波动越大,回归方程的预测精度越差。 4、检验回归系数的显著性(即回归方程的稳定性)计算公式:S b= SY /√LXX =0.2093÷√137.4=0.2093÷11.72 = 0.0179 查t值表t 0。05(8) = 2.306 (自由度n`=10-2=8) t b =|b| /S b= 0.0494÷0.0179 = 2.7598 t=2.7598>t 0。05(8)= 2.306 P<0.05 结论:P<0.05 说明(b)在随机抽样时,由抽样误差引起的可能性小于5% 。或者说,从总体回归系数β=0的总体中,抽到b=0.0494这么大的或者比这更大的可能性少于5%,所以说回归方程是稳定的。 0 5、回归方程效果的方差分析(1)计算各平方和 回归平方和:L回归= b· LXY = 0.0494×6.79=0.3354 剩余平方和:L剩余=LYY-L回归= 0.686-0.3354=0.3506 (2)计算各均方 M·S回归= L回归/ n`=0.3354÷1=0.3354 M·S剩余= L剩余/ n`=0.3506÷(10-2)=0.0438 F= M·S回归/ M·S剩余=0.3354÷0.0438=7.6575≈7.66 查F值表得:F0.05(1,8) =5.32∵F=7.66>F0.05(1,8)=5.32∴P<0.05 (3)列方差分析表 1 回归方程效果方差分析表 1 变差来源 平方和 自由度 方差 F P 1 回 归 0.3354 1 0.3354 7.66 < 0.05 * 剩 余 0.3506 8 0.0438 总 变 差 0.6860 9 1 (4)结论:经方差分析回归系数有非常显著性意义。其结果与t检验结果相一致。 谬误之处在所难免,诚望批评指正!谢谢合作!
展开