截图
简介
这是社会统计学ppt,包括了绪论,单变量的描述统计分析,两个类别变量关系的描述统计,两个尺度变量关系的描述统计,类别变量与尺度变量关系的描述统计,概率与随机变量的概率分布,大数定律、中心极限定理与抽样分布,参数估计,假设检验的基本原理,总体均值与方差的假设检验,两个类别变量关系的假设检验,两个尺度变量关系的假设检验,类别变量与尺度变量关系的假设检验,非参数检验,抽样,时间序列等内容,欢迎点击下载。
社会统计学ppt是由红软PPT免费下载网推荐的一款课件PPT类型的PowerPoint.
社会统计学Social Statistics 第一章 绪论 一、统计分析方法应用水平是社会学研究科学性的重要标志 保尔·拉法格在《忆马克思》中谈到,马克思认为:“一种科学只有在成功地运用数学时,才算达到了真正完善的地步。” 二、统计分析方法应用的目的是要发现和描述社会现象的统计规律 (一)社会调查资料的特点 1、随机性 客观现象可分为确定性现象和非确定性现象(随机现象) 2、统计规律性: 通过对大量个体特征的统计分析来描述和分析社会现象的统计规律。 (二)统计学是发现和彰显统计规律的有效工具 三、统计学在社会学研究中的地位 社会调查从研究的范围来分类可以分为全面调查与非全面调查,抽样调查是非全面调查的重要方式。 一、总体、个体与样本 (一)总体( population )与个体( case ) 总体是研究对象的全体。 个体也称个案,是构成总体的最小单位,是具体调查分析对象。 (二)样本(Sample) 是从总体中抽出的用于实施调查研究的对象集合。 二、抽样方法与统计分析方法的选择 应用随机原则获得的样本称为随机样本,否则是非随机样本。 社会统计学的内容可分为两大部分:描述统计与推论统计。 全面调查,只使用描述统计即可。 应用推论统计的必要前提是样本必须是随机样本。 一、变量的层次 按照变量的取值特征和统计分析时方法应用的特征,变量的层次可以划分为类别变量和尺度变量等两大类。 (一)类别变量 1、无序类别变量( Nominal Variable ) 也称为定类变量,是测量层次最低的变量。如职业、家庭类型、婚姻状况、专业、人际关系类型、地区类别等等。 2、有序类别变量( Ordinal Variable ) 也称为定序变量或序列变量。如职称、职务级别、学生的年级等等。如用1、2、3、4、5、6、7分别表示文盲、小学、初中、高中、大专、大学、研究生。 (二)尺度变量(Scale Variable) 若测量工具有单位,则测量结果就不仅能够比较大小,而且能够比较出大多少或小多少。此种测量就是尺度测量,得到的变量就是尺度变量。尺度变量根据测量工具是否具有绝对零分为定距变量和定比变量。 1、定距变量 无绝对零,若存在零,则这个零是个相对零。如使用摄氏温度计测量的温度便是定距变量。 2、定比变量 定比测量是最高层次的测量,它不仅有相等的单位可以比较被测事物间的数量差异。而且有了绝对0,这样就可以对被测事物间的倍数进行比较。在社会学研究中,常用的有年龄、收入、住房面积等等属于定比变量。 (三)不同层次变量的功能及转换 由于对某一事物进行测量时可以使用不同层次的测量工具,因此对同一事物进行测量可能出现多种测量结果。 设计问卷时,要尽可能多地设计测量层次高的变量。 二、变量层次与统计分析方法的选择 (一)不同层次单变量统计分析方法的选择 对于类别变量,可以使用频次分布表、条形图、圆形图、线形图等来描述变量的分布状态;可以用众数和异众比率描述其集中趋势和离散趋势。对于有序类别变量,还可以用中位数和四分位差或全距描述其集中趋势和离散趋势。对于尺度变量,可以使用频次分布表、直方图、线形图等来描述变量的分布状态,用算术平均数和方差或标准差描述变量的集中趋势和离散趋势。 (二)不同层次两个变量关系的统计分析方法的选择 分析两个变量间的关系:明确两个变量是否有关系。如果有关系,相关的强度如何?相关的方向怎样等等。 两个变量的测量层次不同,应用的统计分析方法也不同。 1-1 结合社会学研究的过程谈谈统计学在其中所起的作用是什么? 1-2 社会调查资料具有哪些特点? 1-3 解释总体、个体、样本这几个概念。 1-4 变量可以分为哪些类型? 1-5 类别变量与尺度变量的区别是什么? 1-6 简要陈述不同层次变量的功能。 1-7 举例说明统计学在社会学研究中的应用。 第二章 单变量的描述统计分析 单变量的描述统计就是用统计表、统计图和统计特征值将变量的状态、水平和分布特征表现出来的方法。 一、变量及其分布 (一)变量的特征 1、变量的含义: 研究对象的每个个体都具有很多属性和特征。比如每个人都有身高、体重、年龄、学历等特征。这些在不同个体上具有不同表现的特征就称为变量。统计学中的变量在个体上是相对稳定的,在不同个体上表现出变化。这类变量也称为随机变量。 2、变量取值的两个特征 完备性。完备性是指变量的取值必须涵盖全部的个案。 互斥性。互斥性是指变量的取值之间不能互相包容。 一、变量及其分布 (二)变量的分布 变量分布指个体在变量取值上的分布。对一组观察值,一般用频次分布、频率分布和累积频率分布三种方法描述变量分布。 1、频次分布:变量取值与取值上拥有的个体数的集合称为频次分布。若变量有m个取值,则该变量的频次分布可表示为: 一、变量及其分布 (二)变量的分布 2、频率分布:变量取值与取值上拥有的个体数的频率的集合称为频率分布。将频率分布的频率乘以100%,即是百分比。频率分布可以表示为: 一、变量及其分布 (二)变量的分布 3、累计频率分布:将上述频率分布中的频率按变量的取值排列顺序逐项累加就形成累积频率分布。分布可以表示为: 一、变量及其分布 (二)变量的分布 关于频次分布、频率分布和累计频率分布的总结 可以清楚地表现数据的分布特征和统计规律,但只适用于类别变量。例如文化程度、职业、职称等。 对取值很多的尺度变量,通常将变量的取值划分成段,如年龄段、收入段,再累计该段中的人数,来表示变量的分布。 尺度变量取值的数据有两种: 离散性数据,如年龄。通常取整数,在相邻的两个数之间不存在其它的数据。 连续性数据,如身高。如果测量的单位可以达到无穷小的话,理论上,任何两个数之间都有无穷多个数。尺度变量的分布在统计表中予以详细说明。 二、统计表 表现数据分布的最常用方法是统计表。将数据按照一定的顺序排列在由横行、纵列交叉结合而成的表格上。 (一)统计表的结构 统计表可分为横表与竖表,应用较多的是竖表(教材表2-1)。 (二)描述类别变量分布特征的统计表——简单表 简单表:主词按变量的取值一一列出,适用于表现类别变量的分布。主词是类别变量的取值,宾词是各个取值出现的频次、频率或百分比及累计频率或累计百分比等。 (教材表2-2)。 二、统计表 (三)描述尺度变量分布特征的统计表——分组表 1、分组表的特点:尺度变量取值很多,可以采用分组表来表现尺度变量的分布特征。分组表的主词是将变量的取值按一定的标准分组或分段的统计表。主词中每个组的最大值称为组上限,最小值称为组下限 。(教材表2-3) 二、统计表 (三)描述尺度变量分布特征的统计表——分组表 1、分组表的制作步骤: (1)确定全距。全距就是变量观察值的最大值与最小值之差。 (2)确定组距与组数。一般是2、3、5、10或它们的倍数。 (3)确定各组的上下限。最低组的下限要小于最小的观察值,最高组的上限要大于最大的观察值。连续型数据的一组的下限与下一组的上限为同一值,习惯上以组的上限为实,下限为虚。(即“下组限不包括在内”的原则) (4)登记各组中个案的频次,计算频率。将个案按照变量取值大小划分到各组中,按需要统计出频次、频率及累计频率等,并将统计出的数据置于相应单元格内,绘制成分组表。 二、统计表 (三)描述尺度变量分布特征的统计表——分组表 1、分组表的制作步骤:确定全距;确定组距与组数;确定各组的上下限。;登记各组中个案的频次,计算频率。 二、统计图 统计图就是用图的形式来表示变量的分布特征。 比统计表更直观、生动、易记忆,缺点是不如统计表精确。 变量的测量层次不同,使用的图形也不尽相同。 不同类型的图形表示数据大小的方式不同。 用图形表现数据的分布特征时有一定的规范和要求。每个图的左下方都要有图的编号,图的正下方要有图的名称,用以简明扼要地说明图的内容。如有其它的说明可以在图的下面写出图注。如果图中有多种绘图元素,可以用图例的形式予以说明。 二、统计图 (一)描述类别变量分布特征的统计图 1、简单条形图: 条形的长短或高低来表示数据大小。以类别变量的取值为横轴的分类标志,以纵轴表示频次或频率。 (教材图2-1) 二、统计图 (一)描述类别变量分布特征的统计图 2、圆形图:也称饼图。一般用于描述类别变量中各类别所占的比例。是以一个圆为整体,以每一部分所占的比例来分割圆心角,圆心角所对应的扇形即表示每一部分所占的比例。 二、统计图 (一)描述类别变量分布特征的统计图 3、线形图:线形图是在坐标系内用折线或连续曲线表示事物的分布或变化的图。 二、统计图 (二)描述尺度变量分布特征的统计图 1、直方图: 描述尺度变量分布,用条形长短或高低来表现数据大小。 与简单条形图不同的是,条的宽度表示分组的组距,条与条之间不分离。 直方图以尺度变量为横轴,以分组的组限为横轴的数据标志,以纵轴表示频次或频率。 分组表的数据就可以用直方图来表示。 用表2-4的频率分布数据制作的直方图如图2-4所示。 简单条形图 用于描述类别变量的分布 直方图 用于描述尺度变量的分布 二、统计图 (二)描述尺度变量分布特征的统计图 2、累积频率直方图:以尺度变量为横轴,以分组的组限为横轴的数据标志,以纵轴表示累积频率,制作的直方图就是累积频率直方图。用表2-4的累积频率分布数据制作的累积频率直方图如图2-6所示。 二、统计图 (二)描述尺度变量分布特征的统计图 3、线形图:将直方图或累计频率直方图每条顶部的中点用直线连接即构成描述尺度变量分布的线形图。 (二)描述尺度变量分布特征的统计图 4、点状分布图:直方图虽能较好表现尺度变量的分布特征。但它通过分组将尺度变量转化成了顺序变量,组内数据值无法表现。若数据量足够大,可用点状分布图来详细地表现变量的分布特征。点状分布图以尺度变量为横轴,用点的累积表现变量取值上的个体数。 用图和表的形式虽然能够很好地表现变量的分布状况,但是不够简洁,尤其是将不同的总体或样本进行比较时,使用表或图难以得出清晰的结论。 很多情况下,我们不需要对所有的数据都有详尽的了解。在对不同总体进行比较时,也不可能一一地使用每一个数据,这就需要对变量的全部取值进行概括,找出一个典型的统计特征值来代表全体数据。 集中趋势(和离散趋势)就是概括地说明变量的状态或水平的统计特征值。由于测量层次不同,变量取值的数据特征不同,用于概括变量状态的集中趋势也不同。 常用的集中趋势统计量:众数;中位数;算数平均数。 常用的离散趋势统计量:异众比率;极差(全距);四分位差;方差与标准差。 一、众数M0 众数(mode)根据频次来确定的集中趋势量值。在一个变量的取值中,出现频次最多的变量值就是众数。 表2-1中,“初中”是我国家庭户主文化程度的众数。 一、众数M0 关于众数的几点注意事项 (1)众数适用于任何层次的变量,只要是知道了频次分布就可以找到众数。但主要用于概括和描述类别变量。 (2)对于分组的尺度变量,出现频次最高的组称为众数组,可以用众数组的组中值(组上限和组下限的平均值 )近似地代替众数。分组数据的众数可以精确计算 (可进一步参见李金昌、苏为华,《统计学》,机械工业出版社,2007年2月出版,72页)。但计算出来的众数只是理论众数,并非实际上取值最多的数据。) (3)众数较适用于单峰分布的情况。多峰分布的众数可能不唯一,所以通常不使用众数来概括变量分布的状态。 二、中位数Md 中位数(median)是位于数列中点的数值,它恰好把全部数据分为两半,比它大的数据个数与比它小的数据个数正好相等。 因为确定中位数需要比较数据的大小,因此定序以上的变量才可以使用。 但如果一个序列变量的取值很少,也不适合用中位数作为集中趋势来概括全部数据。 实际上,中位数适用于取值很多的序列变量和尺度变量。 二、中位数Md (一)未分组数据中位数的计算 对于原始的数据,只要将数据按大小顺序排成数列即可以找到中位数。 二、中位数Md (二)分组数据中位数的计算 在分组数据中,因为没有了数据的原始值,无法直接寻找中位数,需要先找到中位数组,第N/2 个数据所在的组为中位数组。确定中位数组以后利用式(2-2)计算中位数: 分组数据的中位数计算举例 三、算数平均数 算术平均值简称平均值,是全部数据的平均水平。算术平均值主要适用于尺度变量。 (一)未分组数据算数平均值的计算 1、根据原始数据计算 对于变量的一组观察值,可以用原始数据来直接计算算数平均值。计算公式为: 三、算数平均数 (一)未分组数据算数平均值的计算 1、根据原始数据计算 三、算数平均数 (一)未分组数据算数平均值的计算 2、根据频次数据计算 三、算数平均数 (二)分组数据的算数平均数计算 如果数据存在于分组表中,则以组中值来代替原始值计算分组数据的平均值。设数据被分为k组,每组的组中值( 组上限和组下限的平均值)为bi ,每组的频次为ni 。则分组数据的平均值的计算公式为: 四、众数、中位数和平均值的比较 (二)分组数据的算数平均数计算 仅描述观察值的集中趋势远远不够,还需要找到一些表示数据分散程度的统计特征值。 主要原因有二: 原因1:变量的取值范围不同,集中趋势的代表性不同。 例如: 中国职工年平均工资, 1978年为615元,2009年则是29229元。 1978年职工年工资的分布是在216元到3600元之间。 2009年职工年工资的分布是在6900元到数万元之间。 因此,有理由认为: 1978年的615元对当年职工工资总体的代表性高于2009年的29229元。 仅描述观察值的集中趋势远远不够,主要原因有二: 原因1:变量的取值范围不同,集中趋势的代表性不同。 原因2:变量取值范围即便相同,但变量分布特征不同时,集中趋势的代表性也不同。 例如:两个班级的数学成绩均值均为82.64分。变量值的分布范围均为从60分到100分(取值分布见教材图20-10)。 一、异众比率 (一)含义:非众数在数据总数N中所占的比例。 二、极差(全距) (一)含义:极差是变量取值的范围。极差一般用R(Range)来表示。 R=最大值—最小值 三、四分位差 (一)含义:对于定序以上变量,将数据按大小排成数列以后,从下向上数第25%的数据所在位置的值称为下四分位数,用Q25表示。从下向上数第75%的数据所在位置的值称为上四分位数,用Q75表示。上下四分位数之差即为四分位差,一般用Q(quartiles)来表示。 Q = Q75 - Q25 式(2-7) 三、四分位差 (三)未分组数据四分位差的计算: 计算四分位差要先计算上下四分位数,为此,需要先确定上下两个四分位数的位置,找到两个分位值后相减即得四分位差。根据四分位数的定义可得: 【例2-6】一组数据是某单位49名职工的住房面积。计算住房面积分布的四分位差。 某单位职工的住房面积(单位:平方米) 33、42、42、48、48、52、55、58、62、65、65、65、66、66、66、66、68、68、68、68、68、70、70、70、72、72、72、72、75、75、75、76、76、78、85、87、90、92、95、98、103、109、110、112、118、125、130、178、179 解: n=49 Q25 的位置=n/4=49/4=12.25,第12.25个数据两侧的数据是65和66。因此,下四分位数为: Q25 =65+0.25(66-65)=65.25 同理,Q75 的位置=3n/4=3*49/4=36.75 ,第36.75个数据两侧的数据是87和90。因此,上四分位数为:Q75=87+0.75(90-87)=89.25 因此,四分位差为: Q=Q75-Q25 =89.25-65.25=25 即:员工住房使用面积中间50%的数据的离散范围为25平方米。 四、方差与标准差 极差和四分位差能较好地表明数据离散情况,但只给出了数据的分布范围,只利用了数据的部分信息。极差和四分位差相等的两组数据其分布情况可能差异很大。对于尺度变量概括其离散程度最好的特征值是方差和标准差。 (一)平均差 1、离差:变量的一个观察值与变量平均值之间的差。 四、方差与标准差 (二)方差、标准差 方差和标准差是用平方的方法消除了离差中的绝对值后形成的统计特征值。方差是离差平方的平均值,标准差是方差的平方根。 四、方差与标准差 (二)方差、标准差 1、用原始数据计算方差、标准差 直接使用式(2-13)和(2-14)。 【例2-8】 五名学生数学成绩分别为72、81、86、69、57,计算这五名学生数学成绩分布的方差和标准差。 四、方差与标准差 (二)方差、标准差 2、用频次分布数据计算方差和标准差 设变量有k个取值,每个取值出现的频次为ni,则利用频次分布数据计算方差和标准差的公式为: 四、方差与标准差 (二)方差、标准差 3、用分组数据计算方差和标准差 用每一组的组中值来代替该组的变量值计算方差和标准差,用分组数据计算方差和标准差的公式为: 参见教材习题2-1到2-8。 第三章 两个类别变量关系的描述统计 社会学研究中不仅要对单个变量的分布进行描述,更多的是要分析变量之间的关系。比如,分析性别与体育爱好的关系、职业与政治参与的关系、文化程度与生育子女数量的关系、收入与住房面积的关系等等。 对测量层次不同的变量之间的关系,其分析方法也不同。 分析两个类别变量的关系,如性别与职业的关系、性别与文化程度的关系、文化程度与生活满意度之间的关系等等,可采用三种方法: 交叉列表:从两个变量的交叉分布来分析两者关系。 分类图:直观地表现变量间的关系。 相关系数:精确地描述变量之间关系的强度。 一、两个类别变量相关的概念 如果有两个类别变量,在一个变量取不同类别时,另一个变量的分布有显著差异。则认为两个类别变量相关。如果一个变量取不同类别时,另一个变量的分布没有显著差异,就认为这两个变量不相关。 两个类别变量之间的关系要通过两个变量的交叉分布来描述。这种分析方法称为交叉列表分析,构成的表格称为交叉表或列联表。两个类别变量之间的相关也称为列联相关。 二、列联表的结构 列联表也是统计表的一种,它与简单表和分组表不同的是,在一个表中表现了两个不同变量的分布,因此也被称为复合表。 表的主词和表头分别是两个变量的取值。表身中单元格的数据是两个变量交叉后的频次或频率分布。 三、列联表的种类 设 x与y是两个类别变量, x分为x1, x2…xr共r 类,y分为y1, y2…yc共c 类,数据总个数为n 。 根据列联表中单元格数据的不同,列联表可分为频次分布的列联表和频率分布的列联表。 三、列联表的种类 (一)频次分布的列联表 三、列联表的种类 (一)频率分布的列联表 四、列联表中的分布 (一)联合分布:即列联表中间部分的数据 nij或 pij,它们都是由两个变量共同决定的。 (二)边缘分布:列联表中最下面一行nj或 pj是变量y的分布,最右面一列ni或pi是变量x的分布。 (三)条件分布: 如果将一个变量取固定值,另一个变量的分布就是条件分布。 使用条件分布的目的是要看当一个变量取不同类别时另一个变量的分布是否有差异。这种差异通过频次分布难以表现,所以条件分布大都是采用频率分布。 用单元格的频次除以对应列的总频次,即nij/nj构成的分布称为关于x的条件分布,也就是当y取固定值时x的分布。 同理, nij/ni*构成的分布称为关于y条件分布。 五、列联表中变量的相互独立性 在列联表中,可以通过比较条件分布来研究类别变量之间的关系。当一个变量取不同类别时,另一个变量的分布有差异,即说明两个变量是相关的。 从频率分布看,两个变量相互独立的表现形式是条件分布等于边缘分布。(推导见教材式3-1到3-4) 一、分类条形图 以一个变量的取值作为横轴的标记,用另一个变量的取值来分类。以不同标志点上分类变量的频次或频率作为条的长度绘制条形图。 如果在每个标志点上分类变量各个条长基本相等,则说明两个变量基本不相关。 二、分类圆形图 描述变量各取值上的个案数在总数中所占的比例。 多个圆形可以分开画,也可以从大到小叠在一起。 如果在不同的圆形中各个扇形所占的比例基本相同,就可以认为两个变量不相关。 三、多线图 在坐标系内绘制分类变量取不同值时,另一个变量分布的多条折线。 如果这些折线基本重合,或者相差不大,则认为两个变量不相关。 图表法只能粗略说明两个变量间是否相关,为精确度量变量之间关系的强度和方向,统计学家根据不同测量层次的变量建构了一系列的统计指标,这就是相关系数。 两个无序类别变量之间的关系可以用列联相关系数来描述。在多年的统计实践过程中,统计学家建构了多个列联相关系数。概括起来,基于两种方法,一是基于消减误差比例的方法来建构,二是基于卡方值来建构。后者将在卡方检验中予以介绍,本节只介绍基于消减误差比例的方法建构的列联相关系数。 列联相关系数是描述两个类别变量关系的特征值。由于有更好的特征值来描述两个有序类别变量之间的关系强度。因此,列联相关系数主要用于描述两个无序类别变量,或是一个无序类别变量与一个有序类别变量之间的关系。 一、消减误差比例的统计思想 (一)引例 比如有4名学生,某次考试成绩的平均分是80分。如果猜测每名学生的考分,唯一可以参考的信息就是平均成绩。只能猜测每人都得80分。实际上,这4名学生的成绩是90、85、75、70。猜测所产生的总误差是: 一、消减误差比例的统计思想 (一)引例 知道性别与考试分数之间的关系后,预测减少的误差比例是: 一、消减误差比例的统计思想 (二)消减误差比例的一般思想 在没有任何可参考的信息下猜测一个事物时会有很大的盲目性,而借助一个与被猜测的事物有关的事物来进行猜测,就会减少盲目性,提高猜测的准确性。 如果两个变量相关,借助一个变量去猜测另一个变量时会消减掉猜测误差。消减掉的误差大,说明两个变量之间的密切程度高。消减掉的误差小,说明两个变量之间的密切程度低。 这样,消减掉误差的大小就可以成为测量两个变量之间关系密切程度的指标。 一、消减误差比例的统计思想 (三)消减误差比例的计算公式 设有两个变量x和y,观察的个案数为n。 直接猜测每个个体在y变量上的取值,是一种盲目猜测,必然产生误差。猜测n个个案所产生的总误差为E1。 如果每个个体在x变量上的取值是已知的,可以借助个体在x变量上的取值来猜测其在y变量上的取值,此时所产生的总误差为E2 。消减误差比例(Percent reduce error)为: 二、 λ系数 λ系数就是基于消减误差比例的思想建构的列联相关系数。利用PRE原理计算相关系数的关键是如何确定 E1和E2 。 (一)引例 在某城市社区随机抽取了60岁以上的老年人,男、女各100人。他们是否愿意去老年公寓养老的态度分布如表3-10所示。从表3-10中可以看出老年人是否愿意去老年公寓养老的态度与性别是相关的。要计算这两个变量的相关系数要先定义E1和E2。 二、 λ系数 (一)引例 二、 λ系数 (二)λ系数的计算公式 假设只知道类别变量x的分布,即y的边缘分布已知。要猜测每个个案y的取值,唯一可参考的就是变量y的分布。此时用众数来猜测所有个案要比用其它值来猜测产生的误差小。 设y变量众数的频次为max(n*j) ,猜测误差E1为: E1 = n - max(n*j) (3-6) 假设已知道x与y有关,就可以根据 x取不同值时y分布的众数来猜测每个个案的 y。即根据条件分布的众数来猜测y。 设每一行的众数分别为max(n1j) 、 max(n2j) … max(nrj),r=1,…c,猜测误差E2为: 二、 λ系数 (二)λ系数的计算公式 E1 = n - max(n*j 二、 λ系数 (三)λ系数的几个注意事项 1、λ系数的取值范围是0到1。 2、λ系数具有不对称性,借助y来猜测x时,定义的E1、E2 是不同的,此时公式为: 二、 λ系数 (三)λ系数的几个注意事项 3、如果两个变量之间具有明确意义上的因果关系,习惯上将 设为自变量,将 设为因变量。当两个变量之间的因果关系不太明确的情况下可以计算λy 和λx 的加权平均数来作为两个变量的列联相关系数。计算方法如下: 二、 λ系数 (四)λ系数的算例: 【例3-2】计算表3-1中残疾人的文化程度与性别的 λ系数。 三、 Goodman-Kruskal Tau(古德曼-克鲁斯卡尔 )系数 λ系数的E1、E2 的定义简洁、明确,计算简单,有较多的应用。其缺点是只使用了各行或各列的众数,没有充分利用数据的信息。 系数也是基于消减误差比例的思想建构的列联相关系数,但是对于E1、E2的定义与λ系数有所不同。 (一)引例 以表3-10中不同性别老年人对去公寓养老的态度为例,说明 系数计算中 E1、E2 的定义方法。 三、 Goodman-Kruskal Tau(古德曼-克鲁斯卡尔 )系数 (二) 系数的计算公式 三、 Goodman-Kruskal Tau(古德曼-克鲁斯卡尔 )系数 (三) 系数的算例 【例3-4】计算表3-1中残疾人文化程度与性别的 系数。 一、等级相关的概念 (一)含义: 等级相关指的是两个有序类别变量之间的相关。如果有两个有序类别变量,在一个变量取不同等级时,另一个变量的分布有较大差异,则认为两个有序类别变量存在等级相关。 (二)适用条件: 用于刻画两个有序类别变量的关系。两个有序类别变量之间的关系,尽管也可以用分类条形图、分类圆形图和多线图进行描述,但变量间的关系强度则需要用等级相关系数来描述。 由于有序类别变量的取值具有了比较大小的意义,变量的变化具有了方向性。因此相关系数也具有了方向性。如果两个变量的变化方向一致则说明两个变量是正相关,如果两个变量的变化方向相反则说明两个变量是负相关。等级相关系数的正负号表明的就是相关的方向。 二、Spearman(斯皮尔曼)等级相关系数 (一)建构斯皮尔曼等级相关系数的统计思想 根据个案在两个变量上的等级差值的大小来测量相关度。 将两个变量的两组数据分别排序以后,每个个案在两个变量上分别获得了一个等级。 如果两个变量有比较强的正相关,个案的两个等级差就会比较小,所有个案的两个等级差值的平方和也会比较小。反之,如果两个变量有比较强的负相关,个案的两个等级差就会比较大,所有个案的两个等级差值的平方和也会比较大。 因此,个案的两个等级差值的平方和可以用来测量两个变量的等级相关。 (二)斯皮尔曼等级相关系数的计算 1、无相同等级时的斯皮尔曼等级相关系数的计算 设变量x与y均为有序类别变量,且不含有相同等级。也就是说在任何一个变量上不存在两个个案取值相同的情况,每个个案占有一个等级。斯皮尔曼等级相关系数的计算公式为: 1、无相同等级时的斯皮尔曼等级相关系数的计算 【例3-5】表3-12是14名学生的数学成绩与物理成绩。计算学生的数学成绩与物理成绩的斯皮尔曼等级相关系数。 二、Spearman(斯皮尔曼)等级相关系数 (二)斯皮尔曼等级相关系数的计算 2、有相同等级时的斯皮尔曼等级相关系数的计算 如果在一个变量中两个个案的取值相等,就会出现相同等级。在统计学中,相同等级也被称为“结(Tie)”。 对于结,一般采用具有相同等级的个案所应占有的平均等级作为它们的共同等级,以保证个案数与等级数基本一致。 由于斯皮尔曼等级相关系数要求没有相同等级,因此当变量的取值不是很多,但个案数很多时,这个要求是难以满足的。 当相同等级不太多时,也可以计算斯皮尔曼等级相关系数。(太多则应用Gamma等级相关系数) 【例3-6】 表3-13也是14名学生的数学成绩与物理成绩,但其中含有相同等级。计算学生的数学成绩与物理成绩的斯皮尔曼等级相关系数。(注意表中结的处理) 三、Gamma等级相关系数 数据中存在大量的相同等级时,可以用Gamma等级相关系数来描述两个有序类别变量之间的相关程度。 Gamma等级相关系数是用同序对与异序对的数量差来测量两个变量相关程度的。 (一)同序对与异序对 三、Gamma等级相关系数 (一)同序对与异序对 三、Gamma等级相关系数 (一)同序对与异序对 三、Gamma等级相关系数 (二)Gamma等级相关系数的计算 1、公式:如果同序对多异序对少,则表明两个变量之间有正相关;如果异序对多同序对少,则表明两个变量之间有负相关。 四、Kendall’s Tau(肯德尔τ)系数 Gamma等级相关系数只考虑同序对与异序对,没考虑同分对。这在同分对非常多的情况下会使计算出的相关系数偏大。统计学家肯德尔对此进行了修正,提出一系列等级相关的计算公式。此处仅介绍Kendall’s Tau-c( ) 五、Somer’s d 系数 Somer 也考虑了同分对,给了dyx和dxy相关系数,并将其均值作为两个变量的等级相关系数。 参见教材习题3-1至3-5。 第四章 两个尺度变量关系的描述统计 社会调查中涉及到的尺度变量有两个特点,一是数据分布的全距大,二是变量的取值多。 如果制作列联表会产生分布极其分散的巨型表格,无法表现出变量之间的关系特征。因此,尺度变量之间的关系不适宜用列联表来描述。 一般来说,尺度变量之间的相关既可以用散点图来形象地描述,也可以用相关系数来概括地描述。 如果变量之间存在因果关系,还可以用回归方程来描述因变量随自变量变化的状况。 一、相关的概念 两个尺度变量之间的相关关系,指的是两个变量在变化过程中数量上的依存关系。 当一个变量变化时另一个变量也会出现相应的变化。这两个变量之间就存在相关关系。 如果一个变量变大时另一个变量也随之变大,或是一个变量变小时另一个变量也随之变小,这两个变量之间是正相关。 反之,当一个变量变大时另一个变量随之变小,或是一个变量变小时另一个变量随之变大,这两个变量之间存在负相关。 如果两个变量的变化不存在上述的依存性,则认为两个变量无相关。 二、相关散点图 (一)含义: 散点图可以形象地描述两个尺度变量的相关状况和相关强度。设有两个尺度变量x和y。以x为横坐标,以y为纵坐标,根据任意个案x和y的取值,可以在坐标系里确定一个点。众多个案在坐标系中呈现一种点状分布,这样的图形就是散点图。 (二)作用: 散点的分布状态可以表明变量之间的相关性。 (三)例子 二、相关散点图 三、Pearson(皮尔逊)相关系数 用散点图来描述两个尺度变量之间的相关虽然形象,但不精确。精确描述变量之间相关强度的特征值是皮尔逊相关系数。 (一)Pearson(皮尔逊)相关系数建构的统计思想 设有两个尺度变量x和y,散点图见图4-5。以x和y的均值为基础的横线,将图划分为四个区域。 三、Pearson(皮尔逊)相关系数 (一)Pearson(皮尔逊)相关系数建构的统计思想 (二)Pearson(皮尔逊)相关系数的计算 【例4-1】表4-1是10名学生的数学成绩与物理成绩,计算这两科成绩的皮尔逊相关系数。 (二)Pearson(皮尔逊)相关系数的计算 【例4-2】表 4-2的数据是11个家庭的月收入x(千元)与住房面积y(平方米)。计算两个变量的皮尔逊相关系数。 三、Pearson(皮尔逊)相关系数 (一)Pearson(皮尔逊)相关系数建构的统计思想 相关分析的结果只能说明两个变量是否有关系,以及关系大小事多少。在此基础上,可以借助回归分析方法,进一步分析变量间的因果关系。 一、回归分析的统计思想 设有两个变量x与y,x为自变量,y为因变量。他们之间的关系可以分为确定性的关系与非确定性的关系。 确定性关系即一一对应关系。 非确定性的关系则是一种数量上的依存关系。表现为两个变量相关,但并不一一对应。例如身高与体重的关系,身高越高体重越重的规律,指的是身高为的所有人的平均体重要低于身高为的所有人的平均体重。 非确定性的关系也可以采用函数的方法来描述,但估计时有误差。如果能明确误差大小,就可以用确定性的方法来研究非确定性的变量关系,这就是回归分析的基本出发点。 回归分析是对变量的一组观察值拟合一个函数,将非确定性关系转化为确定性关系。由于变量间关系特征不同,拟合函数也不同。 二、线性回归 (一)线性回归方程的建立 回归分析最简单的方法是对一组观察值拟合一条直线。该方法叫线性回归分析,也称为线性回归分析。拟合直线叫回归直线,也称回归方程。回归方程中自变量的系数能够说明当自变量变化一个单位时因变量随之发生了何种变化。如图4-6中的直线即是对12个个案的观察值拟合的回归直线。 二、线性回归 (一)线性回归方程的建立 线性回归方程的一般表达式为: (一)线性回归方程的建立 【例4-3】 对【例4-2】,求解以住房面积为因变量,家庭月收入为自变量的回归方程。 参见教材习题4-1至4-5。 第五章 类别变量与尺度变量关系的描述统计 在社会学研究中经常要分析类别变量与尺度变量之间的关系。如收入与学历是否相关,初婚年龄与地区是否相关等等。 如果类别变量与尺度变量之间的关系是因果关系,在这样的分析中,类别变量是自变量,尺度变量是因变量。 也把自变量称为影响因素变量,自变量的不同取值称为影响因素的不同水平。 这种变量间的关系也可用统计表、统计图和统计特征值描述。 一、平均值比较分析的统计思想 类别变量与尺度变量间的差异在于类别变量取值较少,而尺度变量则有很多取值,有些尺度变量的取值范围还很大。 类别变量与尺度变量之间关系的分析方法是,比较在自变量取不同水平时,因变量的平均值是否有差异。 如果当自变量取不同值时,因变量的平均值有较大差异,则认为自变量与因变量有相关。反之,则无关。 设x为类别变量,有 共个m取值。y为尺度变量。 先按照类别变量将数据分为m类,然后计算每个类别y的平均值,可得 对这些平均值进行比较,如果差异很大,则认为x和y相关。如果这些平均值都相等,或者仅有微小差异,则认为不相关。 【例5-1】 某班级进行一次外语水平考试,不同性别的学生得分如表5-1所示。问这个班学生的外语成绩与性别是否相关? 二、统计表、条形图与线形图 (一)统计表 类别变量与尺度变量之间的关系可以用统计表进行描述。 (二)条形图与线形图 1、条形图 类别变量与尺度变量间的关系也可用统计图鲜明地表现出来。用类别变量的每个取值代表一个条,用条的高度代表属于该类别的所有个案在所研究的尺度变量上的平均值。 (二)条形图与线形图 2、线形图 将图(5-1)中条形顶端的中点用折线相连,就可以绘出两个变量关系的线形图。如图(5-2)所示。 一、相关比率建构的统计思想 对于不同类别的平均值进行比较,只能粗略地说明类别变量与尺度变量之间是否有相关。要想精确地说明两个变量的相关程度还要用相关系数来描述。 类别变量与尺度变量之间的相关系数被称为相关比率,用eta来表示。相关比率也是基于消减误差比率的思想建构的。 假设已知变量y的平均值,要猜测每个个体y变量的值,只能将每个个体的值都猜测为平均值。这时产生的总误差平方和为: 一、相关比率建构的统计思想 如果知道y与另一个类别变量x相关,且x有m个取值,每个类别的个案数分别为 在的每个类别上的均值分别为 这时再猜测每个个体y变量的值时要看它属于x的哪个类别,并用这个类别的y的均值 来猜测它,此时的总误差平方和为: 二、相关比率的计算 【例5-2】在某城市随机抽取45位居民。其文化程度与住房面积的分布如表5-3所示。计算文化程度与住房面积的相关比率。 二、相关比率的计算 【例5-2】在某城市随机抽取45位居民。其文化程度与住房面积的分布如表5-3所示。计算文化程度与住房面积的相关比率。 解:先求不同文化程度的居民的平均住房面积,再求所有居民的平均住房面积,最后代入相关比率的公式即得。 二、相关比率的计算 【例5-2】在某城市随机抽取45位居民。其文化程度与住房面积的分布如表5-3所示。计算文化程度与住房面积的相关比率。 解:先求不同文化程度的居民的平均住房面积,再求所有居民的平均住房面积,最后代入相关比率的公式即得。 参见教材习题5-1至5-4。
展开