加权个案会给不同个案赋以不同的权重,以改变个案在统计分析中的重要性。个案加权常用于两种情形,包括:对 以频数汇总格式录入的数据 进行加权操作,以及用于对 数据权重的调整 。接下来我们将用两个案例分别对这两种情形进行介绍。
以SPSS自带数据集accidents为例
该假设数据文件涉及某保险公司,该公司正在研究给定区域内汽车事故的年龄和性别风险因子。每个个案对应一个年龄类别和性别类别的交叉分类。数据集截图如下:
在一般情况下,数据中一行数据就表示一条原始记录,如果有100人,就需要分别录入100行数据信息。但有时候,数据会使用频数格式录入数据,即以我们常见的数据报表中的汇总形式录入。
在本文的案例数据中, 事故 和 人口 这两个变量都是以频率格式录入的数据。以红色框选的两个数值为例,它们表示年龄段在21岁以下的女性人口有198522人,其中事故人数是57997人。
这种 以频数格式录入的数据在分析时需要用加权个案对话框将数据指定为频数格式 ,否则在对它进行分析时,SPSS系统会默认它为1。比如,如果我直接对 年龄分段 和 性别 变量进行交叉表分析,得到的结果将如下图所示:
数据集中不同类别对应多少行原始数据,系统就会显示多少。
接下来,我对 事故 这个频数变量进行加权操作。
选择菜单 数据 -> 个案加权 ,将 事故 变量拖入频率变量,点击 确定 。对话框如下图所示:
然后再对 年龄分段 和 性别 进行交叉分析。选择菜单 分析 -> 描述统计 -> 交叉表 ,将 年龄分段 和 性别 变量分别放入行列对话框,点击 确定 。对话框如下图所示:
最终得到的分析结果如下所示:
注意, 一旦应用了一个权重变量,该权重变量将一直有效,直到选择另一个权重变量或将其从加权操作中移除 。而且,我们每次只能对一个频数变量进行个案加权,如果该案例中进行加权的变量为人口,那么对年龄分段和性别进行交叉分析的结果将如下图所示:
以按比例计算考试成绩为例
问:假设你的课程成绩基于四次小测验和期末考试。每次小测验占最终成绩的15%,期末考试占40%。你的小测验得分分别是75分、80分、84分和88分,你的期末考试最终得分为 96分。那么你最后的总分为多少?数据集截图如下:
统计抽样理想情况下是等概率随机抽样,即不同部分所占的权重相同。比如这个案例中,如果5次成绩所占的权重相同(都占20%),那么分数的平均值为5门分数的加和除以5,SPSS中得到的描述性分析结果如下图所示:
但很多时候我们采取的是 不等概率抽样 , 不同部分在总体中所占权重并不相同 。 在开展统计分析之前,需要对每条案例数据进行权重的调整和计算。 在本案例中,不同考试所占在最终成绩中所占的权重是不同的,我们需要对 权重 变量进行个案加权,再计算最后的期末成绩(加权平均值)。
因此,我将对 权重 变量进行加权操作。选择菜单 数据 -> 个案加权 ,将 权重 变量拖入频率变量,点击 确定 。对话框如下图所示:
然后再对 分数 变量进行描述性分析。选择菜单 分析 -> 描述统计 -> 描述 ,将 分数 变量放入变量对话框,点击 确定 。对话框如下图所示:
最终得到的分析结果如下所示:
可以发现,加权前后的均值是不同的。在实际的数据分析中,加权功能常用于上述两类情况,建议读者们自己练习一下相关操作。
- 发表于:
- 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据 《腾讯内容开放平台服务协议》 转载发布内容。
- 如有侵权,请联系 cloudcommunity@tencent.com 删除。