一、为什么要在统计上用平均数
我们既可以用平均数来反映一组数据的一般情况,也可以用它进行不同组数据的比较,以此看出组与组之间的差别。用平均数表示一组数据的情况,有直观、简明的特点。因为对于一组庞大的数据,我们无法分析所有数据,此时就需要选取合适的代表值来表达这组数据的特征,平均数无疑是其中最重要的代表之一。
二、平均数的算法
这里我们介绍的平均数主要是算术平均数,它反映了数据集中趋势,刻画了一组数据的平均水平。简单算术平均数是在一组数据中所有数据之和除以数据的个数,如将各个地块的小麦产量直接相加得到总产量,再除以总亩数,得到平均亩产量。加权算术平均数是将变量乘权数求出标志总量,把权数相加求出总体总量,然后用前者除以后者,它适用于对分组的统计资料计算平均数。如将各个地块的产量按不同产量水平分成若干组,先将各组产量乘以各组的地块数求出各组的总产量后,相加求得全部地块的总产量,再除以地块总数,这样计算的平均亩产量称为加权算术平均数。算术平均数的优点是利用了所有数据的特征。但它也有不足之处,正是因为它利用了所有数据的信息,容易受极端数据的影响。
中位数和众数也是反映数据集中趋势的统计量。前者是指将数据按大小顺序排列起来,形成一个数列后,居于数列中间位置的那个数据,它刻画了一组数据的中等水平。后者是指一组数据中出现次数最多的数值,有时众数在一组数中有好几个,它刻画了一组数据的多数水平。中位数和众数的特点是能够避免极端数据。在数列是正态分布的情况下,它们和平均数具有相同的值。
统计指标中很多就是反映现象在某一空间或时间上的平均数量状况,也称为平均指标,比如城镇单位在岗职工平均工资、城镇居民家庭人均可支配收入等指标。为更好地反映居民收入情况,国家统计局自2012年起,在发布城镇居民可支配收入和农村居民纯收入平均数的同时,公布城乡居民收入中位数数据。
三、使用平均数时的注意事项
在使用平均指标时,我们既要关注总量平均数,也应关注分类指标平均数,这样有助于我们正确使用平均数,从而进行比较分析。
例如在使用居民消费价格指数(CPI)时,既要运用CPI总指数,也要综合使用食品、衣着等大类指标,有时候还要使用粮食、肉禽等具体小类商品的指数。比如,在食品价格上涨较快的背景下,大家购买蔬菜、水果、粮油等具体食品的时候感觉到价格涨得很高,但国家统计局公布的食品价格指数却并不是那么高。其中一大原因就是食品价格指数是各种具体食品价格涨跌幅的加权算术平均数,反映的是食品类价格变动的平均水平。而在购买商品的过程中,人们往往比较容易记住前后两个时点某种商品的大致价格水平,以此得出该种商品的涨幅,却不会通过加权平均数计算一类商品的价格涨幅。如果将个人体会与蔬菜、水果、粮油等具体食品价格上涨情况进行对比,将会得到更加准确的结果。再比如,在使用城镇非私营单位就业人员年平均工资时,我们可以看到全国平均数,也可以看到分地区、分行业、分登记注册类型企业就业人员平均工资数据,通过对这些分类指标的使用,可以更好地反映具体某一领域的工资水平。
来源:黄陵统计
统计学上的平均数有数值平均数和位置平均数。前者是指算术平均数、调和平均数和几何平均数;后者是指中位数、众数。一、为什么要在统计上用平均数我们既可以用平均数来反映一组数据的一般情况,也可以用它进行不同组数据的比较,以此看出组与组之间的差别。用平均数表示一组数据的情况,有直观、简明的特点。因为对于一组庞大的数据,我们无法分析所有数据,此时就需要选取合适的代表值来表达这组数据的特征,平均数无疑是其中最重...
Business Intelligence(BI) 商务智能
IDC将商业智能定义为下列软件工具的集合:
终端用户查询和报告工具。 专门用来支持初级用户的原始数据访问,不包括适用于专业人士的成品报告生成工具
OLAP工具。 提供多维数据管理环境,其典型的应用是对商业问题的建模与商业数据分析。O
文章目录写在最前
统计
软件R&MATLABSPSSSAS&STATA表数据科学软件的人气对比摘要介绍招聘广告
图1a。更受欢迎的软件(250个或更多工作,2/2017)的数据科学工作数量。学术文章
使用
调查图书论坛活动编程人气度...
Chainlink提供了构建去
中
心化预言机网络所需的必要开发人员工具, 对外部数据的访问为智能合约开启了全新的功能浪潮。本文汇总了77种
使用
Chainlink预言机网络的方法与实际应用场景,涵盖去
中
心化金融、 外部支付、游戏、保险、企业系统、供应链、工具、身份授权、政府等诸多领域, 相信有助于加深学习者对预言机潜力的理解并激发探索的兴趣。
0、预言机与Chainlink简介
基本上来讲,智能合约定义了两个或多个独立方之间进行价值交换的条款和义务。 从历史上看,通常需要一个
中
央仲裁员来验证是否满足这些条
第1章 引言
随着互联网应用的广泛普及,海量数据的存储和访问成为了系统设计的瓶颈问题。对于一个大型的互联网应用,每天几十亿的PV无疑对数据库造成了相当高的负载。对于系统的稳定性和扩展性造成了极大的问题。通过数据切分来提高网站性能,横向扩展数据层已经成为架构研发人员首选的方式。
水平切分数据库:可以降低单台机器的负载,同时最大限度的降低了宕机造成的损失;负载均衡策略:可以降低单台机器的访
第1章 引言
随着互联网应用的广泛普及,海量数据的存储和访问成为了系统设计的瓶颈问题。对于一个大型的互联网应用,每天几十亿的PV无疑对数据库造成了相当高的负载。对于系统的稳定性和扩展性造成了极大的问题。通过数据切分来提高网站性能,横向扩展数据层已经成为架构研发人员首选的方式。
水平切分数据库:可以降低单台...
第1章 引言
随着互联网应用的广泛普及,海量数据的存储和访问成为了系统设计的瓶颈问题。对于一个大型的互联网应用,每天几十亿的PV无疑对数据库造成了相当高的负载。对于系统的稳定性和扩展性造成了极大的问题。通过数据切分来提高网站性能,横向扩展数据层已经成为架构研发人员首选的方式。
水平切分数据库:可以降低单台机器的负载,同时最大限度的降低了宕机造成的损失;负载均衡策略:可以降低单台机器的访
大数据基础知识:技巧与概念大数据伦理匿名方面的挑战保密性方面的挑战大数据的来源和结构人类生成的数据机器生成的数据结构化数据非结构化数据存储大数据分布式存储与云云计算:IaaS、PaaS、SaaS 和 DaaSHadoop 简介准备大数据进行分析数据质量方面的挑战ETL:提取、转换、加载大数据的其他特征大数据分析监控和异常检测数据挖掘与文本分析预测分析大数据可视化Excel在大数据
中
的作用总结
大数据伦理
匿名方面的挑战
之前说过,大数据可以用来做很多神奇的事情,尤其在比较个体信息与海量数据集方面。但有些例子
Oracle
中
的 Hash_sj 是一种用于存储数据的数据结构,它有助于提高查询效率,详细例子如下:CREATE TABLE hash_sj (
id NUMBER PRIMARY KEY,
name VARCHAR2(20)
);INSERT INTO hash_sj VALUES (1, '张三');
INSERT INTO hash_sj VALUES (2, '李四');SELECT * FROM hash_sj WHERE name = '张三';结果:ID NAME
1 张三