网站首页 > 技术文章 正文
学习目标
- 目标
- 知道总体、样本、样本大小、样本数量
- 知道样本统计量和总体统计量
- 知道总体分布、样本分布和抽样分布
- 知道常用的抽样方法
某糖果公司研发了一种超长效口香糖,为了得到口味持续时间的数据,公司聘请了试吃者帮忙完成检验,结果却让人大跌眼镜!
没文化,真可怕!我该怎么办? 有时候数据很容易收集,例如参加健身俱乐部的人的年龄,后这一家游戏公司的销售数据。但有时候不太容易,该怎么办呢? 是时候拿出终极武器了— 抽样
1.抽样相关概念
总体:是指研究对象的整个群体。
公司生产的一批糖果
样本:是从总体中选取的一部分,用于代表总体的整体情况。
在这批糖果中随机抽取50颗糖果
样本数量:又叫样本空间,是表示有多少个样本。
在这批糖果中随机抽取50颗糖果,抽5次:样本数量=5
样本大小:也叫样本容量,表示每个样本里有多少个数据。
每个样本50颗糖果:样本大小=50
统计量:
统计量是对数据进行统计得到的量,例如:均值、方差、标准差、比例等。
- 总体统计量:总体XX
对总体进行统计得到的统计量
- 总体均值$\mu$:整批所有糖果数据的均值
- 总体方差$\sigma^2$:整批所有糖果数据的方差
- 样本统计量:样本XX
对样本进行统计得到的统计量
- 样本均值$\bar{X}$:抽取的某个样本糖果数据的均值
- 样本方差$S^2$:抽取的某个样本糖果数据的方差
分布:
- 总体分布
总体数据的概率分布:整批所有糖果数据的概率分布
- 往往未知,很多时候无法获得总体所有元素的观测值
- 可以通过理论计算进行假定
- 样本分布
抽取的样本中数据的概率分布:抽取的某个样本糖果数据的概率分布
- 假设总体大小为m,样本大小为n,n趋近于m时,样本分布趋近于总体分布
- 样本分布又称经验分布
注意:样本分布与总体分布近似(抽样正确的前提下)
- 抽样分布
对样本统计量概率分布的一种描述:所有样本均值的概率分布
2.抽样方法
? 抽样的目的是为了通过样本获得总体的信息,所以关键点是怎么抽样才能保证获得的样本具有代表性,下面,我们简单介绍几种常用的抽样方法。
- 简单随机抽样(simple random sampling)。原理和我们抽扑克牌、抽奖一样,就是从一个固定的总体中(比如有N个对象),利用抽签或其他随机方法(如随机数表)抽取n个对象。所谓随机,是指总体中每一个对象被抽中的概率相等。假设两个人抽扑克牌比大小,两个人抽中大王的概率其实一样,都是1/54。
- 系统抽样(systematic sampling)。这种抽样方法的核心在于确定一个所谓的“抽样间隔”。比如将总体对象随机编号,从1至100,我们只抽取编号个位数是7的对象,即编号为7,17,27,…的样本,本质上他们相邻的编号有一个固定的间隔——10。
- 分层抽样(stratified sampling),是指先将总体按照某种特征分为若干层,比如按照性别分为男女两层,然后再从每一层内进行简单随机抽样。分层的目的就在于提升样本对总体的代表性,提高估计的精确度,比如一般的理工院校男生多女生少,采用分层抽样可以保证男性和女性样本都能被抽中。
- 整群抽样(cluster sampling),是将总体分成几个群,比如我国开展的大型调查一般会以省或地区为群,先采用简单随机抽样的方法抽取群,然后从抽中的群中再抽取相关的个体进行研究。现实过程中可以将抽中的群中的所有对象作为研究样本,也可以在群内部再次进行抽样获得部分调查对象作为样本。
3.小结
- 抽样相关概念 【知道】
- 总体:是指研究对象的整个群体。
- 样本:从总体中选取的一部分
- 样本大小:每个样本里有多少个数据
- 样本数量:表示有多少个样本。
- 统计量
- 总体XX
- 总体均值$\mu$
- 总体方差$\sigma^2$
- 样本XX
- 样本均值$\bar{X}$
- 样本方差$S^2$
- 分布:
- 总体分布
- 样本分布
- 抽样分布
- 抽样方法 【知道】
- 简单随机抽样:随机抽
- 系统抽样:等间隔抽
- 分层抽样:每种分别抽
- 整群抽样:直接抽一拨
- 上一篇: Python爬虫实战 !爬取百度贴吧帖子
- 下一篇: 图解机器学习-聚类(k均值)
猜你喜欢
- 2025-01-14 整理20个Pandas统计函数
- 2025-01-14 一文带您精通Python 函数:全方位指南
- 2025-01-14 python机器学习:线性回归中的哑变量转换
- 2025-01-14 Python启航:30天编程速成之旅(第21天)- random
- 2025-01-14 字节跳动全链路压测(Rhino)的实践
- 2025-01-14 一次Java和Python的简单且直观的比较
- 2025-01-14 关于Python函数,你应该知道以下几点基础知识
- 2025-01-14 Python实现概率分布,学数据统计的需要收藏
- 2025-01-14 Python方差分析
- 2025-01-14 文本聚类分析(一)-python
- 05-25Python 3.14 t-string 要来了,它与 f-string 有何不同?
- 05-25Python基础元素语法总结
- 05-25Python中的变量是什么东西?
- 05-25新手常见的python报错及解决方案
- 05-2511-Python变量
- 05-2510个每个人都是需要知道Python问题
- 05-25Python编程:轻松掌握函数定义、类型及其参数传递方式
- 05-25Python基础语法
- 257℃Python短文,Python中的嵌套条件语句(六)
- 257℃python笔记:for循环嵌套。end=""的作用,图形打印
- 256℃PythonNet:实现Python与.Net代码相互调用!
- 251℃Python操作Sqlserver数据库(多库同时异步执行:增删改查)
- 251℃Python实现字符串小写转大写并写入文件
- 106℃原来2025是完美的平方年,一起探索六种平方的算吧
- 91℃Python 和 JavaScript 终于联姻了!PythonMonkey 要火?
- 81℃Ollama v0.4.5-v0.4.7 更新集合:Ollama Python 库改进、新模型支持
- 最近发表
- 标签列表
-
- python中类 (31)
- python 迭代 (34)
- python 小写 (35)
- python怎么输出 (33)
- python 日志 (35)
- python语音 (31)
- python 工程师 (34)
- python3 安装 (31)
- python音乐 (31)
- 安卓 python (32)
- python 小游戏 (32)
- python 安卓 (31)
- python聚类 (34)
- python向量 (31)
- python大全 (31)
- python次方 (33)
- python桌面 (32)
- python总结 (34)
- python浏览器 (32)
- python 请求 (32)
- python 前端 (32)
- python验证码 (33)
- python 题目 (32)
- python 文件写 (33)
- python中的用法 (32)