抽样的几种常用方法以及在Python中是如何实现的-电子发烧友网

大家好，今天来和大家聊聊抽样的几种常用方法，以及在Python中是如何实现的。

抽样是统计学、机器学习中非常重要，也是经常用到的方法，因为大多时候使用全量数据是不现实的，或者根本无法取到。所以我们需要抽样，比如在推断性统计中，我们会经常通过采样的样本数据来推断估计总体的样本。

上面所说的都是以概率为基础的，实际上还有一类非概率的抽样方法，因此总体上归纳为两大种类：

概率抽样：根据概率理论选择样本，每个样本有相同的概率被选中。

非概率抽样：根据非随机的标准选择样本，并不是每个样本都有机会被选中。

概率抽样威廉希尔官方网站 1.随机抽样（Random Sampling）

这也是最简单暴力的一种抽样了，就是直接随机抽取，不考虑任何因素，完全看概率。并且在随机抽样下，总体中的每条样本被选中的概率相等。

比如，现有10000条样本，且各自有序号对应的，假如抽样数量为1000，那我就直接从1-10000的数字中随机抽取1000个，被选中序号所对应的样本就被选出来了。

在Python中，我们可以用random函数随机生成数字。下面就是从100个人中随机选出5个。

import random

population = 100

data = range（population）

print（random.sample（data，5））

》 4， 19， 82， 45， 41

2.分层抽样（Stratified Sampling）

分层抽样其实也是随机抽取，不过要加上一个前提条件了。在分层抽样下，会根据一些共同属性将带抽样样本分组，然后从这些分组中单独再随机抽样。

因此，可以说分层抽样是更精细化的随机抽样，它要保持与总体群体中相同的比例。比如，机器学习分类标签中的类标签0和1，比例为3:7，为保持原有比例，那就可以分层抽样，按照每个分组单独随机抽样。

Python中我们通过train_test_split设置stratify参数即可完成分层操作。

from sklearn.model_selection import train_test_split

stratified_sample， _ = train_test_split（population， test_size=0.9， stratify=population［［‘label’］］）

print （stratified_sample）

3.聚类抽样（Cluster Sampling）

聚类抽样，也叫整群抽样。它的意思是，先将整个总体划分为多个子群体，这些子群体中的每一个都具有与总体相似的特征。也就是说它不对个体进行抽样，而是随机选择整个子群体。

用Python可以先给聚类的群体分配聚类ID，然后随机抽取两个子群体，再找到相对应的样本值即可，如下。

import numpy as np

clusters=5

pop_size = 100

sample_clusters=2# 间隔为 20，从 1 到 5 依次分配集群100个样本的聚类 ID，这一步已经假设聚类完成

cluster_ids = np.repeat（［range（1，clusters+1）］， pop_size/clusters）

# 随机选出两个聚类的 ID

cluster_to_select = random.sample（set（cluster_ids）， sample_clusters）

# 提取聚类 ID 对应的样本

indexes = ［i for i， x in enumerate（cluster_ids） if x in cluster_to_select］

# 提取样本序号对应的样本值

cluster_associated_elements = ［el for idx， el in enumerate（range（1， 101）） if idx in indexes］

print （cluster_associated_elements）

4.系统抽样（Systematic Sampling）

系统抽样是以预定的规则间隔（基本上是固定的和周期性的间隔）从总体中抽样。比如，每 9 个元素抽取一下。一般来说，这种抽样方法往往比普通随机抽样方法更有效。

下图是按顺序对每 9 个元素进行一次采样，然后重复下去。

用Python实现的话可以直接在循环体中设置step即可。

population = 100

step = 5

sample = ［element for element in range（1， population， step）］

print （sample）

5.多级采样（Multistage sampling）

在多阶段采样下，我们将多个采样方法一个接一个地连接在一起。比如，在第一阶段，可以使用聚类抽样从总体中选择集群，然后第二阶段再进行随机抽样，从每个集群中选择元素以形成最终集合。

Python代码复用了上面聚类抽样，只是在最后一步再进行随机抽样即可。

import numpy as np

clusters=5

pop_size = 100

sample_clusters=2

sample_size=5# 间隔为 20，从 1 到 5 依次分配集群100个样本的聚类 ID，这一步已经假设聚类完成

cluster_ids = np.repeat（［range（1，clusters+1）］， pop_size/clusters）

# 随机选出两个聚类的 ID

cluster_to_select = random.sample（set（cluster_ids）， sample_clusters）

# 提取聚类 ID 对应的样本

indexes = ［i for i， x in enumerate（cluster_ids） if x in cluster_to_select］

# 提取样本序号对应的样本值

cluster_associated_elements = ［el for idx， el in enumerate（range（1， 101）） if idx in indexes］

# 再从聚类样本里随机抽取样本print （random.sample（cluster_associated_elements， sample_size））

非概率抽样威廉希尔官方网站非概率抽样，毫无疑问就是不考虑概率的方式了，很多情况下是有条件的选择。因此，对于无随机性我们是无法通过统计概率和编程来实现的。这里也介绍3种方法。

1.简单采样（convenience sampling）

简单采样，其实就是研究人员只选择最容易参与和最有机会参与研究的个体。比如下面的图中，蓝点是研究人员，橙色点则是蓝色点附近最容易接近的人群。

2.自愿抽样（Voluntary Sampling）

自愿抽样下，感兴趣的人通常通过填写某种调查表格形式自行参与的。所以，这种情况中，调查的研究人员是没有权利选择任何个体的，全凭群体的自愿报名。比如下图中蓝点是研究人员，橙色的是自愿同意参与研究的个体。

3.雪球抽样（Snowball Sampling）

雪球抽样是说，最终集合是通过其他参与者选择的，即研究人员要求其他已知联系人寻找愿意参与研究的人。比如下图中蓝点是研究人员，橙色的是已知联系人，黄色是是橙色点周围的其它联系人。

总结以上就是8种常用抽样方法，平时工作中比较常用的还是概率类抽样方法，因为没有随机性我们是无法通过统计学和编程完成自动化操作的。

比如在信贷的风控样本设计时，就需要从样本窗口通过概率进行抽样。因为采样的质量基本就决定了你模型的上限了，所以在抽样时会考虑很多问题，如样本数量、是否有显著性、样本穿越等等。在这时，一个良好的抽样方法是至关重要的。

参考：

［2］ https://towardsdatascience.com/8-types-of-sampling-techniques-b21adcdd2124

编辑：jq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据

数据

+关注

关注
8

文章
7014

浏览量
88984
机器学习

机器学习

+关注

关注
66

文章
8414

浏览量
132601
python

python

+关注

关注
56

文章
4795

浏览量
84656

原文标题：基于 Python 的 8 种常用抽样方法

文章出处：【微信号：gh_6a53af9e8109，微信公众号：上海磐启微电子有限公司】欢迎添加关注！文章转载请注明出处。

Python中dict支持多个key的方法

在Python中，字典（dict）是一种非常强大的数据结构，它允许我们通过键（key）来存储和检索值（value）。有时候，我们可能想要根据多个键来检索或操作字典中的数据。虽然

发表于 11-29 15:59 •152次阅读

逻辑异或运算符在Python中的用法

，Python中的 ^ 符号实际上是一个按位异或运算符，用于对整数的二进制表示进行异或操作。尽管如此，我们仍然可以通过一些方法来实现逻辑异或的功能，即当两个布尔值不同时为真，相同时为

发表于 11-19 09:46 •167次阅读

几种常用的共模电感磁芯类型

电子发烧友网站提供《几种常用的共模电感磁芯类型.docx》资料免费下载

发表于 09-20 11:27 •0次下载

CC2640在Beacon应用中的实现方法

电子发烧友网站提供《CC2640在Beacon应用中的实现方法.pdf》资料免费下载

发表于 09-10 14:30 •0次下载

CC2640<b class='flag-5'>在</b>Beacon应用<b class='flag-5'>中</b>的<b class='flag-5'>实现</b><b class='flag-5'>方法</b>

Python建模算法与应用

上成为理想的脚本语言，特别适用于快速的应用程序开发。本文将详细介绍Python在建模算法中的应用，包括常见的建模算法、Python在建模中的优势、常

发表于 07-24 10:41 •544次阅读

Python在AI中的应用实例

Python在人工智能（AI）领域的应用极为广泛且深入，从基础的数据处理、模型训练到高级的应用部署，Python都扮演着至关重要的角色。以下将详细探讨Python

发表于 07-19 17:16 •1077次阅读

如何实现Python复制文件操作

Python 中有许多“开盖即食”的模块（比如 os，subprocess 和 shutil）以支持文件 I/O 操作。在这篇文章中，你将会看到一些用 Python 实现文件复制的特殊

发表于 07-18 14:53 •416次阅读

python训练出的模型怎么调用

在Python中，训练出的模型可以通过多种方式进行调用。 1. 模型保存与加载在Python中

发表于 07-11 10:15 •1910次阅读

使用Python进行自然语言处理

在探讨使用Python进行自然语言处理（NLP）的广阔领域时，我们首先需要理解NLP的基本概念、其重要性、Python在NLP中的优势，

发表于 07-04 14:40 •448次阅读

深度学习常用的Python库

深度学习常用的Python库，包括核心库、可视化工具、深度学习框架、自然语言处理库以及数据抓取库等，并详细分析它们的功能和优势。

发表于 07-03 16:04 •640次阅读

java实现多线程的几种方式

Java实现多线程的几种方式多线程是指程序中包含了两个或以上的线程，每个线程都可以并行执行不同的任务或操作。Java中的多线程可以提高程序的效率和性能，使得程序可以同时处理多个任务。

发表于 03-14 16:55 •697次阅读

消除自激振荡的常用方法有

消除自激振荡是指在电路或系统中消除自激振荡的现象，自激振荡是指电路或系统因为自身的反馈而产生不断增强的振荡。为了解决这个问题，工程师们提出了一系列的方法，下面将详细介绍几种常用的

发表于 01-16 14:43 •5091次阅读

如何解决Python爬虫中文乱码问题？Python爬虫中文乱码的解决方法

如何解决Python爬虫中文乱码问题？Python爬虫中文乱码的解决方法在Python爬虫过程中

发表于 01-12 15:11 •2361次阅读

PWM产生的几种方法总结

PWM产生的方法有很多种，小编将常用的几种产生方法作了一个整理以及分类，下面我们来了解一下。

发表于 01-11 09:15 •2972次阅读

加速Python for循环的12种方法

Python内建的一个常用功能是timeit模块。下面几节中我们将使用它来度量循环的当前性能和改进后的性能。

发表于 01-04 17:33 •1941次阅读

搜索历史

抽样的几种常用方法以及在Python中是如何实现的

评论

Python中dict支持多个key的方法

逻辑异或运算符在Python中的用法

几种常用的共模电感磁芯类型

CC2640在Beacon应用中的实现方法

Python建模算法与应用

Python在AI中的应用实例

如何实现Python复制文件操作

python训练出的模型怎么调用

使用Python进行自然语言处理

深度学习常用的Python库

java实现多线程的几种方式

消除自激振荡的常用方法有

如何解决Python爬虫中文乱码问题？Python爬虫中文乱码的解决方法

PWM产生的几种方法总结

加速Python for循环的12种方法