加入收藏 | 设为首页 | 会员中心 | 我要投稿 济源站长网 (https://www.0391zz.cn/)- 数据工具、数据仓库、行业智能、CDN、运营!
当前位置: 首页 > 运营中心 > 建站资源 > 优化 > 正文

干货收藏!Python完整代码带你一文看懂抽样

发布时间:2019-09-25 18:36:04 所属栏目:优化 来源:宋天龙
导读:1.什么时候需要抽样 抽样工作在数据获取较少或处理大量数据比较困难的时期非常流行,这主要有以下几方面原因: 数据计算资源不足。计算机软硬件的限制是导致抽样产生的基本原因之一,尤其是在数据密集的生物、科学工程等领域,不抽样往往无法对海量数据进

首先使用Numpy的loadtxt方法导入已经划分好整群的数据集。在该示例中,读取的数据文件中的最后一列存放了不同整群的标识,整群一共被划分为4个群组,标识分别为0、1、2、3。接着通过unique方法获取整群标签的值域,用于基于整群的抽样。打印输出结果如下:

  1. [ 0. 1. 2. 3.] 

然后使用Random的sample方法从整群标签中进行抽样,这里定义抽取2个整群。最后将所有属于抽取到的整群下的数据进行读取和追加,并得到最终样本集,打印输出样本集的整群标签和总样本数量,结果如下:

  1. [3.0, 1.0] 
  2. 502 

由于是随机概率抽样,因此读者使用代码抽取到的样本很可能与笔者示例不一致,这属于正常现象。另外,读者多次随机抽样程序也可能得到不一样的结果。

上述过程中,需要考虑的关键点是:如何根据不同的数据特点、建模需求、业务背景综合考虑抽样方法,得到最适合的结果

代码实操小结:本节示例中,主要用了几个知识点:

  • 使用Numpy的loadtxt方法读取数据文件。
  • 使用内置标准库Random库中的sample方法做数据抽样。
  • 对列表通过索引做截取、通过len方法做长度统计、通过append和extend做追加等操作。
  • 字典赋值操作。
  • 使用Numpy的unique方法获得唯一值。
  • 通过for和while循环,遍历一个可迭代的对象。
  • if条件语句的使用,尤其是单条件和多条件判断。

(编辑:济源站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读