一文详解Python如何优雅地对数据进行分组
作者:Python技术大本营 发布时间:2022-05-20 01:10:15
标签:Python,数据,分组
假设我们有这样一种数据:
data = [
("apple", 30), ("apple", 35),
("apple", 32), ("pear", 60),
("pear", 32), ("pear", 60),
("banana", 102), ("banana", 104)
]
# 我们希望变成如下格式
"""
[('apple', [30, 35, 32]),
('pear', [60, 32, 60]),
('banana', [102, 104])]
"""
如果是你的话,你会怎么做呢?很容易想到的一种解决方案是构造一个字典:
data = [
("apple", 30), ("apple", 35),
("apple", 32), ("pear", 60),
("pear", 32), ("pear", 60),
("banana", 102), ("banana", 104)
]
data_dict = {}
for name, count in data:
if name not in data_dict:
data_dict[name] = []
data_dict[name].append(count)
print(data_dict)
"""
{'apple': [30, 35, 32],
'pear': [60, 32, 60],
'banana': [102, 104]}
"""
print(list(data_dict.items()))
"""
[('apple', [30, 35, 32]),
('pear', [60, 32, 60]),
('banana', [102, 104])]
"""
这种方案完全没有问题,不过我们还可以写的更优雅一些,也就是使用字典的 setdefault 方法:
data = [
("apple", 30), ("apple", 35),
("apple", 32), ("pear", 60),
("pear", 32), ("pear", 60),
("banana", 102), ("banana", 104)
]
data_dict = {}
for name, count in data:
# setdefault(k, v) 含义如下
# 当 k 不存在时,将 k: v 设置在字典中,并返回 v
# 当 k 存在时,直接返回 k 对应值
data_dict.setdefault(name, []).append(count)
print(list(data_dict.items()))
"""
[('apple', [30, 35, 32]),
('pear', [60, 32, 60]),
('banana', [102, 104])]
"""
setdefault 是一个非常方便的方法,但是使用频率却不怎么高,或者说该方法不太让人喜欢。主要是每次调用都要给一个初始值,比如代码中的空列表 []。另外这里的初始值可以任意,如果你希望添加的时候还能实现去重效果,那么就将空列表换成空集合即可。
或者我们还可以使用 defaultdict,它位于 collections 模块中。
from collections import defaultdict
data = [
("apple", 30), ("apple", 35),
("apple", 32), ("pear", 60),
("pear", 32), ("pear", 60),
("banana", 102), ("banana", 104)
]
# 里面接收一个 callable
# 当访问的 k 不存在时,返回 callable 调用之后的值
data_dict1 = defaultdict(list)
for name, count in data:
data_dict1[name].append(count)
print(list(data_dict1.items()))
"""
[('apple', [30, 35, 32]),
('pear', [60, 32, 60]),
('banana', [102, 104])]
"""
# 也可以指定为 set
data_dict2 = defaultdict(set)
for name, count in data:
data_dict2[name].add(count)
print(list(data_dict2.items()))
"""
[('apple', {32, 35, 30}),
('pear', {32, 60}),
('banana', {104, 102})]
"""
总的来说,defaultdict 和字典的 setdefault 方法非常类似,我们使用 setdefault 即可。
当然啦,关于分组,还有一种特殊情况,就是词频统计。假设我们想统计可迭代对象中,每个元素出现的次数该怎么做呢?
data = ["apple", "apple", "apple",
"pear", "pear", "pear",
"banana", "banana"]
data_dict = {}
for item in data:
# 此处不能使用 setdefault,因为它是函数
# .setdefault(item, 0) += 1 是不符合语法规则的
if item not in data_dict:
data_dict[item] = 0
data_dict[item] += 1
print(data_dict)
"""
{'apple': 3, 'pear': 3, 'banana': 2}
"""
# 或者使用 defaultdict
from collections import defaultdict
data_dict = defaultdict(int)
for item in data:
data_dict[item] += 1
print(data_dict)
"""
defaultdict(<class 'int'>,
{'apple': 3, 'pear': 3, 'banana': 2})
"""
然而说到词频统计,我们还可以使用 collections 下的 Counter 类。
from collections import Counter
data = ["apple", "apple", "apple",
"pear", "pear", "pear",
"banana", "banana"]
data_dict = Counter(data)
# 直接搞定,Counter 已经包含了我们之前的逻辑
print(data_dict)
"""
Counter({'apple': 3, 'pear': 3, 'banana': 2})
"""
# Counter 继承 dict,除了支持字典操作之外
# 还提供了很多其它操作,其中一个就是 most_common
# 用于选择出现频率最高的几个元素
print(data_dict.most_common(2))
"""
[('apple', 3), ('pear', 3)]
"""
还是很简单的。
来源:https://segmentfault.com/a/1190000042098698
0
投稿
猜你喜欢
- Python从MySQL数据库中导出csv文件处理csv文件导入MySQL数据库import pymysqlimport csvimport
- 好不容易有些空余时间,便拿来写自己的CSS选择器引擎了,这个CSS选择器引擎的目标只有三个:速度要快代码要精简要支持CSS3的选择器。希望通
- 之前在osc看到一个文章讨论Get和Post的不同, 有人说不能用Get来上传文件。这就是用Get上传文件的例子,client用来发Get请
- 目录前言线程安全锁的作用Lock() 同步锁基本介绍使用方式死锁现象with语句RLock() 递归锁基本介绍使用方式with语句Condi
- //香水坏坏 AT 06-07-25 //郁闷的事情总是接连不断,无形的压力来自内心的恐惧 大家在用.net进行数据操作
- 遍历指定文件夹下的文件,根据文件后缀名,获取指定类型的文件列表;根据文件列表里的文件路径,逐个获取文件属性里的“修改时间”,如果“修改时间”
- 最近经常遇到xmlHttp组件的问题, 今天终于有空将解决过程中的经验整理下来了! ^o^一、在运用xmlhttp组件编
- 本文实例讲述了python处理图片之PIL模块简单使用方法。分享给大家供大家参考。具体实现方法如下:#!/usr/bin/env pytho
- 一、利用ASP和ADO实现数据库操作的工作流程ASP内嵌了五个对象Resquest、Response、Server、Seesion、Appl
- 作为WIMP(Window/Icon/Menu/Pointing Device)界面设计的关键部分,图标在人机交互设计中无所不在。随着人们对
- javascript曾一度被认为是玩具型的语言,因为它太容易上手,而且,javascript曾一度担任为web站点“打杂”的职责。直到Aja
- import time,datetime import urllib2 def
- 本文实例讲述了Python实现截屏的函数。分享给大家供大家参考。具体如下:1.可指定保存目录.2.截屏图片名字以时间为文件名3.截屏图片存为
- 源码下载地址网络构建一、什么是SRGANSRGAN出自论文Photo-Realistic Single Image Super-Resolu
- 一、问题说明以前对浮点数运行没有没有太在意。昨天同事要求把百分比结果保存到文件上,然后就以保存1位小数的形式给他保存了。但是今天同事运行时问
- 温馨提示,只想看图的画直接跳到最后一节拉格朗日方程此前所做的一切三体和太阳系的动画,都是基于牛顿力学的,而且直接对微分进行差分化,从而精度非
- 介绍:pyenv-virtualenv是pyenv的一个插件,作用如同virtualenv一样,是用来管理虚拟环境的,配合pyenv主体使用
- ImageFont模块定义了相同名称的类,即ImageFont类。这个类的实例存储bitmap字体,用于ImageDraw类的text()方
- 运行环境由于这是一个Python语言的软件包,因此需要你的机器上首先安装好Python语言的环境。关于这一点,请自行在网络上搜索获取方法。关
- Altova 公司的 XMLSPY 是个不可多得的好东西,它几乎可以开发所有的 XML 产品。最近用它来做 Schema