pandas groupby分组对象的组内排序解决方案
作者:guofei_fly 发布时间:2023-06-15 18:34:58
问题:
根据数据某列进行分组,选择其中另一列大小top-K的的所在行数据
解析:
求解思路很清晰,即先用groupby对数据进行分组,然后再根据分组后的某一列进行排序,选择排序结果后的top-K结果
案例:
取一下dataframe中B列各对象中C值最高所在的行
df = pd.DataFrame({"A": [2, 3, 5, 4], "B": ['a', 'b', 'b', 'a'], "C": [200801, 200902, 200704, 201003]})
Groupby的基本功能介绍
groupby以后返回DataFrameGroupBy对象,实际上还没有进行任何计算,只是一个暂时存储的容器,
[In]df.groupby('B')
[Out]<pandas.core.groupby.DataFrameGroupBy object at 0x11800f588>
对groupby结果进行简单的列选取返回的也是DataFrameGroupBy/SeriesGroupBy对象,无法可视化
[In]df.groupby('B')['A'] # 返回SeriesGroupBy对象
[Out]<pandas.core.groupby.SeriesGroupBy object at 0x117f6b630>
[In]df.groupby('B')['A','C'] # 返回DataFrameGroupBy对象
[Out]<pandas.core.groupby.DataFrameGroupBy object at 0x117fb84e0>
需要对DataFrameGroupBy进行计数、统计、agg聚合计算、apply映射计算和transform等操作,才能生成可视化的数据(下文仅以count和size函数为例展示,不涉及其它的操作)
[In] df.groupby('B', as_index=False)['A'].count() # 组内数据统计
[Out] B A
0 a 2
1 b 2
[In] df.groupby('B')['A'].size().reset_index(name='Size') # 组内数据统计,size和count的一个显著区别在于count不考虑Nan,size考虑Nan
[Out] B Size
0 a 2
1 b 2
解决方案一:
对DataFrameGroupBy对象,用apply函数进行某列的sort_values排序,再选出其中的最大值所在行
# 返回值是一个带有multiindex的dataframe数据,其中level=0为groupby的by列,而level=1为原index
[In] df.groupby('B').apply(lambda x: x.sort_values('C', ascending=False))
[Out] A B C
B
a 3 4 a 201003
0 2 a 200801
b 1 3 b 200902
2 5 b 200704
# 通过设置group_keys参数对multiindex进行优化
[In] df.groupby('B', group_keys=False).apply(lambda x: x.sort_values('C', ascending=False))
[Out] A B C
3 4 a 201003
0 2 a 200801
1 3 b 200902
2 5 b 200704
# 再次groupby,并调用内置的first()方法,取最大值
[In] df.groupby('B', group_keys=False).apply(lambda x: x.sort_values('C', ascending=False)).groupby('B').first().reset_index()
[Out] B A C
0 a 4 201003
1 b 3 200902
解决方案二:
先对B进行整体的sort_values,在groupy取值
[In] df.sort_values('C', ascending=False).groupby('B').first().reset_index()
[Out] B A C
0 a 4 201003
1 b 3 200902
问题拓展:
以上仅解决了Top-1的问题,如果是Top-k呢?
答案:将first()函数变为head()函数
[In] df.sort_values('C', ascending=False).groupby('B').head(2)
[Out] A B C
3 4 a 201003
1 3 b 200902
0 2 a 200801
2 5 b 200704
总结:
1、方案二,即先排序再groupby取值更方便
2、pandas中API众多,在实际使用时要捋清各步骤返回值的类型以方便记忆和联想
补充:pandas分组groupby、agg,排序sort,连接concat、join
连接concat和join
横向连接
pd.concat([df6,df7],axis=1)
df6.join(df7)
# df6的表格在前面,如需df7的表格在前需要交换位置
注意点:
1、concat这个方法,既可以实现横向连接,也可以实现纵向连接,通过设置axis的值来控制,axis=1表示的是横向连接,如果多个连接的对象,放在列表中
2、join也可以实现
纵向连接
pd.concat([df8,df9],ignore_index=True)
注意点:
1、进行纵向合并的数据,需要用[]集合起来
2、ignore_index忽略原有的行索引,重新排列
3、drop_duplicates()删除重复数据
排序
#按照成绩排序
df10.sort_values('score')
#默认升序,从小到大
df10.sort_values(['score','group'],ascending=False,na_position='first')
#sort各个属性
参数 | 描述 |
---|---|
by | 字符串或者列表,如果是单个排序字段,使用的是字符串,如果指定多个,需要使用列表 |
ascending | True的时候,是按照升序,默认是升序 |
na_position | 表示的是空值的位置,'last'是默认的,'first'开始位置 |
分组
### groupby
df11.groupby('class')
df11.groupby(['class','grade'])
for cls,data in df11.groupby(['class','grade']):
print(cls)
print(data)
注意点:
1、groupby 如果指定的是一个列,如果是多个列[]
2、groupby返回的是一个对象,所以不能直接访问,可以使用for
筛选出分组之后的列
如果筛选出一列数据[[列名]],返回的是dataframe对象
如果筛选出多个列数据,直接使用[]和[[]]均可
总结[[列1,列2,。。。。]]
聚合函数 agg配合使用
dff.groupby('class')[['math']].agg(['mean','max','min','median','std'])
函数 | 描述 |
---|---|
mean | 均值 |
max | 最大值 |
min | 最小值 |
median | 中位数 |
std | 标准差 |
count | 计数 |
skew | 偏度 |
quantile | 指定分位数 |
以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。如有错误或未考虑完全的地方,望不吝赐教。
来源:https://blog.csdn.net/guofei_fly/article/details/93844612
猜你喜欢
- 网页上搜索 “python绘制国际象棋棋盘”,索引结果均为调用 turtle 库绘制棋盘结果;为了填充使用 python PIL 图像处理库
- SQL Server所谓的分布式查询(Distributed Query)是能够访问存放在同一部计算机或不同计算机上的SQL Server或
- 如下所示:a = 1b = 3print(a/b)#方法一:print(round(a/b,2))#方法二:print(format(flo
- 记录一下微信支付整个流程1.公众号申请及配置流程使用微信支付的前提是必须要有公众号。 申请链接: 微信公众号申请.记得选择服务号,根据操作提
- python 自定义封装带颜色的logging模块自己在搭建python接口自动化框架 分享一些内容过程中想自己封装一个logger方法 根
- 1.背景在python运行一些,计算复杂度比较高的函数时,服务器端单核CPU的情况比较耗时,因此需要多CPU使用多进程加快速度2.函数要求笔
- 在项目中遇到需要处理超级大量的数据集,无法载入内存的问题就不用说了,单线程分批读取和处理(虽然这个处理也只是特别简单的首尾相连的操作)也会使
- 核心技术:Python3.7GUI技术:Tkinter (Python已经内置)好多文章写Python GUI之tkinter窗口视窗教程大
- torch.nn.Conv2d中自定义权重torch.nn.Conv2d函数调用后会自动初始化weight和bias,本文主要涉及如何自定义
- 原文:http://www.htmldog.com/guides/htmlintermediate/badtags/十六 有害的标签 Bad
- github主页导入:>>> from fuzzywuzzy import fuzz>>> from f
- 本文实例讲述了django框架使用模板。分享给大家供大家参考,具体如下:models.py:from django.db import mo
- 我的需求:手动配置X轴、Y轴、图表标题等参数自动通过Pyecharts模块生成可视化的html数据图表,并将浏览器图表展示到UI界面上。制作
- 相比SQL Server 2000提供的FOR XML查询,SQL Server 2005版本对现有功能增强的基础上增加了不少新功能,最为吸
- http协议是无状态的。下一次去访问一个页面时并不知道上一次对这个页面做了什么。无状态的应用层面的原因是:浏览器和服务器之间的通信都遵守HT
- (1) 展示了ASP * 站设计的一些最基本的方法,相信通过实践各位对ASP已经有了最基本的了解,本篇在答复大家所提问题的同时,将进一步介绍
- Python是一门简单易学的编程语言。阅读好的Python程序感觉就像阅读英语,尽管是非常严格的英语。Python的这种伪代码特性是其最大强
- 1.简述:xlrd是读取excel表格数据;支持 xlsx和xls 格式的excel表格;三方模块安装方式:pip3 install xlr
- 本文实例讲述了Python wxPython库消息对话框MessageDialog用法。分享给大家供大家参考,具体如下:消息对话框即我们平时
- ALTER TABLE将表更改为当前字符集。如果在执行ALTER TABLE操作期间遇到重复键错误,原因在于新的字符集将2个键映射到了相同值