pandas中的DataFrame数据遍历解读
作者:大虾飞哥哥 发布时间:2023-12-03 21:57:34
pandas DataFrame数据遍历
读取csv内容,格式与数据类型如下
data = pd.read_csv('save\LH8888.csv')
print(type(data))
print(data)
输出结果如下:
按行遍历数据:iterrows
获取行名:名字、年龄、身高、体重
for i, line in data.iterrows():
print(i)
print(line)
print(line['date'])
输出结果如下:
i
:是数据的索引,表示第几行数据line
:是每一行的具体数据line[‘date’]
:通过字典的方式,能够读取数据
按行遍历数据:itertuples
for line in data.itertuples():
print(line)
输出结果如下:
访问date方式如下:
for line in data.itertuples():
print(line)
print(getattr(line, 'date'))
print(line[1])
输出结果如下:
按列遍历数据:iteritems
for i, index in data.iteritems():
print(index)
输出结果如下,使用方式同iterrows。
读取和修改某一个数据
例如:我们想要读取 行索引为:1,列索引为:volume的值 27,代码如下:
iloc
:需要输入索引值,索引从0开始loc
:需要输入对应的行名和列名
print(data.iloc[1, 5])
print(data.loc[1, 'volume'])
例如:我们想要将 行索引为:1,列索引为:volume的值 27 修改为10,代码如下:
data.iloc[1, 5] = 10
print(data.loc[1, 'volume'])
print(data)
输出结果如下:
遍历dataframe中每一个数据
for i in range(data.shape[0]):
for j in range(data.shape[1]):
print(data.iloc[i, j])
输出结果如下,按行依次打印:
dataframe遍历效率对比
构建数据
import pandas as pd
import numpy as np
# 生成樣例數據
def gen_sample():
aaa = np.random.uniform(1,1000,3000)
bbb = np.random.uniform(1,1000,3000)
ccc = np.random.uniform(1,1000,3000)
ddd = np.random.uniform(1,1000,3000)
return pd.DataFrame({'aaa':aaa,'bbb':bbb, 'ccc': ccc, 'ddd': ddd})
9种遍历方法
# for + iloc 定位
def method0_sum(DF):
for i in range(len(DF)):
a = DF.iloc[i,0] + DF.iloc[i,1]
# for + iat 定位
def method1_sum(DF):
for i in range(len(DF)):
a = DF.iat[i,0] + DF.iat[i,1]
# pandas.DataFrame.iterrows() 迭代器
def method2_sum(DF):
for index, rows in DF.iterrows():
a = rows['aaa'] + rows['bbb']
# pandas.DataFrame.apply 迭代
def method3_sum(DF):
a = DF.apply(lambda x: x.aaa + x.bbb, axis=1)
# pandas.DataFrame.apply 迭代
def method4_sum(DF):
a = DF[['aaa','bbb']].apply(lambda x: x.aaa + x.bbb, axis=1)
# 列表
def method5_sum(DF):
a = [ a+b for a,b in zip(DF['aaa'],DF['bbb']) ]
# pandas
def method6_sum(DF):
a = DF['aaa'] + DF['bbb']
# numpy
def method7_sum(DF):
a = DF['aaa'].values + DF['bbb'].values
# for + itertuples
def method8_sum(DF):
for row in DF.itertuples():
a = getattr(row, 'aaa') + getattr(row, 'bbb')
效率对比
df = gen_sample()
print('for + iloc 定位:')
%timeit method0_sum(df)
df = gen_sample()
print('for + iat 定位:')
%timeit method1_sum(df)
df = gen_sample()
print('apply 迭代:')
%timeit method3_sum(df)
df = gen_sample()
print('apply 迭代 + 兩列:')
%timeit method4_sum(df)
df = gen_sample()
print('列表:')
%timeit method5_sum(df)
df = gen_sample()
print('pandas 数组操作:')
%timeit method6_sum(df)
df = gen_sample()
print('numpy 数组操作:')
%timeit method7_sum(df)
df = gen_sample()
print('for itertuples')
%timeit method8_sum(df)
df = gen_sample()
print('for iteritems')
%timeit method9_sum(df)
df = gen_sample()
print('for iterrows:')
%timeit method2_sum(df)
结果:
for + iloc 定位:
225 ms ± 9.14 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
for + iat 定位:
201 ms ± 6.37 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
apply 迭代:
88.3 ms ± 2.3 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
apply 迭代 + 兩列:
91.2 ms ± 5.29 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
列表:
1.12 ms ± 54.7 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
pandas 数组操作:
262 µs ± 9.21 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
numpy 数组操作:
14.4 µs ± 383 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
for itertuples
6.4 ms ± 265 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
for iterrows:
330 ms ± 22.3 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
说下结论
numpy数组 > iteritems > pandas数组 > 列表 > itertuples > apply > iat > iloc > iterrows
itertuples > iterrows ;快50倍
来源:https://blog.csdn.net/xu624735206/article/details/120015950


猜你喜欢
- 一年一度的六一儿童节又来了,祝大朋友小朋友节日快乐。你有没有一瞬间,特别想要回到童年?童年是一盒水彩笔,五颜六色精彩纷呈。童年是一幅漫画,新
- 今天一同事需要整理http://ics.cnvd.org.cn/工控漏洞库里面的信息,一看960多个要整理到什么时候才结束。所以我决定写个爬
- 1. 用户必须在几秒钟知道网站是做什么的。注意力是因特网上最有价值的货币。 如果访问者无法在几秒钟之内得知你的网站的方向,他很有可能转而访问
- 纳什均衡是一种博弈论中的概念,它描述了一种平衡状态,其中每个参与者都不能通过独立改变其决策来提高自己的利益。在 Python 中,可以使用一
- 我就废话不多说了,直接上代码吧!obj = Obj.objects.get(id=1)print obj.name #此时name的值假定为
- requests是一个很实用的Python HTTP客户端库,编写爬虫和测试服务器响应数据时经常会用到。可以说,Requests 完全满足如
- 在python中,我们定义好一个字符串,如下所示。在python中定义个字符串然后把它赋值给一个变量。我们可以通过下标访问单个的字符,跟所有
- 本文实例讲述了Python使用Dijkstra算法实现求解图中最短路径距离问题。分享给大家供大家参考,具体如下:这里继续前面一篇《Pytho
- AlexNet是2012年ImageNet比赛的冠军,虽然过去了很长时间,但是作为深度学习中的经典模型,AlexNet不但有助于我们理解其中
- 导语:近年来,全世界都纷纷投身网络热潮。从小企业到大公司,再到网络学校和大学,大家都在努力提升自己的网络影响力,这样既免费为自身品牌做广告,
- logging模块是Python内置的标准模块,主要用于输出运行日志,可以设置输出日志的等级、日志保存路径、日志文件回滚等。其主
- 突然收到MySQL报警,从库的数据库挂了,一直在不停的重启,打开错误日志,发现有张表坏了。innodb表损坏不能通过repair table
- 目录话不多说,直接贴所有代码运行效果需要用到的两张图片总结话不多说,直接贴所有代码import randomimport sysimport
- 1. show variables like '%profiling%';(查看profiling信息) &nbs
- list.asp<%@LANGUAGE="VBSCRIPT" CODEPAGE="936&qu
- 前期准备在虚拟开发环境中安装:pip install django-filter在Django的项目配置文件中安装并配置django_fil
- Python3进制之间的转换在Python里面实现进制之间的转换是非常方便的,有专门的函数来进行这个操作:下面直接上代码:# 进制之间的转换
- 直接to_excel会被覆盖,借助ExcelWriter可以实现写多个sheet。from openpyxl import load_wor
- 目录总体思路:判断链接是否指向文件:下载文件:获取 url 下的所有链接:最近维基 jie mi 彻底公开了网站的全部文件,我就在想如何使用
- GetRepeatTimes(TheChar,TheString) 得到一个字符串在另一个字符串当中出现几次的函数(新)如:response