Python加载文件内容的两种实现方式
作者:象在舞 发布时间:2023-09-01 03:17:14
说到机器学习,大家首先想到的可能就是Python和算法了,其实光有Python和算法是不够的,数据才是进行机器学习的前提。
大多数的数据都会存储在文件中,要想通过Python调用算法对数据进行相关学习,首先就要将数据读入程序中,本文介绍两种加载数据的方式,在之后的算法介绍中,将频繁使用这两种方式将数据加载到程序。
下面我们将以Logistic Regression模型加载数据为例,分别对两种不同的加载数据的方式进行介绍。
一、利用open()函数进行加载
def load_file(file_name):
'''
利用open()函数加载文件
:param file_name: 文件名
:return: 特征矩阵、标签矩阵
'''
f = open(file_name) # 打开训练数据集所在的文档
feature = [] # 存放特征的列表
label = [] #存放标签的列表
for row in f.readlines():
f_tmp = [] # 存放特征的中间列表
l_tmp = [] # 存放标签的中间列表
number = row.strip().split("\t") # 按照\t分割每行的元素,得到每行特征和标签
f_tmp.append(1) # 设置偏置项
for i in range(len(number) - 1):
f_tmp.append(float(number[i]))
l_tmp.append(float(number[-1]))
feature.append(f_tmp)
label.append(l_tmp)
f.close() # 关闭文件,很重要的操作
return np.mat(feature), np.mat(label)
二、利用Pandas库中的read_csv()方法进行加载
def load_file_pd(path, file_name):
'''
利用pandas库加载文件
:param path: 文件路径
:param file_name: 文件名称
:return: 特征矩阵、标签矩阵
'''
feature = pd.read_csv(path + file_name, delimiter="\t", header=None, usecols=[0, 1])
feature.columns = ["a", "b"]
feature = feature.reindex(columns=list('cab'), fill_value=1)
label = pd.read_csv(path + file_name, delimiter="\t", header=None, usecols=[2])
return feature.values, label.values
三、示例
我们可以使用上述的两种方法加载部分数据进行测试,数据内容如下:
数据分为三列,前两列是特征,最后一列是标签。
加载数据代码如下:
'''
两种方式加载文件
'''
import pandas as pd
import numpy as np
def load_file(file_name):
'''
利用open()函数加载文件
:param file_name: 文件名
:return: 特征矩阵、标签矩阵
'''
f = open(file_name) # 打开训练数据集所在的文档
feature = [] # 存放特征的列表
label = [] #存放标签的列表
for row in f.readlines():
f_tmp = [] # 存放特征的中间列表
l_tmp = [] # 存放标签的中间列表
number = row.strip().split("\t") # 按照\t分割每行的元素,得到每行特征和标签
f_tmp.append(1) # 设置偏置项
for i in range(len(number) - 1):
f_tmp.append(float(number[i]))
l_tmp.append(float(number[-1]))
feature.append(f_tmp)
label.append(l_tmp)
f.close() # 关闭文件,很重要的操作
return np.mat(feature), np.mat(label)
def load_file_pd(path, file_name):
'''
利用pandas库加载文件
:param path: 文件路径
:param file_name: 文件名称
:return: 特征矩阵、标签矩阵
'''
feature = pd.read_csv(path + file_name, delimiter="\t", header=None, usecols=[0, 1])
feature.columns = ["a", "b"]
feature = feature.reindex(columns=list('cab'), fill_value=1)
label = pd.read_csv(path + file_name, delimiter="\t", header=None, usecols=[2])
return feature.values, label.values
if __name__ == "__main__":
path = "C://Users//Machenike//Desktop//xzw//"
feature, label = load_file(path + "test.txt")
feature_pd, label_pd = load_file_pd(path, "test.txt")
print(feature)
print(feature_pd)
print(label)
print(label_pd)
测试结果:
[[ 1. 1.43481273 4.54377111]
[ 1. 5.80444603 7.72222239]
[ 1. 2.89737803 4.84582798]
[ 1. 3.48896827 9.42538199]
[ 1. 7.98990181 9.38748992]
[ 1. 6.07911968 7.81580716]
[ 1. 8.54988938 9.83106546]
[ 1. 1.86253147 3.64519173]
[ 1. 5.09264649 7.16456405]
[ 1. 0.64048734 2.96504627]
[ 1. 0.44568267 7.27017831]]
[[ 1. 1.43481273 4.54377111]
[ 1. 5.80444603 7.72222239]
[ 1. 2.89737803 4.84582798]
[ 1. 3.48896827 9.42538199]
[ 1. 7.98990181 9.38748992]
[ 1. 6.07911968 7.81580716]
[ 1. 8.54988938 9.83106546]
[ 1. 1.86253147 3.64519173]
[ 1. 5.09264649 7.16456405]
[ 1. 0.64048734 2.96504627]
[ 1. 0.44568267 7.27017831]]
[[ 0.]
[ 0.]
[ 0.]
[ 0.]
[ 0.]
[ 0.]
[ 0.]
[ 0.]
[ 0.]
[ 0.]
[ 0.]]
[[0]
[0]
[0]
[0]
[0]
[0]
[0]
[0]
[0]
[0]
[0]]
从测试结果来看可知两种加载数据的方法得到的数据结果是一样的,故两种方法均适用于加载数据。
注意:
此处是以Logistic Regression模型加载数据为例,数据与数据本身或许会有差异,但加载数据的方式都是大同小异的,要灵活变通。
来源:https://blog.csdn.net/gdkyxy2013/article/details/81979214
猜你喜欢
- 本文实例讲述了Python wxpython模块响应鼠标拖动事件操作。分享给大家供大家参考,具体如下:wxpython鼠标拖动事件小案例:#
- 一、前言在学习深度学习会发现都比较爱用python这个argparse,虽然基本能理解,但没有仔细自己动手去写,因此这里写下来作为自己本人的
- 迭代器是一种支持next()操作的对象。它包含一组元素,当执行next()操作时,返回其中一个元素;当所有元素都被返回后,生成一个StopI
- 之前看到过很多头条,说哪国某人坚持了多少年自学使用excel画画,效果十分惊艳。 对于他们的耐心我十分敬佩。 但是作为一个程序员,自然也得挑
- 程序只要在运行,就免不了会出现错误,错误很常见,比如Error,Notice,Warning等等。在PHP中,主要有以下3种错误类型。1.注
- 我是使用源码编译的方式安装的,网上有的可以添加 ppa 源进行在线安装,但我试了行不通,所以还是采用源码安装1、安装编译依赖项sudo ap
- Microsoft SQL Server 2000 能提供超大型系统所需的数据库服务。大型服务器可能有成千上万的用户同时连接到 SQL Se
- python的pdb调试命令的命令整理及实例一、命令整理pdb调试命令完整命令简写命令描述argsa打印当前函数的参数breakb设置断点c
- 这篇文章主要介绍了如何使用python3获取当前路径及os.path.dirname的使用,文中通过示例代码介绍的非常详细,对大家的学习或者
- 很神奇的一个晚上,居然在以前老同事的群里跟同事讨论起CSS的东西来了,不过很意外的还是有收获。在IE中常常会碰到如果将容器定位后,出现容器内
- 需要准备的环境:一个B站账号,需要先登录,否则不能查看历史弹幕记录联网的电脑和顺手的浏览器,我用的ChromePython3环境以及requ
- 队列是一种只允许在一端进行插入操作,而在另一端进行删除操作的线性表。在Python文档中搜索队列(queue)会发现,Python标准库中包
- 越来越多的网站在logo中添加叶子元素,而此类logo又常常使用绿色,这可以给人希望、清新、健康的感觉,从而很容易被接受和认可。今天我们又收
- python的hashlib库中提供的hexdigest返回长度32的字符串。直接通过digest返回的16字节,有不可打印字符。问题来了,
- 最近在改一个页面,原来的编码是gb2312,为了国际化,改成utf-8,开始时浏览还是正常。因为电脑偶感小恙,于是恢复了系统,这才发现改后的
- 如何侦测HTTP表头信息?可用下列办法侦测并显示所有的HTTP HEADERS:<HTML><HEAD><TI
- 一般我们安装Python的第三方包都会在终端执行下列命令进行安装:pip install 要安装的包名安装成功后发现在PyCharm中仍然存
- 相对于Firefox2来说,Firefox3除了采用全新的Gecko 1.9引擎外,在性能、稳定性和安全性方面进行许多改进,在我们最关心的对
- 最近社会猪可是火遍了大江南北,不蹭下热度可对不起它。见过手画的佩奇,见过用代码画的吗?没有?那就来看我大显身手。用python的turtle
- 首先在我们进行信息系统的开发的时候,数据库的应用必不可少,对于一个企业级别的数据库应用很少是只使用一块磁盘的,很多都是使用RAID磁盘阵列,