Python实现删除windows下的长路径文件
作者:Python进阶者 发布时间:2023-06-07 22:33:18
1.文章背景
近期,笔者所在公司的某业务系统的存储临近极限,服务器马上就要跑不动了,由于该业务系统A包含多个子系统A1、A2、A3 ... An,这些子系统的中间存储文件由于设计原因,都存储在同一个父级目录之内,唯一不同的是,不同子系统产生的文件和文件夹的名字都以该子系统名开始。如A1子系统产生的文件命名方式均为A1xxxxxx
, A2子系统产生的文件名均为A2xxxxx
。现在要删除其中一些子系统的历史文件,以释放服务器空间,几十T的数据,存放在一起,手动删除肯定不显示,只能借助程序自动化实现了,使用什么呢?自然想到了python。其实单纯删文件这一个需求我认为不值得长篇阔论,但是其中遇到了一些特殊有趣的问题和一些有意思的解决方案,所以想与诸位分享一下,比如windows系统下的超长文件删除, 如从阅读官方英文文档寻找解决方案等等,下面进入正题。
2.使用 python 删除文件
使用python删除文件有很多方式,最直接也是最方便的方式就是调用内建函数:
os.remove()
删除文件os.rmdir()
删除一个空文件夹shutil.rmtree()
删除一个文件夹及该文件夹下所有内容(包括子目录及文件)
也就是,此问题的的解决方案,核心就是围绕上述三个函数打交道。转到我们遇到的问题,业务系统A包含多个子系统A1、A2、A3 ... An,这些子系统的中间存储文件由于设计原因,都存储在同一个父级目录之内,唯一不同的是,不同子系统产生的文件和文件夹的名字都以该子系统名开始。如A1子系统产生的文件命名方式均为A1xxxxxx
, A2子系统产生的文件名均为A2xxxxx
,现在的目的就是要在该删除指定子系统所产生的文件,保留其他子系统的文件。
将需求拆解下,实际上就是解决下列4个问题:1、怎么删除一个文件?2、怎样识别一个文件或文件夹是某个子系统产生的?3、如何判断一个路径是文件还是目录?4、如何定位所有指定的子系统产生的文件和文件夹?
对于问题1, 在本节开始就阐述过,使用 python
的内建函数进行删除即可:
os.remove("path") # 删除指定文件
os.rmdir("path") # 删除一个空文件夹
shutil.rmtree("path") # 删除一个文件夹及该文件夹下所有内容(包括子目录及文件)
对于问题2,由于特定子系统产生的文件和文件夹的命名方式都是固定的模式,如A1子系统产生的文件名均为A1xxxxx,故可通过关键字匹配的方式进行识别。一种可能的方式为:
if keywords in filepath: # 如果文件名包含关键字keywords
os.remove(filepath) # 删除文件
else:
pass
对于问题3,由于删除目录和删除文件的方式不一致,故需要在删除前判断一个路径是目录还是文件,根据其类型选择合适的删除方式,这个在 python 中可以使用 **os.path.isdir()**之类的函数进行判断,主要是下列函数:
os.path.isdir("path") # 返回true则为目录,false则为文件
os.path.isfile("path") # 返回true则为文件,false则为目录
对于问题4,如何定位所有要删除的文件,这个问题实际上就是一个指定目录文件遍历的问题,即如何遍历一个指定目录的所有文件夹及文件。对于这个问题,一般有两种解决方案,一是深度优先遍历方式,一是广度优先遍历方式,两种方式在本例中效率是一致的,因为我们最终都要遍历所有的文件。另外,幸运的是,python实在是过于强大,其内建的函数已经帮助我们实现了一个广度优先目录遍历方法,及 os.walk("path") 方法,该方法就是遍历 path 目录下的所有文件及文件夹,一个典型的用法如下:
import os
path = "C:\\A\\"
for root, dirs, files in os.walk(path):
print(root)
print(dirs)
print(files)
上例中,root 代表当前遍历到的路径,dirs 表示当前路径下所有的子目录, files 表示当前路径下的所有子文件。通过这种方式就能全部遍历指定目录了。
问题都分解开了,下面将问题组合一下就完成代码实现.
最终的代码实现为:
import os
import shutil
path = "C:\\A\\"
keyword = "A1"
for root, dirs, files in os.walk(path):
for dir in dirs:
if keyword in dir:
rmpath = os.path.join(root, dir)
print("删除文件夹: %s" % rmpath)
shutil.rmtree(rmpath)
for file in files:
if keyword in file:
rmpath = os.path.join(root, file)
print("删除文件: %s" % rmpath)
os.remove(rmpath)
即通过广度优先方式(os.walk()
)遍历指定目录,逐个判断该目录下所有子目录和文件是否满足关键字条件,满足就删除。
运行效果为:
看似需求到此基本上就很好的解决了,但是实际测试中发现有的很深的目录却没有删除,删除该目录时报了一个错,错误描述如下:
Unexpected error: (< type 'exceptions.WindowsError'>, WindowsError(3, 'The system cannot find the path specified'), < traceback object at 0x0000000002714F88>)
大致意思就是python找不到这个路径,可是为什么呢?为此,我继续进行一番资料查询,后来大致定位了是由于文件路径过长导致的,是由于windows系统用户态的默认路径长度不能超过256个字节导致的。但是官方说256个字节是最长,但为何能创建超过256的呢,所以既然能创建,那就一定能删除,但是需要一些方法,经过一番学习,找到了好几种方法,下面介绍其中一种最为实用的方法,另外几个比如使用压缩软件压缩后删除(百度知道的结果)适合手动但不适合编程解决。这个方法在下一节中继续讲述。
3.文件系统关于长路径文件的相关定义
为解决windows下的长文件删除的问题,最为权威的资料莫过于windows官方的描述,我阅读了微软关于文件名长度的这一块的定义及说明,找到解决方案,微软的原文如下:
关键意思如下:1、Windows API 提供的文件路径理论上最长是 32767 个字节,普通状态下给用户使用是不超过256个字符,说是为了使用户操作更加方便。这里不得不吐槽一下了,确实操作方便了,但是方便的同时也可能带来不便,明明定义了32767这么长的字节,只给用256,未免太抠搜了一点
2、用户如果想要打破这个长度限制,可以通过一个特殊方式告诉windows系统自己想要使用超长文件,这个特殊的方式就是在绝对路径前加上** "\?" **字符串。
3、这篇文档后面还有描述在windows10以后如何通过注册表的方式接触文件名长度限制,这里就没有截图了,因为不通用,win7怎么办呢?有兴趣的同学可以查看其原文链接阅读
来源:https://mp.weixin.qq.com/s/nSH4FLGZRswIKeI45CEL0g
猜你喜欢
- 在有些使用 javascript 来渲染数据的时候,为了能动态获取不同的数据,并且保持 javascript&
- 关于 WARNING: Ignoring invalid distribution -pencv-python … 警
- 这篇文章主要介绍了opencv python Canny边缘提取实现过程解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的
- function commafy() { var num = document.getElementById("NumA"
- 简介这是一篇介绍网页设计原则的文章。在互联网迅速发展的今天,各种web 2.0网站竞争激烈,你死我亡。Jini, D
- 问题一:将u'\u810f\u4e71'转换为'\u810f\u4e71'方法:s_unicode = u&
- python中基本数据类型和其他的语言占用的内存空间大小有很大差别import sysa = 100b = Truec = 100Ld =
- 基本概念gcache模块默认提供的是一个高速的内存缓存,操作效率非常高效,CPU性能损耗在ns纳秒级别。使用简单易上手,非常适合单机应用使用
- 我们最终的视图技巧利用了一个高级python技术。 假设你发现自己在各个不同视图里重复了大量代码,就像 这个例子:def my_view1(
- 一、为何人工智能(AI)首选Python?读完这篇文章你就知道了。我们看谷歌的TensorFlow基本上所有的代码都是C++和Python,
- 我就废话不多说了,还是直接上代码吧!import osimport xml.dom.minidomimport cv2 as cvImgPa
- 引子首先说 正则表达式是什么?正则表达式,又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法(英语:Regular Expres
- 准备工具pip3 install PILpip3 install opencv-pythonpip3 install numpy谷歌驱动建议
- 问题:不同版本提交的城市文件夹数量固定,怎样确定本版本成果中缺少了哪些城市?背景:已有参照文件作为标准,利用取差集的方法#-*- codin
- 结果然后直接放源码:import cv2 as cvsource = cv.imread("zhaopian.jpg")
- 秉承MVC架构的思想,CI中的所有控制器都需要经过单点入口文件index.php(默认)来加载调用。也就是说,在默认情况下,所有CI开发项目
- 问题: pydev使用wx库开发的过程中,import时碰到wx可以识别,但是其它很多函数和变量上面全部是红叉,即无法识别。 解决方法: 1
- 本文实例为大家分享了python批量梯度下降算法的具体代码,供大家参考,具体内容如下问题:将拥有两个自变量的二阶函数绘制到空间坐标系中,并通
- Python 提供了多个图形开发界面的库,几个常用 Python GUI 库如下:Tkinter: Tkinter 模块(Tk 接口)是 P
- Flask-Admin是Flask框架的一个扩展,用它能够快速创建Web管理界面,它实现了比如用户、文件的增删改查等常用的管理功能;如果对它