Python实现的批量下载RFC文档
作者:junjie 发布时间:2021-11-25 02:54:48
RFC文档有很多,有时候在没有联网的情况下也想翻阅,只能下载一份留存本地了。
看了看地址列表,大概是这个范围:
http://www.networksorcery.com/enp/rfc/rfc1000.txt
...
http://www.networksorcery.com/enp/rfc/rfc6409.txt
哈哈,很适合批量下载,第一个想到的就是迅雷……
可用的时候发现它只支持三位数的扩展(用的是迅雷7),我想要下的刚好是四位数……
郁闷之下萌生自己做一个的想法!
这东西很适合用python做,原理很简单,代码也很少,先读为快。
代码如下:
#! /usr/bin/python
'''
File : getRFC.py
Author : Mike
E-Mail : Mike_Zhang@live.com
'''
import urllib,os,shutil,time
def downloadHtmlPage(url,tmpf = ''):
i = url.rfind('/')
fileName = url[i+1:]
if tmpf : fileName = tmpf
print url,"->",fileName
urllib.urlretrieve(url,fileName)
print 'Downloaded ',fileName
time.sleep(0.2)
return fileName
# http://www.networksorcery.com/enp/rfc/rfc1000.txt
# http://www.networksorcery.com/enp/rfc/rfc6409.txt
if __name__ == '__main__':
addr = 'http://www.networksorcery.com/enp/rfc'
dirPath = "RFC"
#startIndex = 1000
startIndex = int(raw_input('start : '))
#endIndex = 6409
endIndex = int(raw_input('end : '))
if startIndex > endIndex :
print 'Input error!'
if False == os.path.exists(dirPath):
os.makedirs(dirPath)
fileDownloadList = []
logFile = open("log.txt","w")
for i in range(startIndex,endIndex+1):
try:
t_url = '%s/rfc%d.txt' % (addr,i)
fileName = downloadHtmlPage(t_url)
oldName = './'+fileName
newName = './'+dirPath+'/'+fileName
if True == os.path.exists(oldName):
shutil.move(oldName,newName)
print 'Moved ',oldName,' to ',newName
except:
msgLog = 'get %s failed!' % (i)
print msgLog
logFile.write(msgLog+'\n')
continue
logFile.close()
除了RFC文档,这个程序稍加修改也可以做其它事情:比如批量下载MP3、电子书等等。
好,就这些了,希望对你有帮助。


猜你喜欢
- 内码问题.用这段代码的吧,我已经改得很精简了.使用XMLHTTP抓取地址并进次内容处理Function GetBody(Url) Dim o
- 表单输出选项{{ form.as_table }}:以表格形式加载表单元素{{ form.as_p }}:以段落形式加载表单元素{{ for
- 最近在学习django,学到第五章模型时,需要连接数据库,然后,在这里分享一下方法。起初是不知道怎样配置mysql数据库,但是还好,djan
- String str = "n1e你v00a?Az$Z000?#99?9900眯2_悄s3你y4@好?!6求救你d75a8t&qu
- MySQL中,有两种方式生成有序结果集:一是使用filesort,二是按索引顺序扫描。利用索引进行排序操作是非常快的,而且可以利用同一索引同
- 我简单的绘制了一下排序算法的分类,蓝色字体的排序算法是我们用python3实现的,也是比较常用的排序算法。Python3常用排序算法1、Py
- 今天介绍一种基于高斯滤波和邻域随机采样,生成一种毛玻璃的图像特效,简单来说,就是先对图像做高斯滤波模糊,然后对模糊后的图像,通过对邻域的随机
- 作为语言模型和文本挖掘中的常用工具,Word2Vec也可以用来构建聊天机器人。在本文中,我们将使用Python和Gensim库从头开始构建一
- 这里用Python逼近函数y = exp(x);同样使用泰勒函数去逼近:exp(x) = 1 + x + (x)^2/(2!) + .. +
- 在众多代码编辑工具中,我最喜欢的就是微软的vscode。首先它十分轻便,不吃硬件,运行非常顺畅;其次是其各种各样的插件使得编程效率蹭蹭地往上
- ajax 同步请求和异步请求的差异分析,需要的朋友可以参考下。代码一:Synchronize = function(url,param) {
- 相信用python的同学不少,本人也一直对python情有独钟,毫无疑问python作为一门解释性动态语言没有那些编译型语言高效,但是pyt
- 引言只进行基本的四则运算,利用栈结构和后缀表达式来计算数学表达式的值。本文代码:GitHub 运行效果:问题如果只能进行两个值的加
- 本文介绍了在js和asp中使用FileSystemObject(fso)来: 创建、添加或删除数据,以及读取文件; 移动、复制和删除文件;创
- CREATE TABLE table1( [ID] [bigint] IDENTITY(1,1) NOT NULL, [Name] [nva
- 使用:foldercleanup.py -d 10 -k c:\test\keepfile.txt c:\test表示对c:\test目录只
- 前言requests是Python发送接口请求非常好用的一个三方库,由K神编写,简单,方便上手快。但是requests发送请求是串行的,即阻
- 本文实例讲述了Django基于ORM操作数据库的方法。分享给大家供大家参考,具体如下:1、配置数据库vim settings #HelloW
- 前言迭代器是 23 种设计模式中最常用的一种(之一),在 Python 中随处可见它的身影,我们经常用到它,但是却不一定意识到它的存在。在关
- 先上两段代码<script>var i = 2;function test(){var i = 1;}test();alert(