位置：首页>> 网络编程>> Python编程>> 零基础写python爬虫之抓取百度贴吧代码分享

零基础写python爬虫之抓取百度贴吧代码分享

作者：hebedich　　发布时间：2022-09-04 23:55:12　

标签：python,爬虫,抓取

这里就不给大家废话了，直接上代码，代码的解释都在注释里面，看不懂的也别来问我，好好学学基础知识去！

# -*- coding: utf-8 -*-
#---------------------------------------
#   程序：百度贴吧爬虫
#   版本：0.1
#   作者：why
#   日期：2013-05-14
#   语言：Python 2.7
#   操作：输入带分页的地址，去掉最后面的数字，设置一下起始页数和终点页数。
#   功能：下载对应页码内的所有页面并存储为html文件。
#---------------------------------------
import string, urllib2
#定义百度函数
def baidu_tieba(url,begin_page,end_page):
    for i in range(begin_page, end_page+1):
        sName = string.zfill(i,5) + '.html'#自动填充成六位的文件名
        print '正在下载第' + str(i) + '个网页，并将其存储为' + sName + '......'
        f = open(sName,'w+')
        m = urllib2.urlopen(url + str(i)).read()
        f.write(m)
        f.close()
#-------- 在这里输入参数 ------------------
# 这个是山东大学的百度贴吧中某一个帖子的地址
#bdurl = 'http://tieba.baidu.com/p/2296017831?pn='
#iPostBegin = 1
#iPostEnd = 10

bdurl = str(raw_input(u'请输入贴吧的地址，去掉pn=后面的数字：\n'))
begin_page = int(raw_input(u'请输入开始的页数：\n'))
end_page = int(raw_input(u'请输入终点的页数：\n'))
#-------- 在这里输入参数 ------------------
#调用
baidu_tieba(bdurl,begin_page,end_page)

0

投稿

猜你喜欢

Python List remove()实例用法详解
描述remove() 函数用于移除列表中某个值的第一个匹配项。语法remove()方法语法：list.remove(obj)参数obj --
Python+OpenCV实现六种常用图像特效
图像融合按照一定的比例将两张图片融合在一起addWeighted()方法：参数1第一张图片矩阵参数2第一张图片矩阵的权重参数3第二张图片矩阵
详解python内置模块urllib
urllib 是 python 的内置模块，主要用于处理url相关的一些操作，例如访问url、解析url等操作。urllib 包下面的 r
taobao cdn的缓存？
jquery有一个插件叫Timer，很有意思，咱来实现一个简版的yui3的node timer。但还是应当首先交代下yui3的node扩展的
python使用arcpy.mapping模块批量出图
出图是项目里常见的任务，有的项目甚至会要上百张图片，所以批量出土工具很有必要。arcpy.mapping就是ArcGIS里的出图模块，能快速
sql2000如何完美压缩.mdf文件
大家都用过企业管理器中的--“收缩数据库”，里面的功能的确可以收缩数据库的日志文件(.ldf)和数据文件(.mdf)，但都会发现同样的问题，
python io.BytesIO简介及示例代码
io.BytesIO简要介绍及示例io.BytesIO 是 Python 内置的一个 I/O 类，用于在内存中读写二进制数据。它的作用类似于
PL/SQL 类型格式转换
TO_NUMBER(char[,'format_model']) 字符转换到数字类型TO_DATE(char[,'f
Python模块汇总(常用第三方库)
模块定义计算机在开发过程中，代码越写越多，也就越难以维护，所以为了编写可维护的代码，我们会把函数进行分组，放在不同的文件里。在python
Python性能分析工具py-spy原理用法解析
Py-Spy介绍引用官方的介绍：Py-Spy是Python程序的抽样分析器。它允许您可视化查看Python程序在哪些地方花了更多时间，整个
复化梯形求积分实例——用Python进行数值计算
用程序来求积分的方法有很多，这篇文章主要是有关牛顿-科特斯公式。学过插值算法的同学最容易想到的就是用插值函数代替被积分函数来求积分，但实际上
ASP开发中有用的函数（function）集合(1)
ASP开发中有用的function集合,挺有用处的！希望大家保留！<％ '**
详解如何利用Python绘制科赫曲线
1. 递归1.1 定义函数作为一种代码封装，可以被其他程序调用，当然，也可以被函数内部代码调用。这种函数定义中调用函数自身的方式称为递归。
基于OpenCV的网络实时视频流传输的实现
很多小伙伴都不会在家里或者办公室安装网络摄像头或监视摄像头。但是有时，大家又希望能够随时随地观看视频直播。大多数人会选择使用IP摄像机（In
mysql 错误:ERROR 1045 (28000): Access deni
[root@vm1 ~]# rpm -ivh groundwork-foundation-pro-1.6.1-67.noarch.rpm P
matplotlib绘制多子图共享鼠标光标的方法示例
matplotlib官方除了提供了鼠标十字光标的示例，还提供了同一图像内多子图共享光标的示例，其功能主要由widgets模块中的MultiC
Python中json库的操作指南
概念json是一种通用的数据类型一般情况下接口返回的数据类型都是json长得像字典，形式也是k-v{ }其实json是字符串字符串不能用ke
PHP-FPM运行状态的实时查看及监控详解
前言大家都知道PHP-FPM内置了状态页，开启后可查看PHP-FPM的详细运行状态，给PHP-FPM优化带来帮助。打开php-fpm.con
python之线程通过信号pyqtSignal刷新ui的方法
第一部分：UI界面设计界面效果图如下：ui文件(可拉动控件自行创建一个button和text）<?xml version="
兼容所有浏览器的CSS3圆角[译]
译序：本文提到了一种很不错的实现跨浏览器圆角的解决方案，但是说的不够全面，前端观察最近将整理更多更全面的资源给大家，敬请期待。前一段时间，我

python读取大文件越来越慢的原因与解决

使用python Django做网页

python实现公司年会抽奖程序

Python 解析pymysql模块操作数据库的方法

Python如何合并多个字典或映射

python随机模块random使用方法详解

Python OpenCV形态学运算示例详解

tensorflow 1.0用CNN进行图像分类

解决python将xml格式文件转换成txt文件的问题(xml.etree方法)

Python 中的lambda匿名函数和三元运算符

Win10系统左右声道如何设置 Win10系统左右声道设置教程

基于java实现人机猜拳游戏

excel2003做方差分析的教程

wps ppt如何制作文字环绕

除了PS还有什么好用的软件？人工智能图片神器大合集

wps表格为什么不能打字

Python之OptionParser模块使用详解

word怎么设置文字环绕图片

Win11如何打开注册表？Win11打开注册表的方法

如何使用Mac的预览应用在PDF上签名？

手机版 网络编程 asp之家 www.aspxhome.com