位置：首页>> 网络编程>> Python编程>> Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】

Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】

作者：Sailfish23　　发布时间：2021-10-08 00:22:10　

标签：Python3,爬取,文章标题,文章链接

本文实例讲述了Python3实现爬取简书首页文章标题和文章链接的方法。分享给大家供大家参考，具体如下：

from urllib import request
from bs4 import BeautifulSoup #Beautiful Soup是一个可以从HTML或XML文件中提取结构化数据的Python库
#构造头文件，模拟浏览器访问
url="http://www.jianshu.com"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
page = request.Request(url,headers=headers)
page_info = request.urlopen(page).read().decode('utf-8')#打开Url,获取HttpResponse返回对象并读取其ResposneBody
# 将获取到的内容转换成BeautifulSoup格式，并将html.parser作为解析器
soup = BeautifulSoup(page_info, 'html.parser')
# 以格式化的形式打印html
#print(soup.prettify())
titles = soup.find_all('a', 'title')# 查找所有a标签中class='title'的语句
'''''
# 打印查找到的每一个a标签的string和文章链接
for title in titles:
print(title.string)
print("http://www.jianshu.com" + title.get('href'))
'''
#open()是读写文件的函数,with语句会自动close()已打开文件
with open(r"D:\articles.txt","w") as file: #在磁盘以只写的方式打开/创建一个名为 articles 的txt文件
for title in titles:
file.write(title.string+'\n')
file.write("http://www.jianshu.com" + title.get('href')+'\n\n')

本机测试运行结果如下：

希望本文所述对大家Python程序设计有所帮助。

来源：https://blog.csdn.net/weixin_37636702/article/details/78759862

0

投稿

猜你喜欢

谦逊编程（翻译整理）
译注：开发人员如何从无休止的需求、项目进度中摆脱烦躁的心态，这是每个人都值得思考的话题。无意间看见了这篇文章，恐于太长遂将其精简翻译，错误之
python重试装饰器示例
利用python 写一些网络服务的时候，当网络状况不好，或者资源占用过多，任务拥塞的情况下，总会抛出一些异常，当前任务就被终止了，可以很好的
php设置编码格式的方法
a. 如果欲使用gb2312编码，那么php要输出头：header(“Content-Type: text/html; charset=gb
Python中使用PDB库调试程序
Python自带的pdb库，发现用pdb来调试程序还是很方便的，当然了，什么远程调试，多线程之类，pdb是搞不定的。用pdb调试有多种方式可
Persits AspJpeg 1.8+ 轻松实现透明文字去锯齿水印
从AspJpeg1.8 版本开始，AspJpeg 提供了比 PrintText 更为灵活的文本绘图方法PrintTextEx，PrintTe
详解Django+Uwsgi+Nginx的生产环境部署
使用runserver可以使我们的django项目很便捷的在本地运行起来，但这只能在局域网内访问，如果在生产环境部署django，就要多考虑
python使用信号量动态更新配置文件的操作
一种小技巧，可以让python捕获信号量HUP 然后当使用 kill 发起HUP信号量的时候捕获到进行处理，可以处理为重新读取配置文件并重
如何使用repr调试python程序
一般调试程序的时候都比较倾向print，利用直接打印的方法作出判断，但是print只能打印出结果，对类型无法作出判断。例如：复制代码a =
Python OpenCV 针对图像细节的不同操作技巧
本系列专栏写作将采用首创的问答式写作形式，快速让你学习到 OpenCV 的初级、中级、高级知识。6. 在 Python OpenCV 针对图
php链式操作mysql数据库(封装类带使用示例)
本文代码将一些简单常用的SQL语句，拆分、封装成链式函数与终结函数，链式操作没有先后之分，实现傻瓜式mysql数据库操作。同时学习下静态成
django实现用户登陆功能详解
简介：Python下有许多款不同的 Web 框架。Django是重量级选手中最有代表性的一位。许多成功的网站和APP都基于Django。Dj
Python调用飞书发送消息的示例
一、创建飞书机器人自定义飞书机器人操作步骤，具体详见飞书官方文档：《机器人 | 如何在群聊中使用机器人？》二、调用飞书发送消息自定义机器人添
如何编写高质量的Javascript代码
优秀的Stoyan Stefanov在他的新书中（《Javascript Patterns》）介绍了很多编写高质量代码的技巧，比如避免使用全
css闭合浮动元素
按照CSS规范，浮动元素（floats）会被移出文档流，不会影响到块状盒子的布局而只会影响内联盒子（通常是文本）的排列。因此当其高度超出包含
Python常用正则表达式符号浅析
对Python中正则表达式的理解，主要就是对符号的理解，本文即对Python中常用的正则表达式符号进行简析。其主要的符号有：.默认匹配一个字
python爬虫判断招聘信息是否存在的实例代码
在找工作的时候，我们会选择上网查询招聘的信息，或者是通过一些招聘会进行现场面试。但由于信息更新不及时，有一些岗位会出现下架的情况，如果我们不
Pytorch 图像变换函数集合小结
一、必要的 python 模块PyTorch 的 Vision 模块提供了图像变换的很多函数.torchvision/transforms/
Python手拉手教你爬取贝壳房源数据的实战教程
一、爬虫是什么？在进行大数据分析或者进行数据挖掘的时候，数据源可以从某些提供数据统计的网站获得，也可以从某些文献或内部资料中获得
asp下用OracleInProcServer完成对Oracle的连接和操作
< ％ Response.CharSet="gb2312" tblna
CSS兼容IE6,IE7,FF的技巧
一、CSS HACK以下两种方法几乎能解决现今所有HACK.1, !important随着IE7对!important的支持, !impor

Python通过TensorFLow进行线性模型训练原理与实现方法详解

python中日志logging模块的性能及多进程详解

Python Selenium自动化获取页面信息的方法

Python学习之函数 def

python实现Windows电脑定时关机

Python实现基于标记的分水岭分割算法

Python利用memory_profiler查看内存占用情况

对Python信号处理模块signal详解

Python骚操作完美实现短视频伪原创

python with提前退出遇到的坑与解决方案

win10以太网没有有效的ip配置解决办法

Win8系统还原在哪里？win8系统还原方法？

快速清除Win8动态磁贴个人信息的操作方法

Excel行列互换的设置方法步骤

Android中webview与JS交互、互调方法实例详解

Word2007画公司组织结构图

iPhone SE 2上市后，真的会大卖吗？

Windows10下面任务栏怎么隐藏？Win10下边任务栏隐藏方法

c#基础知识---委托,匿名函数,lambda

word2013怎么进行分栏排版

手机版 网络编程 asp之家 www.aspxhome.com