python爬取一组小姐姐图片实例
作者:新手_six 发布时间:2023-08-03 15:05:45
标签:Python,图片
前言
前段时间我有个朋友看到一些小姐姐的照片,想全部下载下来,叫我帮个忙。于是花费了半天给他全部下载了下来。
引入库
import time
import requests
from lxml import etree
这三个库是为了让我们在请求别人网站的时候,让程序休息一会,避免别人的网站会拦截或者崩溃和将得到的页面源代码进行解析。
网页分析
利用浏览器的开发者模式,对页面进行分析,找出我们所需要的每个图片封面url
href = tree.xpath('//*[@id="features"]/div/div[1]/div/div[1]/a/@href')
我们得到了封面的url后,但这还不是我们所需要的,我们所需要的是超链接里面的图片
我们进入后,发现每张图片都在<p></p>里面,如何我们利用循环得到每张图片的url地址
for url_img in href:
img_url = requests.get(url_img,headers=head)
# print(img_url.text)
time.sleep(1)
t = etree.HTML(img_url.text)
url_list = t.xpath("/html/body/section/div/div/div[1]/div[2]/p[2]/img/@src")
剩下的就很简单了,我们只需对文件进行保存就得到我们想要的结果了。
with open(f"./img/{name}",mode="wb") as f:
f.write(download_img.content)
print("正在下载:" +name)
time.sleep(1)
总结
但同步下载非常慢,我们可以写个多线程或者异步协程来帮助我们下载得更快。
我知道还有很多不足,有没有更简洁的写法,希望大佬们能指出,谢谢!
完整代码
import time
import requests
from lxml import etree
def get_page_url():
for i in range(1, 4): # 循环3页
url = f"https://mm.tvv.tw/category/xinggan/{i}/"
# 请求页面得到源代码
res = requests.get(url,headers=head)
# 对源代码进行解析
tree = etree.HTML(res.text)
# 得到每个图片的封面url(href)
href = tree.xpath('//*[@id="features"]/div/div[1]/div/div[1]/a/@href')
# print("-------------------------------------------------------")
time.sleep(3)
for url_img in href:
img_url = requests.get(url_img,headers=head)
# print(img_url.text)
time.sleep(1)
t = etree.HTML(img_url.text)
url_list = t.xpath("/html/body/section/div/div/div[1]/div[2]/p[2]/img/@src")
# print(url_list)
time.sleep(1)
for url_src in url_list:
get_img(url_src)
def get_img(url):
name = url.rsplit("/",1)[1]
time.sleep(2)
download_img = requests.get(url,headers=head)
with open(f"./img/{name}",mode="wb") as f:
f.write(download_img.content)
print("正在下载:" +name)
time.sleep(1)
f.close()
if __name__ == '__main__':
head = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36"}
get_page_url()
到此这篇关于python爬取一组小姐姐图片实例的文章就介绍到这了!
来源:https://blog.csdn.net/Six23/article/details/122517233
0
投稿
猜你喜欢
- 刚才要说的是这几天亲身体验了一下ebay的AIR感觉挺不错的,无论从界面,交互,功能上都感觉挺好的。关于topic中的“剑走偏锋”是因为我认
- 呵呵,这几天沉溺于灌水,发现转贴的时候真的是很不方便,文字、图形、颜色、连接,如果都转过来真的是满费劲的,于是就写了一个小东西,简陋的很,不
- PHP number_format() 函数实例格式化数字:<?php echo number_format("100000
- 今天搭了个“发短信”的页面,找朋友测试,没想到一位大侠直接弄了本长篇小说发我手机上……为了我的宝贝手机能继续健康澎湃,给文本区域(texta
- 本文主要介绍了一个获得当前数据库对象依赖关系的实用算法,具体示例请大家参考下文:create function&nb
- 在使用ASP来进行后端的数据合法性校验的时候,有些人为满足不同环境下面的数据校验,编写了很多的函数来实现,比如,我们想要校验用户输入的URL
- 目的是想通过给定一个ID,取出所有的子ID,包括子ID的子ID。一开始写成FUNCTION,因为FUNCTION调用方便,但是报错:ERRO
- 阅读上一篇:网马解密大讲堂——网马解密初级篇今天主要讲解的内容是Freshow工具的使用方法,工欲善其事,必先利其器,首先要学会如何使用解密
- 效果图:作用:将页面中的电话号码生成图片格式。<%Public Sub Com_CreatValidCode(pT
- 1、信息表新建立一个字段,并用0、1的方法判断信息的状态。 2、新建一个页面,定时刷新,并查询表中是否有字段值为0的记录。 3、当管理员点击
- 目前代码应该没什么bug了,兼容IE6.0 & FF 1.5, 通过xHTML 的Transitional验证和 CSS 验证。为了
- 本文作为属性篇的最后一篇文章, 将讲述HTML和CSS的关键—盒子模型(Box model). 理解Box model的关键便是margin
- 代码如下:--Begin Index(索引) 分析优化的相关 Sql -- 返回当前数据库所有碎片率大于25%的索引 -- 运行
- 和大多数的语言脚本一样,学习ASP最好的方法就是亲身尝试ASP,使用你自己的系统安装PWS或者IIS。你可以边学习边在你自己的服务器上测试A
- 就像标题呈现的一样,SQL Server 2008中的MERGE语句能做很多事情,它的功能是根据源表对目标表执行插入、更新或删除操作。最典型
- 一、何谓ASP缓存/为什么要缓存当你的web站点采用asp技术建立的初期,可能感觉到的是asp * 页技术带来的便利性,以及随意修改性、自如
- SQL Server数据库查询速度慢的原因有很多,常见的有以下几种:1、没有索引或者没有用到索引(这是查询慢最常见的问题,是程序设计的缺陷)
- 前段时间冷空气突袭的时候,据说郊区密云的雪积得挺厚,但北京城内除了飘了一点小雪粒,毫无动静。应该是气温过高所致,我在慈云寺桥附近拍下的照片可
- 本文实例讲述了php基于协程实现异步的方法。分享给大家供大家参考,具体如下:github上php的协程大部分是根据这篇文章实现的:http:
- 当你使用Lumigent log Explorer连接服务器后,选择具体的数据库实例时报错,提示 &nbs