python起点网月票榜字体反爬案例
作者:豪豪喜欢吃猪肉 发布时间:2021-03-11 02:56:05
前言:
字体反爬是什么个意思?就是网站把自己的重要数据不直接的在源代码中呈现出来,而是通过相应字体的编码,与一个字体文件(一般后缀为ttf或woff)把相应的编码转换为自己想要的数据,知道了原理,接下来开始展示才艺
1.解析过程
老规矩哈我们先进入起点月票榜f12调试,找到书名与其对应的月票数据所在,使用xpath尝试提取
可以看到刚刚好20条数据,接下来找月票数据:
这是什么鬼xpath检索出来20条数据但是数据为空,element中数据显示为未知符号,这貌似没有数据呀,这时我们观察源代码,搜索关键字font-face可以看到这种看不懂的编码,这就是前言中所说的字体的编码。
我们接下来找字体文件数据包
woff文件并且请求地址与这上面看到的地址一样,不过这里需要注意的是每次请求地址都不一样,文件名字也不一样,所以我们需要每爬取一次都要单独爬取一次字体加密数据,字体加密数据可以使用第三方库fonttools进行解析
我们现在拥有:
1.书名
2.月票数据的密文
3.月票数据密文对应的字体文件
2.开始敲代码
首先定义获取书名的函数get_book_name并进行测试:
import requests
from lxml import etree
def get_book_name(xml_obj):
name_list = xml_obj.xpath("//div[@class='book-mid-info']/h4/a/text()")
return name_list
if __name__ == '__main__':
# 设置我们通用的请求头,避免被反爬拦截
headers_ = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36',
'referer': 'https://www.qidian.com/rank/',
'cookie': 'e1=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; e2=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; _yep_uuid=6a2ad124-678f-04d3-7195-2e4e9f5c470e; _gid=GA1.2.501012674.1638335311; newstatisticUUID=1638335311_1217304635; _csrfToken=adBfL5dzru0KuzVgLJpxtsE8zQcfgZT8MzKf0aMs; e2=; e1=%7B%22pid%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22qd_A16%22%2C%22l1%22%3A3%7D; _ga_FZMMH98S83=GS1.1.1638362844.2.1.1638362855.0; _ga_PFYW0QLV3P=GS1.1.1638362844.2.1.1638362855.0; _ga=GA1.2.2025243050.1638335311; _gat_gtag_UA_199934072_2=1'
}
url_ = 'https://www.qidian.com/rank/yuepiao/'
# 请求网页源代码
str_data = requests.get(url_, headers=headers_).text
# 使用xpath解析书名
xml_obj = etree.HTML(str_data)
print(get_book_name(xml_obj)) # ['从红月开始', '人族镇守使', '全属性武道', '深空彼岸', '我的云养女友', '我用闲书成圣人', '明克街13号', '星门', '东晋北府一丘八', '夜的命名术', '这个人仙太过正经', '顶级气运,悄悄修炼千年', '不科学御兽', '我的治愈系游戏', '这游戏也太真实了', '长夜余火', '赤心巡天', '轮回乐园', '合道', '宇宙职业选手']
2.请求月票数据密文,并进行测试:
import re
import requests
from lxml import etree
# 获取书名
def get_book_name(xml_obj):
name_list = xml_obj.xpath("//div[@class='book-mid-info']/h4/a/text()")
return name_list
# 获取月票加密数据
def get_yuepiao(str_data):
# 这里我们之前分析发现xpath取出来的数据是空值,我们直接对网页源代码使用re正则匹配获取加密数据
yuepiao_list=re.findall(r'''</style><span class=".*?">(.*?)</span>''',str_data)
return yuepiao_list
if __name__ == '__main__':
# 设置我们通用的请求头,避免被反爬拦截
headers_ = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36',
'referer': 'https://www.qidian.com/rank/',
'cookie': 'e1=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; e2=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; _yep_uuid=6a2ad124-678f-04d3-7195-2e4e9f5c470e; _gid=GA1.2.501012674.1638335311; newstatisticUUID=1638335311_1217304635; _csrfToken=adBfL5dzru0KuzVgLJpxtsE8zQcfgZT8MzKf0aMs; e2=; e1=%7B%22pid%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22qd_A16%22%2C%22l1%22%3A3%7D; _ga_FZMMH98S83=GS1.1.1638362844.2.1.1638362855.0; _ga_PFYW0QLV3P=GS1.1.1638362844.2.1.1638362855.0; _ga=GA1.2.2025243050.1638335311; _gat_gtag_UA_199934072_2=1'
}
url_ = 'https://www.qidian.com/rank/yuepiao/'
# 请求网页源代码
str_data = requests.get(url_, headers=headers_).text
# 使用xpath解析书名
xml_obj = etree.HTML(str_data)
print(get_book_name(xml_obj)) # ['从红月开始', '人族镇守使', '全属性武道', '深空彼岸', '我的云养女友', '我用闲书成圣人', '明克街13号', '星门', '东晋北府一丘八', '夜的命名术', '这个人仙太过正经', '顶级气运,悄悄修炼千年', '不科学御兽', '我的治愈系游戏', '这游戏也太真实了', '长夜余火', '赤心巡天', '轮回乐园', '合道', '宇宙职业选手']
print(get_yuepiao(str_data)) # ['𘢒𘢒𘢐𘢉𘢎', '𘢌𘢋𘢐𘢐', '𘢌𘢏𘢌𘢑', '𘢑𘢉𘢒𘢎', '𘢑𘢎𘢋𘢔', '𘢑𘢏𘢏𘢉', '𘢎𘢑𘢐𘢉', '𘢎𘢏𘢑𘢔', '𘢎𘢒𘢉𘢏', '𘢏𘢎𘢏𘢎', '𘢔𘢑𘢑𘢔', '𘢔𘢎𘢐𘢓', '𘢔𘢔𘢑𘢐', '𘢔𘢒𘢑𘢏', '𘢔𘢐𘢒𘢐', '𘢒𘢌𘢉𘢌', '𘢒𘢑𘢌𘢓', '𘢒𘢑𘢎𘢓', '𘢒𘢎𘢓𘢉', '𘢒𘢎𘢏𘢐']
3.获取字体加密文件里的对应关系:
安装fonttools库
由于第一次使用fonttools库,在使用时遇到了以下错误 查询百度得知可能是由于字体文件名字有误,把名称换成url上面带的就成功的提取出来键值对了
(也可能是我使用re正则提取font_url时候不规范造成url错误)
只是这个键值对怎么编码对应英文,程序员为何为难程序员呢,不说了我们要定义一个英语与阿拉伯数字对应的字典进行对英文的替换
def get_font(xml_obj, headers_):
# 使用xpath与re获取字体加密数据包地址
font_div = xml_obj.xpath("//span/style/text()")[0]
font_url = re.findall("eot.*?(https:.*?.woff)", font_div)[0]
font_name = str(font_url).rsplit('/', 1)[1]
# 获取font文件进行本地保存
font_data = requests.get(font_url, headers_).content
with open(f'{font_name}', 'wb') as f:
f.write(font_data)
# 加载字体文件
font_data = TTFont(f'{font_name}')
# font_data.saveXML('字体.xml')
font_doct01 = font_data.getBestCmap()
font_doct02 = {
'period': '.',
'zero': '0',
'one': '1',
'two': '2',
'three': '3',
'four': '4',
'five': '5',
'six': '6',
'seven': '7',
'eight': '8',
'nine': '9'
}
for i in font_doct01:
font_doct01[i]=font_doct02[font_doct01[i]]
return font_doct01
程序完美运行:
总代码如下:
import re
import requests
from lxml import etree
from fontTools.ttLib import TTFont
# 获取书名
def get_book_name(xml_obj):
name_list = xml_obj.xpath("//div[@class='book-mid-info']/h4/a/text()")
return name_list
# 获取月票加密数据
def get_yuepiao(str_data):
# 这里我们之前分析发现xpath取出来的数据是空值,我们直接对网页源代码使用re正则匹配获取加密数据
yuepiao_list = re.findall(r'''</style><span class=".*?">(.*?)</span>''', str_data)
return yuepiao_list
def get_font(xml_obj, headers_):
# 使用xpath与re获取字体加密数据包地址
font_div = xml_obj.xpath("//span/style/text()")[0]
font_url = re.findall("eot.*?(https:.*?.woff)", font_div)[0]
font_name = str(font_url).rsplit('/', 1)[1]
# 获取font文件进行本地保存
font_data = requests.get(font_url, headers_).content
with open(f'{font_name}', 'wb') as f:
f.write(font_data)
# 加载字体文件
font_data = TTFont(f'{font_name}')
# font_data.saveXML('字体.xml')
font_doct01 = font_data.getBestCmap()
font_doct02 = {
'period': '.',
'zero': '0',
'one': '1',
'two': '2',
'three': '3',
'four': '4',
'five': '5',
'six': '6',
'seven': '7',
'eight': '8',
'nine': '9'
}
for i in font_doct01:
font_doct01[i] = font_doct02[font_doct01[i]]
return font_doct01
def jiemi(miwen_list, font_list):
yuepiao = []
for i in miwen_list:
num = ''
mw_list=re.findall('&#(.*?);', i)
for j in mw_list:
num += font_list[int(j)]
yuepiao.append(int(num))
return yuepiao
if __name__ == '__main__':
# 设置我们通用的请求头,避免被反爬拦截
headers_ = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36',
'referer': 'https://www.qidian.com/rank/',
'cookie': 'e1=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; e2=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; _yep_uuid=6a2ad124-678f-04d3-7195-2e4e9f5c470e; _gid=GA1.2.501012674.1638335311; newstatisticUUID=1638335311_1217304635; _csrfToken=adBfL5dzru0KuzVgLJpxtsE8zQcfgZT8MzKf0aMs; e2=; e1=%7B%22pid%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22qd_A16%22%2C%22l1%22%3A3%7D; _ga_FZMMH98S83=GS1.1.1638362844.2.1.1638362855.0; _ga_PFYW0QLV3P=GS1.1.1638362844.2.1.1638362855.0; _ga=GA1.2.2025243050.1638335311; _gat_gtag_UA_199934072_2=1'
}
url_ = 'https://www.qidian.com/rank/yuepiao/'
# 请求网页源代码
str_data = requests.get(url_, headers=headers_).text
# 使用xpath解析书名
xml_obj = etree.HTML(str_data)
# print(get_book_name(
# xml_obj)) # ['从红月开始', '人族镇守使', '全属性武道', '深空彼岸', '我的云养女友', '我用闲书成圣人', '明克街13号', '星门', '东晋北府一丘八', '夜的命名术', '这个人仙太过正经', '顶级气运,悄悄修炼千年', '不科学御兽', '我的治愈系游戏', '这游戏也太真实了', '长夜余火', '赤心巡天', '轮回乐园', '合道', '宇宙职业选手']
# print(get_yuepiao(
# str_data)) # ['𘢒𘢒𘢐𘢉𘢎', '𘢌𘢋𘢐𘢐', '𘢌𘢏𘢌𘢑', '𘢑𘢉𘢒𘢎', '𘢑𘢎𘢋𘢔', '𘢑𘢏𘢏𘢉', '𘢎𘢑𘢐𘢉', '𘢎𘢏𘢑𘢔', '𘢎𘢒𘢉𘢏', '𘢏𘢎𘢏𘢎', '𘢔𘢑𘢑𘢔', '𘢔𘢎𘢐𘢓', '𘢔𘢔𘢑𘢐', '𘢔𘢒𘢑𘢏', '𘢔𘢐𘢒𘢐', '𘢒𘢌𘢉𘢌', '𘢒𘢑𘢌𘢓', '𘢒𘢑𘢎𘢓', '𘢒𘢎𘢓𘢉', '𘢒𘢎𘢏𘢐']
# print(get_font(xml_obj, headers_))
# 书名列表
book_name_list = get_book_name(xml_obj)
# 月票列表
yuepiao_list = jiemi(get_yuepiao(str_data), get_font(xml_obj, headers_))
for i in range(len(book_name_list)):
print(f'{book_name_list[i]}:{yuepiao_list[i]}')
来源:https://blog.csdn.net/m0_46623754/article/details/121663055
猜你喜欢
- 超链接在新窗口打开,是在<a>标签加 target="_blank" 即可。可按下“POST/GET提交按钮
- 由于业务需要,要查询客户的ip地址,将部分地区的客户过滤出来,开始想到使用ip数据库,发现读取纯真数据库的难度对我来说有些大,而我目前的时间
- 本文研究的主要是Python程序运行原理,具体介绍如下。编译型语言(C语言为例)动态型语言一个程序是如何运行起来的?比如下面的代码#othe
- 上线 Django 项目记录,超简单,避免无意义的踩坑!第一步:安装python管理器在宝塔在线面板安装“ python项目管理器 ”第二步
- 如何正确显示数据库里同时存在的GB码和BIG5码? Public Function CheckBIG(strS
- 本文分析了Python出现segfault错误解决方法。分享给大家供大家参考,具体如下:最近python程序在运行过程中偶尔会引发系统seg
- 大家好,使用 Python Flask 创建 URL 缩短器是一个有趣而简单的项目,可以帮助您深入了解 Web 开发的世界。Flask 是
- 本文实例讲述了Python实现的递归神经网络。分享给大家供大家参考,具体如下:# Recurrent Neural Networksimpo
- Python是一门面向对象的语言。面向对象都有三大特性:封装、继承、多态。下面分别来说说这三大特性:1、封装隐藏对象的属性和实现细节,仅对外
- 让我们看看如何在 Python 中复制数组。 有 3 种复制数组的方法:只需使用赋值运算符。浅拷贝深拷贝1 使用赋值运算符我们可以使用赋值运
- 初学者可以看看。在的img标签有两个属性分别为alt和title,对于很多初学者而言对这两个属性的正确使用都还抱有迷惑,当然这其中一部分原因
- 本文实例讲述了Python读写ini文件的方法。分享给大家供大家参考。具体如下:比如有一个文件update.ini,里面有这些内容:[ZIP
- global 属性返回 Boolean 值,指出正则表达式使用的global 标志 (g) 的状态。默认值为 false。只读。rgExp.
- PRD的作用之一在于,保留产品设计初衷,期望达到什么样的目的,起到事后验证的效果。产品初衷需要做到利益最大化,找最大的蛋糕,为最大目标人群服
- 我们的网络协议一般是把数据转换成JSON之后再传输。之前在Java里面,实现序列化和反序列化,不管是 jackson ,还是 fastjso
- 如何实现在下拉菜单里输入文字? 用这个代码试试看,应该可以的:<script>function pp(){se.opt
- 一、特效预览处理前处理后细节放大后二、程序原理1.输入你想隐藏的文字2.然后写到另一张跟照片同等大小的空白纸张上3.将相同位置的文字的颜色用
- 本文实例讲述了python中元类用法,分享给大家供大家参考。具体方法分析如下:1.元类(metaclass)是用来创建类的类2.type(o
- memcached是一套分布式的高速缓存系统,由LiveJournal的Brad Fitzpatrick开发,但被许多网站使用。这是一套开放
- 本文实例讲述了Python使用reportlab将目录下所有的文本文件打印成pdf的方法。分享给大家供大家参考。具体实现方法如下:# -*-