Python的爬虫包Beautiful Soup中用正则表达式来搜索
作者:crifan 发布时间:2022-12-29 07:15:34
标签:Python,BeautifulSoup
Beautiful Soup使用时,一般可以通过指定对应的name和attrs去搜索,特定的名字和属性,以找到所需要的部分的html代码。
但是,有时候,会遇到,对于要处理的内容中,其name或attr的值,有多种可能,尤其是符合某一规律,此时,就无法写成固定的值了。
所以,就可以借助正则表达式来解决此问题。
比如,
<div class="icon_col">
<h1 class="h1user">crifan</h1>
</div>
对应的BeautifulSoup代码如下:
h1userSoup = soup.find(name="h1", attrs={"class":"h1user"});
而如果html是这种:
<div class="icon_col">
<h1 class="h1user">crifan</h1>
<h1 class="h1user test1">crifan 123</h1>
<h1 class="h1user test2">crifan 456</h1>
</div>
那么想要一次性地找到所有的,符合条件的h1的部分的代码,则之前的写法,就只能找到单个的class="h1user"的部分,剩下的两个
class="h1user test1"
和
class="h1user test2"
就找不到了。
那么,此时,就可以用到,BeautifulSoup中非常好用的,非常强大的功能:
attrs中支持正则表达式的写法
了。
就可以写成:
h1userSoupList = soup.findAll(name="h1", attrs={"class":re.compile(r"h1user(\s\w+)?")});
就可以一次性地,找到:
class="h1user"
class="h1user test1"
class="h1user test2"
了。
<div aria-lable="xxx">
之类的标签,xxx的内容未知(可变)的前提下
想要查找到对应的此div标签,之前不知道如何实现。
如果写成:
sopu.findAll("div", attrs={"aria-lable": "xxx"});
则xxx必须写出来,如果不写出来属性值,也就没法用上attrs了,就没法实现此处查找特性属性值的标签了。
所以针对:
<div aria-label="5星, 747 份评分" class="rating" role="img" tabindex="-1">
<div>
<span class="rating-star">
</span>
<span class="rating-star">
</span>
<span class="rating-star">
</span>
<span class="rating-star">
</span>
<span class="rating-star">
</span>
</div>
<span class="rating-count">
747 份评分
</span>
</div>
可以通过:
soup.findAll("div", attrs={"aria-lable": True});
去查找到属性包含aria-lable的div标签的。
所以,对于上面的,之前不知道如何处理:
用BeautifulSoup查找未知属性值,但是已知属性的名字的标签
则此处,就可以针对:
<div aria-lable="xxx">
去用:
sopu.findAll("div", attrs={"aria-lable": True});
就可以查找到对应的包含属性aria-lable的div标签了。
0
投稿
猜你喜欢
- 本文实例讲述了Python列表list操作符。分享给大家供大家参考,具体如下:#coding=utf8''''
- poplib模块接收邮件python的poplib模块是用来从pop3收取邮件的,也可以说它是处理邮件的第一步。POP3协议并不复杂,它也是
- 装了 Access 2003 安全更新 (KB981716) 之后 Access 打不开,office2003-KB981716-FullF
- 本文实例讲述了PHP面向对象程序设计类的定义与用法。分享给大家供大家参考,具体如下:<?phpclass Person {  
- 目录前言1. 使用Lambda来修改Pandas数据框中的值2. 使用f-string来连接字符串3. 用Zip()函数对多个列表进行迭代4
- http://swik.net/Ajax/Ajax+Mistakes在某网站瞎逛时,发现这个链接,进去逛了逛,觉得很有意思,大家也可以去看看
- 如何一行行地读取文件?这样就可以做到一行行地读出了:dim input(30) ' 定义一个数组,大小
- 前面介绍过vSQLAlchemy中的 Engine 和 Connection,这两个对象用在row SQL (原生的sql语句)上操作,而
- 在进行WEB标准网页设计时,必不可少的是写入大量的CSS语法,一般情况下我们可以通过Dreamweaver软件的“CSS样式”面板自动生成相
- 用div+css制作页面,想实现左右两部分固定宽度,而中间部分不固定,并随着屏幕分辨率的的变化而自动伸缩。大家可知道应该如何实现? &nbs
- python面向对象编程入门,我们需要不断学习进步"""抽象工厂模式的实现"""
- numpy中的乘法A = np.array([[1, 2, 3], [2, 3, 4]])B = np.array([[1, 0, 1],
- 维护是什么,维护就是修改,不断的修改,但是要保证你的html和css有清晰的版本界定,有扩展性,不要因为做的太死而重新去做这个页面。一个赚钱
- NumPy 比一般的 Python 序列提供更多的索引方式。除了之前看到的用整数和切片的索引外,数组可以由整数数组索引、布尔索引及花式索引。
- 简介:pycharm 是一款功能强大的 Python 编辑器,具有跨平台性。下载地址第一步:下载pycharm 软件下载时会有两个版本供选择
- 除了3天就会失效的临时素材外,开发者有时需要永久保存一些素材,届时就可以通过本接口新增永久素材。最近更新,永久图片素材新增后,将带有URL返
- 前言作为Web开发人员,在 Web浏览器中存储数据以改善用户体验和提升Web应用程序性能是非常常见的。在大多数情况下,可供我们使用就是Loc
- 如今大部分网站仍然采用表格嵌套内容的方式来制作网站,虽然此方法对于我们来说比较熟悉、比较上手;但是,它却阻碍了一种更好的、更有亲和力的、更灵
- 一、深复制与浅复制列表是Python中自带的一种数据结构,在使用列表时,拷贝操作不可避免,下面简单讨论一下列表的深复制(拷贝)与浅复制首先看
- 我的工作内容可以说是五花八门,策划、文案、设计(包括平面设计、网站设计、VIS设计)、前端代码、交互、测试、摄影、项目管理等。所有这些工作最