python用match()函数爬数据方法详解
作者:Ma_Qiao2020 发布时间:2023-07-27 12:52:48
match()函数的使用。以及从文本中提取数据的方法。在学习re模块的相关函数前应了解正则表达式的特殊字符
准备一个要爬取的文本文档:
直接从某个网页拷贝一份代码,粘贴在 一个txt文件里,以供学习。
方法很简单,比如打开百度视频的热门电影网页,右键点击查看源代码,然后复制,粘贴到一个txt文件里,保存到工作目录下。
有4000多行。
re.match(pattern, string, flags=0)
①pattern,是正则表达式。string,被检验的字符串。
②flags是可选参数,此标记是用来对patten的补充。例如:re.S,可以让正则表达式中的点匹配换行符\n。(如图片中,可以看帮助文档,查看有哪些标记)
③ match()函数由左向右检验string,若匹配到正则表达式,返回一个匹配对象,否则就返回None.
④re.match() 匹配字符串的开始位置,而不匹配每行开始。
----所以才将网页的每行放入列表,以供match函数对每行操作。
比如要在文档中,提取电影的网址,和电影名。
①复制那行文本作为表达式,
②将要提取的网址和和电影名替换为(.*),这只是暂时的,可以在接下来的代码中调整。
读取文本:
①用with open()语句读取;
②用readlines,一次性读完,返回一个列表,元素是文本的每一行。
with open('aa.txt','r',encoding='utf-8') as f:
lines=f.readlines()
①判断每行是否返回了匹配的对象,
②接收匹配对象,并用groups()提取表达式内括号的内容;
for line in lines:
if re.match(pat,line): #判断过滤掉返回None的行,
ret=re.match(pat,line) #接收匹配对象
print(ret.groups())
发现有不符合的行,稍加修改,过滤掉不符合的行:
因为,不合的行都有空格(或其他字符)。可以给第二子组的点 . 换成非[^ ];非空格的任意字符,意思就是不要有空格的。
用f-string格式化对输出的文本稍加修饰,使用group(1),group(2);
可以将这段代码封装为一个函数。爬取百度视频的其他栏目。
测试: 百度视频的电影,电视剧,和动漫等栏目,网页上的格式基本相同,所以用上面的函数直接套用。
打开百度视频的动漫,复制源代码,存为bb.txt。
同样可以爬取网址和视频名称。
以上仅是练习match()函数的例子。
来源:https://jingyan.baidu.com/article/0eb457e54f340c43f1a905b5.html
猜你喜欢
- < SCRIPT LANGUAGE="VBScript"> < 
- 从MySQL 5.0.2开始,通过mysql_stmt_attr_set() C API函数实现了服务器端光标。服务器端光标允许在服务器端生
- Player.playState0 Undefined Windows Media Player is in an undefined st
- 近日,朋友写一个关于成绩管理的系统,其中遇到一个小问题。如果按照SQLSERVER的ORDER 排序时,比如遇到两个100分,结果必然是名次
- 随机生成四位数验证码,包括汉字,数字,英文大小写。1.Servlet类package servlet;import java.awt.Bas
- Access数据库,同时操作大量记录(9500条以上)时报错。错误提示:Microsoft JET Database Engine 错误 &
- 为什么我写ASP分页教程要提到AJAX呢,因为我们要多练习一下编程过程中,结构化的重要性. 再加上很多朋友对分页感到很高深,所以一直都不敢去
- python给数据加上高斯噪声一开始用MATLAB给数据加噪声很简单,就一句话:% 给数据加指定SNR的高斯噪声signal_noise =
- 最近对list设计感兴趣,今天说的是list视图方式的设计。感觉有些细节非常有意思,拿出来跟大家讨论。首先我们来看下windows下文件夹管
- 随着PHP4.0和JSP技术的推出以及IIS中不断出现的重大的安全问题,MicroSoft的ASP的市场仿佛是变的狭窄了,但是 MicroS
- 本文分析了PHP7新特性之抽象语法树(AST)带来的变化。分享给大家供大家参考,具体如下:这里大部分内容参照 AST 的 RFC 文档而成:
- 本文实例讲述了PHP实现从上往下打印二叉树的方法。分享给大家供大家参考,具体如下:问题从上往下打印出二叉树的每个节点,同层节点从左至右打印。
- 一个正则表达式就是由普通字符(例如字符 a 到 z)以及特殊字符(称为元字符)组成的文字模式。该模式描述在查找文字主体时待匹配的一个或多个字
- 写在前面的话:此篇还是asp相关的,相信玩ASP的都有这个感觉,当数据有5万多条时-------just like音乐网,要调用最新的10条
- 本文实例讲述了PHP实现断点续传乱序合并文件的方法。分享给大家供大家参考,具体如下:分割成多个文件发送,由于网络原因并不上先发就能发接收到。
- 代理服务是一种复杂的技术,具有很多可配置的移动组件。详细信息如下:信息信息是指在服务代理应用程序中调用的基本信息单元。对于服务代理来说,信息
- 在Pytorch中,torch.utils.data中的Dataset与DataLoader是处理数据集的两个函数,用来处理加载数据集。通常
- 我听说在ASP里,可以不用DSN来连接EXCEL,请问如何实现?确实ASP提供了替代DSN的其他方法,甚至可以在运行时建立连接看看下面的范例
- <%'解析一个xml文件的公用函数集合dim document'装载一个xml文档,函数名Loaddocument(文