Python爬虫获取数据保存到数据库中的超详细教程(一看就会)
作者:hippoDocker 发布时间:2024-01-14 13:05:01
标签:python,数据库,爬虫
1.简介介绍
-网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
-一般在浏览器上可以获取到的,通过爬虫也可以获取到,常见的爬虫语言有PHP,JAVA,C#,C++,Python,为啥我们经常听到说的都是Python爬虫,这是因为python爬虫比较简单,功能比较齐全。
2.Xpath获取页面信息
通过Xpath进行爬虫就是获取到页面html后通过路径的表达式来选取标签节点,沿着路径选取需要爬取的数据。
Xpath常用表达式:
表达式 | 描述 |
---|---|
/ | 从根节点选取(取子节点) |
// | 选择的当前节点选择文档中的节点 |
. | 选取当前节点。 |
… | 选取当前节点的父节点。 |
@ | 选取属性 |
* | 表示任意内容(通配符) |
| | 运算符可以选取多个路径 |
Xpath常用函数:
函数 | 用法 | 解释 |
---|---|---|
startswith() | xpath(‘//div[starts-with(@id,”celent”)]‘) | #选取id值以celent开头的div节点 |
contains() | xpath(‘//div[contains(@id,”celent”)]‘) | #选取id值包含celent的div节点 |
and() | xpath(‘//div[contains(@id,”celent”) and contains(@id,”in”)]‘) | #选取id值包含celent的div节点 |
text() | _.xpath(’./div/div[4]/a/em/text()’) | #选取em标签下文本内容 |
Xpath实操解析:
# 案例1
# //为从当前html中选取节点;[@class="c1text1"]为获取所有的class为c1text1的节点;/h1[1]为选取的节点下的第一个h1节点,如果没有[1]则是获取所有的,可以通过循环进行获取数据
etreeHtml.xpath('//*[@class="c1text1"]/h1[1]/text()')
# 案例2
#//为从当前html中选取节点;[@class="c1text1"]为获取所有的class为c1text1的节点;/a为获取当前节点下的所有a标签节点,得到一个ObjectList;通过for循环获取里面每个标签数据,./@src为获取当前节点的src属性值
etreeHtml2 = etreeHtml.xpath('//*[@class="c1text1"]/a')
for _ in etreeHtml2:
etreeHtml.xpath(./@src)
3.通过Xpath爬虫实操
本次实例以爬取我的CSDN文章列表信息保存到数据库为案列
3-1.获取xpath
通过F12打开开发者模式,点击左上角图标可参考下图,选择需要爬取数据的容器,在右边选择复制选择xpath就可以得到xpath路径了(//*[@id=“userSkin”]/div[2]/div/div[2]/div[1]/div[2]/div/div);
完整代码展示:
# 导入需要的库
import requests
from lxml import etree
import pymysql
# 文章详情信息类
class articleData():
def __init__(self, title, abstract, path,date):
self.title = title #文章名称
self.abstract = abstract #文章摘要
self.path = path #文章路径
self.date = date #发布时间
def to_string(self):
print("文章名称:"+self.title
+";文章摘要:"+self.abstract
+";文章路径:"+self.path
+";发布时间:"+self.date)
#保存狗狗详情数据
#保存数据
def saveData(DataObject):
count = pymysql.connect(
host='xx.xx.xx.xx', # 数据库地址
port=3306, # 数据库端口
user='xxxxx', # 数据库账号
password='xxxxxx', # 数据库密码
db='xxxxxxx' # 数据库名
)
# 创建数据库对象
db = count.cursor()
# 写入sql
# print("写入数据:"+DataObject.to_string())
sql = f"insert into article_detail(title,abstract,alias,path,date) " \
f"values ('{DataObject.title}','{DataObject.abstract}','{DataObject.path}','{DataObject.date}')"
# 执行sql
print(sql)
db.execute(sql)
# 保存修改内容
count.commit()
db.close()
# 爬取数据的方向
def getWebData():
# 网站页面路径
url = "https://blog.csdn.net/BadBoyxiaolin?spm=1000.2115.3001.5343"
# 请求头,模拟浏览器请求
header = {
"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.82 Safari/537.36"
}
# 获取页面所有节点代码
html = requests.get(url=url, headers=header)
# 打印页面代码查看
# print(html.text)
# 如果乱码可以设置编码格式
# html.encoding = 'gb2312'
# 通过xpath获取数据对应节点
etreeHtml = etree.HTML(html.text)
dataHtml = etreeHtml.xpath('//*[@class="mainContent"]/div/div/div')
# 循环获取数据
for _ in dataHtml:
# ''.join()是将内容转换为字符串可以后面接replace数据进行处理
title = ''.join(_.xpath('./article/a/div[1]/h4/text()'))#文章标题
abstract = ''.join(_.xpath('./article/a/div[2]/text()'))#文章摘要
path = ''.join(_.xpath('./article/a/@href'))#文章路径
date = ''.join(_.xpath('./article/a/div[3]/div/div[2]/text()')).replace(' ','').replace('·','').replace('发布博客','')#发布时间
#初始化文章类数据
article_data = articleData(title,abstract,path,date)
article_data.to_string() #打印数据看看是否对
#保存数据到数据库
# saveData(article_data)
if __name__ == "__main__":
getWebData()
来源:https://blog.csdn.net/BadBoyxiaolin/article/details/124487762


猜你喜欢
- 最近在实习,boss给布置了一个python的小任务,学习过程中发现copy()和deepcopy()这对好 * 实在是有点过分,搞的博主就有
- shp2sqlserver用法简析 官方说明: shp2sqlserver is a command line tool for loadi
- 什么是pyc文件pyc是一种二进制文件,是由py文件经过编译后,生成的文件,是一种byte code,py文件变成pyc文件后,加载的速度有
- 为什么PHP7的性能可以提高这么多?1. JIT 2. Zval的改变 3. 内部类型zend_string 4. PHP数组的变化(Has
- 爬蟲四步原理:1.发送请求:requests2.获取相应数据:对方及其直接返回3.解析并提取想要的数据:re4.保存提取后的数据:with
- 本文实例讲述了Go语言算法之寻找数组第二大元素的方法。分享给大家供大家参考。具体如下:该算法的原理是,在遍历数组的时,始终记录当前最大的元素
- golang拾遗主要是用来记录一些遗忘了的、平时从没注意过的golang相关知识。很久没更新了,我们先以一个谜题开头练练手:package
- 词云图from pyecharts.charts import WordClouddef word1(): words= [ &
- 1.网络获取Google图像1.1 google_images_downloadPython 是一种多用途语言,广泛用于脚本编写。我们可以编
- 使用opencv将图片转为灰度图主要有两种方法,第一种是将彩色图转为灰度图,第二种是在使用OpenCV读取图片的时候直接读取为灰度图。将彩色
- 在python自动化中,经常会遇到对数据文件的操作,比如添加多名员工,但是直接将员工数据写在python文件中,不但工作量大,要是以后再次遇
- 向量点乘 (dot) 和对应分量相乘 (multiply) :>>> aarray([1, 2, 3])>>&
- 本文实例为大家分享了python3.5基于TCP实现文件传输的具体代码,供大家参考,具体内容如下服务器代码# _*_ coding:utf-
- mergemerge 函数通过一个或多个键将数据集的行连接起来。场景:针对同一个主键存在的两张包含不同特征的表,通过主键的链接,将两张表进行
- 程序还不是很精简,以后再修改,程序所用的数据库为-- “冯志宏”-- 所写的--“追捕”--软件中所带IP数据库和“国华软件 Guohua
- 1.init 函数简介Golang init 函数是一种特殊的函数,主要用于完成程序的初始化工作,如初始化数据库的连接、载入本地配置文件、根
- 1.什么是接口接口就是一种规范与标准,在生活中经常见接口,例如:笔记本电脑的USB接口,可以将任何厂商生产的鼠标与键盘,与电脑进行链接。为什
- 一、go语言内存布局想象一下,你有一个如下的结构体。type MyData struct {
- 我们先来看一个题目:<script> console.log(typeof a)//undefined var a='l
- 这是一份来自网络的代码,经过了我的修改和验证。 首先我的运行环境是Python3.7,需要安装PyUserInput库。直接上代码