python爬取网易云音乐排行榜实例代码
作者:~阿秋~ 发布时间:2023-07-24 09:26:52
标签:python,网易云,音乐
网易云音乐排行榜歌曲及评论爬取
主要注意问题:selenium 模拟登录、iframe标签定位、页面元素提取。
在利用selenium定位元素并取值的过程中遇到问题。比如xpath正确但无法定位,在进行翻页提取评论的过程中,利用selenium似乎不能提取不同页的数据,比如,明明定位的第三页的评论数据,而只能返回第一页的评论数据。
一、模拟登录
selenium 定位元素模拟人的操作进行登录,直接上代码:
//模拟登录
import pandas as pd
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.chrome.options import Options
from selenium.webdriver import ActionChains
from lxml import etree
import time
from datetime import datetime,timedelta
wyy_url = 'https://music.163.com/'
driver = webdriver.Chrome()
driver.get(wyy_url)
driver.maximize_window() #全屏
time.sleep(2)
driver.find_element_by_xpath("//a[@class = 'link s-fc3']").click()
time.sleep(2)
driver.find_element_by_xpath("//a[@class='u-btn2 other']").click() #选择其他方式登录
#账号、密码登录
driver.find_element_by_xpath("//input[@type='checkbox']").click() #同意条款
time.sleep(0.5)
driver.find_element_by_xpath("//a[@class='u-btn2 u-btn2-2']").click()
#选择手机号密码登录
driver.find_element_by_xpath("//a[@class='f-fr s-fc3 pwdlogin']").click()
time.sleep(1)
driver.find_element_by_id("p").send_keys('xxx') #这里输入你的id
driver.find_element_by_id("pw").send_keys('xxx') #这里输入密码
time.sleep(1)
#点击登录
driver.find_element_by_xpath("//a[@class='j-primary u-btn2 u-btn2-2']").click()
time.sleep(1)
二、排行榜数据爬取
当时尝试直接用selenium定位标签取值,并没有返回有效结果。在后面爬取评论时,也遇到此问题。于是先获取页面内容在进行分析。
// 排行榜
base_url = "https://music.163.com/#/discover/toplist?id="
bang_typical = {'飙升榜':19723756,'新歌榜':3779629,'原创榜':2884035,'热歌榜':3778678}
#选择榜单
bang = input('请输入榜单:')
#构造榜单对应的链接
url = base_url + str(bang_typical[bang])
print('开始分析:-%s' %(bang))
#进入榜单
driver.get(url)
time.sleep(3)
#iframe标签定位,必要的,否则无法定位其他标签
_iframe = driver.find_element_by_xpath("//iframe[@id='g_iframe']") # 找到iframe标签
driver.switch_to.frame(_iframe)
time.sleep(1)
page_text = driver.execute_script("return document.documentElement.outerHTML")
#获取页面
html = etree.HTML(page_text)
trs = html.xpath('//tbody/tr')
rank_list = []
title_list = []
span_list = []
singer_list = []
for tr in trs:
rank = tr.xpath(".//span[@class='num']/text()")[0] #注意xpath获取到的是列表,需提取其元素
title = tr.xpath(".//b/@title")[0]
span = tr.xpath(".//td[@class=' s-fc3']/span[@class='u-dur ']/text()")[0]
singer = tr.xpath(".//div[@class='text']/span/@title")[0]
rank_list.append(rank)
title_list.append(title)
span_list.append(span)
singer_list.append(singer)
#输出榜单结果
df_bang = pd.DataFrame({'排名':rank_list,'歌名':title_list,'时长':span_list,'歌手':singer_list})
三、排行榜评论获取
主要是评论日期的格式转换,评论内容的清洗
// 评论
# 日期清洗函数
def change_time(time):
now = datetime.now()
day_y = datetime.strftime(now - timedelta(1),'%Y-%m-%d') #计算昨天
day = now.strftime('%Y-%m-%d')
year = now.strftime('%Y')
if '年' in time: #非今年
new_time = time.replace('年','-').replace('月','-').replace('日','')
elif '昨天' in time:
new_time = time.replace('昨天',day_y+' ')
elif '前' in time: #前天
minut = int(time[:time.index('分')])
new_time = (now + timedelta(minutes=-minut)).strftime('%Y-%m-%d %H:%M')
elif len(time) == 5: #今天
new_time = day + ' ' + time
else: #最近 **月**日 **:**
y = '2021-'
time = time.replace('月','-').replace('日','')
new_time = y + time
return new_time
#评论清洗
def change_review(r):
if ':' in r:
r_ = r.split(':')[1]
else:
r_ = r
return r_
#评论点赞
def change_likes(l):
if l != []:
l_ = int(l.split('(')[1].split(')')[0])
else:
l_ = 0
return l_
#拉动滚动条至翻页按钮处
driver.execute_script("window.scrollTo(0,document.body.scrollHeight)")
#获取页面信息
num = input('请输入需要爬取的页面总数:') #想要爬取评论的页数,
#这里的思路是先通过翻页将获取到的所有页面的所有内容存至列表,再对列表遍历。
#因为当时直接用selenium 定位返回结果不对,当然你们也可以用selenium直接试试。
html_list=[]
for i in range(int(num)):
page_text = driver.execute_script("return document.documentElement.outerHTML")
html = etree.HTML(page_text)#获取页面
html_list.append(html)
#翻页
driver.find_elements_by_xpath("//div[contains(@class,'u-page')]/a")[-1].click()
time.sleep(4)
WebDriverWait(driver, 300, 0.1).until(EC.presence_of_element_located((By.XPATH, "//div[@class='cmmts j-flag']")))
print(f'第{i+1}页爬取成功')
rev_list=[] #所有评论的列表
dat_list=[] #对应日期的列表
for review_page in html_list:
raw_reviews = review_page.xpath("//div[@class='cmmts j-flag']//div[@class='cnt f-brk']/text()")#提取页面所有评论
raw_reviews_ = [i for i in raw_reviews if ":" in i] #保证长度一致
rv_date = review_page.xpath("//div[@class='cmmts j-flag']//div[@class='cntwrap']/div[@class='rp']/div[@class='time s-fc4']/text()")
review_list = [change_review(r) for r in raw_reviews_]
date_list = [change_time(d) for d in rv_date]
rev_list.extend(review_list)
dat_list.extend(date_list)
print('分析完成')
driver.quit()
运行结果:
1、排行榜:
2、评论:
来源:https://blog.csdn.net/weixin_47176703/article/details/122112778
0
投稿
猜你喜欢
- 这些数据容易的通用操作都有哪些?除了数据的增删查改(除了tuple不可变长度和元素不可变),我们还需要下面的操作:比较比对操作计算元素数量把
- 【题目】keras中的Merge层(实现层的相加、相减、相乘)详情请参考:Merge层一、层相加keras.layers.Add()添加输入
- 前言之前已经讲述了一些关于;python;获取基金的一些信息,最近又有了一些新发现,和大家分享一下,这个是非常重要的内容,非常重要的内容。这
- Python装饰器,分两部分,一是装饰器本身的定义,一是被装饰器对象的定义。一、函数式装饰器:装饰器本身是一个函数。1.装饰函数:被装饰对象
- access中可以将文本中的数据轻松导入表中,mysql中用起来没那么方便,其实起来也很简单。首先将数据记录按行处理好用特定的字符分开如:“
- 本文实例讲述了PHP字典树(Trie树)定义与实现方法。分享给大家供大家参考,具体如下:Trie树的概念(百度的解释):字典树又称单词查找树
- 这篇文章主要介绍了Python检查 云备份进程是否正常运行代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价
- 当数据量猛增的时候,大家都会选择库表散列等等方式去优化数据读写速度。笔者做了一个简单的尝试,1亿条数据,分100张表。具体实现过程如下。首先
- 代码编辑环境Win10+(Pycharmm or Vscode)+PyQt 5.14.2功能实现静态作图:数据作图,取决于作图函数,可自行修
- python读取txt文件#方式一:file = r'D:\test.txt'with open(file, 'rb
- 无论是Windows、Linux、还是树莓派 。配置python3的opencv环境都是让人头大的一件事情,尤其是许多人用pip安装以后,发
- python下读取公私钥做加解密实例详解在RSA有一种应用模式是公钥加密,私钥解密(另一种是私钥签名,公钥验签)。下面是Python下的应用
- 一、简介主流被使用的地理坐标系并不统一,常用的有WGS84、GCJ02(火星坐标系)、BD09(百度坐标系)以及百度地图中保存矢量信息的we
- 如下所示:'''Created on 2018-4-20例子:每天凌晨3点执行func方法''
- 与前面一样我们会用fso来对文件或文件夹进行创建与删除操作了,其实fso有强大的功能但非常危险的哦,下面我们不来看看删除实例吧,在这些例子,
- 在使用可视化树的过程中,报错了。说是‘dot.exe'not found in path原代码:# import tools nee
- 在使用SQL Server 的过程,中由于经常需要从多个不同地点将数据集中起来或向多个地点复制数据,所以数据的导出,导入是极为常见的操作.我
- 如何生成斐波那契數列斐波那契(Fibonacci)數列是一个非常简单的递归数列,除第一个和第二个数外,任意一个数都可由前两个数相加得到。用计
- php获取图片的exif信息,php自带一个exif_read_data函数可以用来读取图片的exif信息,代码来自php手册<?ph
- 一、摘要Python使用被称为异常 的特殊对象来管理程序执行期间发生的错误。每当发生让Python不知所措的错误时,它都会创建一个异常对象。