位置：首页>> 网络编程>> Python编程>> python抽取指定url页面的title方法

python抽取指定url页面的title方法

作者：Together_CZ　　发布时间：2022-11-15 21:52:40　

标签：python,title,url

今天简单使用了一下python的re模块和lxml模块，分别利用的它们提供的正则表达式和xpath来解析页面源码从中提取所需的title，xpath在完成这样的小任务上效率非常好，在这里之所以又使用了一下正则表达式是因为xpath在处理一些特殊的页面的时候会出现乱码的情况，当然这不是xpath的原因，而是页面本身编码，跟utf-8转码之间有冲突所致，这里看代码：

# !/usr/bin/python
#-*-coding:utf-8-*-
'''
功能：抽取指定url的页面内容中的title
'''
import re
import chardet
import urllib
from lxml import etree
def utf8_transfer(strs):
'''
utf8编码转换
'''
try:
if isinstance(strs, unicode):
strs = strs.encode('utf-8')
elif chardet.detect(strs)['encoding'] == 'GB2312':
strs = strs.decode("gb2312", 'ignore').encode('utf-8')
elif chardet.detect(strs)['encoding'] == 'utf-8':
strs = strs.decode('utf-8', 'ignore').encode('utf-8')
except Exception, e:
print 'utf8_transfer error', strs, e
return strs
def get_title_xpath(Html):
'''
用xpath抽取网页Title
'''
Html = utf8_transfer(Html)
Html_encoding = chardet.detect(Html)['encoding']
page = etree.HTML(Html, parser=etree.HTMLParser(encoding=Html_encoding))
title = page.xpath('/html/head/title/text()')
try:
title = title[0].strip()
except IndexError:
print 'Nothing'
print title
def get_title(Html):
'''
用re抽取网页Title
'''
Html = utf8_transfer(Html)
compile_rule = ur'<title>.*</title>'
title_list = re.findall(compile_rule, Html)
if title_list == []:
title = ''
else:
title = title_list[0][7:-8]
print title
if __name__ == '__main__':
url = 'http://www.baidu.com'
html = urllib.urlopen(url).read()
new_html = utf8_transfer(html)
try:
get_title_xpath(new_html)
get_title(new_html)
except Exception, e:
print e

下面是结果：

百度一下，你就知道
百度一下，你就知道

简单的小实践，继续学习，欢迎交流。

来源：https://blog.csdn.net/Together_CZ/article/details/59109044

0

投稿

猜你喜欢

python类属性学习深入讲解
class MyClass(): # 直接将属性定义在类中，这种属性称为类属性 # 类属性可以通过实列对象和类对象
python中文乱码不着急，先看懂字节和字符
Python2.x使用过程中，中文乱码解决最耳熟能详的方法就是在代码前加上#-*- coding:utf-8 –*-那么为什么需要这么做呢？
python使用隐式循环快速求和的实现示例
如何快速的求出1到x的和呢？代码如下：NB(注意): # 后面的部分表示输出结果。class Debug: def calcul
favicon.ico以及动态图片的实现
利用图标工具（有很多）制作图标文件（favicon.ico）上传到网站所在的服务器的根目录下，这个文件必须是16*16大小的图标文件。当然，
PHP闭包定义与使用简单示例
本文实例讲述了PHP闭包定义与使用。分享给大家供大家参考，具体如下：<?phpfunction getClosure($i){ &nb
python判定文件目录是否存在及创建多层目录
前言通常在读写文件之前，我们需要先判断文件或者目录是否存在。不然在接下来的处理中可能会报错。所以在做任何操作之前，最好还是先判断文件、目录是
ASP字符串16进制互转
字符串转十六进制StrToHex Function<％ Response.Write StrToHex("Nice
Python正则表达式中的量词符号与组问题小结
正则表达式中的符号例子 | 是或的关系，只要存在就会被捕获匹配到的数据只按字符串顺序返回，而不是按照匹配规则返回In [18]:
Python 不设计 do-while 循环结构的理由
在某些编程语言中，例如 C/C++、C#、PHP、Java、JavaScript 等等，do-while 是一种基本的循环结构。它的核心语义
如何解决django配置settings时遇到Could not import settings 'conf.local'
举个例子吧Django最佳实践与部署：Nginx + Gunicorn + Supervisor（Ubuntu和CentOS）http://
PHP PDOStatement::errorInfo讲解
PDOStatement::errorInfoPDOStatement::errorInfo — 获取跟上一次语句句柄操作相关的扩展错误信息
开发iPhone版校友录
这几天忙个合作，开发iPhone版校友录。用了很久的iPhone，为它量身定制一套页面还是头一次，好在限制不是很多，会写html基本呈现就不
JavaScript中的64位加密及解密
JavaScript中的64位加密及解密的两个方法。function base64Encode(text){if (/(
python之cur.fetchall与cur.fetchone提取数据并统计处理操作
数据库中有一字段type_code，有中文类型和中文类型编码，现在对type_code字段的数据进行统计处理，编码对应的字典如下：{'
不归路系列：Python入门之旅-一定要注意缩进！！！（推荐）
因为工作（懒惰），几年了，断断续续学习又半途而废了一个又一个技能。试着开始用博客记录学习过程中的问题和解决方式，以便激励自己和顺便万一帮助了
python中使用xlrd、xlwt操作excel表格详解
最近遇到一个情景，就是定期生成并发送服务器使用情况报表，按照不同维度统计，涉及python对excel的操作，上网搜罗了一番，大多大同小异，
js实现用div层模拟的小窗口
javascript编写的窗口代码，可以关闭显示窗口，可以最小化或还原窗口大小，还可以鼠标移动窗口，不错的一个功能。截图如下：<htm
Python采用Django制作简易的知乎日报API
现在我主要教大家如何去实战，做一个简易的知乎日报API 首先你要熟悉django的基本用法，会写模型，会写视图函数，会配置url。1.配置字
通过T-SQL语句实现数据库备份与还原的代码
--利用T-SQL语句,实现数据库的备份与还原的功能 ----体现了SQL Server中的四个知识点： ----1．获取SQL Serv
Javascript将数值转换为金额格式（分隔千分位和自动增加小数点）
在项目里碰到需要把类似'450000'的数字转换为会计记账所用的格式，'450,000.00'，分隔千分位和

python实现矩阵乘法

Flask request 对象介绍

Python docutils文档编译过程方法解析

scrapy-redis的安装部署步骤讲解

如何在Python中引用其他模块

简单的Python解密rsa案例

Python3实现将一维数组按标准长度分隔为二维数组

Python 实现PS滤镜的旋涡特效

Python实现按逗号分隔列表的方法

Python3 利用face_recognition实现人脸识别的方法

3 种方法让 iPhone 实现夜间模式

win7,增加系统启动项

word 放大快捷键是什么

构建安全服务器环境阻止黑客攻击

excel怎么去掉单位只要数字？

技巧：在苹果Mac上格式化USB闪存驱动器

如何从格式化的Mac磁盘或卷中恢复丢失的数据？

WIN XP更改分辨率就蓝屏的原因

excel表格中怎么插入有横纵坐标的图表?

steam105错误代码怎么解决-steam105错误代码解决方法

手机版 网络编程 asp之家 www.aspxhome.com