python xpath定位元素方法_[爬虫]xpath无法定位tbody标签（已解决）

2020.7.15更新以前的讲法有点问题，所以再次更新一下，也算是填坑定位不到tbody是因为标准差异，tbody不是必须存在的chrome的Elements标签页的tbody是肯定存在的但是程序员写的网页不一定会有tbody但是在chrome的Elements标签页不管返回的html有没有tbody，chrome都会有（有就不加，没有就自动加上）所以用selenium请求网页数据，就加上tbod

mizore

2293人浏览 · 2020-11-24 20:31:10

mizore · 2020-11-24 20:31:10 发布

2020.7.15更新

以前的讲法有点问题，所以再次更新一下，也算是填坑

定位不到tbody是因为标准差异，tbody不是必须存在的

chrome的Elements标签页的tbody是肯定存在的

bVbJFwJ

但是程序员写的网页不一定会有tbody

但是在chrome的Elements标签页不管返回的html有没有tbody，chrome都会有（有就不加，没有就自动加上）

所以

用selenium请求网页数据，就加上tbody标签，因为selenium返回的必定是包含tbody的（因为返回的是chrome的Elements标签页的内容）

用requests请求的时候，就自己看看源html内是否真的包含tbody标签（可以在chrome的network标签页下查看）

bVbJFy1

总结：服务器返回的html不一定有tbody标签（具体看网站前端程序员有没有加tbody标签），但是经过chrome渲染的render html必定包含tbody标签（服务器返回没有的话，浏览器就给你自动加上）

以下是原文：

写于2019.10.29日

问题发现

个人比较喜欢用xpath解析网页，但时常得到的结果却是一个空列表。

1.1 etree.HTML

from lxml import etree

import requests

url = 'http://www.sxchxx.com/index-13-1075-1.html'

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Safari/537.36',

}

resposne = requests.get(url, headers=headers)

parser = etree.HTMLParser(encoding="utf-8")

html = etree.HTML(resposne.text, parser=parser)

resu=html.xpath('//*[@id="large_mid"]/table[2]/tr[3]/td/p//text()')

print(resu)

当用如上代码解析如下网页时，可以获取正文

bVbzc48

但发现我们并没有在rule里面加入tbody标签。相反，加入tbody标签会使的解析结果变成一个空列表

html.xpath('//*[@id="large_mid"]/table[2]/tbody/tr[3]/td/p//text()') # 这样会得到空列表

1.2 etree.parse

使用etree.parse和etree.HTML恰好相反

from lxml import etree

import requests

parser = etree.HTMLParser(encoding="utf-8")

html = etree.parse('test.html', parser=parser)

content = html.xpath('//*[@id="large_mid"]/table[2]/tbody/tr[3]/td/p//text()')

print(content)

将网页保存成test.html，再用etree.parse加载，发现rule中加入tbody标签才能获得预期的结果；不加tbody标签会获得一个空列表

1.3 代码对比

from lxml import etree

import requests

parser = etree.HTMLParser(encoding="utf-8")

html = etree.parse('test.html', parser=parser)

content = html.xpath('//*[@id="large_mid"]/table[2]/tbody/tr[3]/td/p//text()')

print(content)

print('----------------分割线-------------------')

url = 'http://www.sxchxx.com/index-13-1075-1.html'

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Safari/537.36',

}

resposne = requests.get(url, headers=headers)

parser = etree.HTMLParser(encoding="utf-8")

html = etree.HTML(resposne.text, parser=parser)

content = html.xpath('//*[@id="large_mid"]/table[2]/tr[3]/td/p//text()')

print(content)

解决问题

2.1曲线救国

如果解析在线网页，不要添加tbody标签

反则解析本地(离线)网页，添加tbody标签

2.2其他方法

请看下面的原因分析

问题发生的原因

对比上面两种方法，差异在于

html = etree.parse('test.html', parser=parser)

html = etree.HTML(resposne.text)

这两行代码

而解析器是相同的parser = etree.HTMLParser(encoding="utf-8")

因此，我猜测，可能是parse或者HTML对代码做了某种“格式化”调整。

貌似lxml这个库使用其他语言编写，看不到源代码，无法从源代码下手检查

技术共进，成长同行——讯飞AI开发者社区

更多推荐

机器学习与人工智能

python# 创建基类# 定义一对多关系# 定义多对一关系# 定义多对多关系（通过关联表）# 关联表（用于多对多关系）SQLAlchemy ORM提供了强大而灵活的数据库操作方式，通过本文的介绍，您应该能够：安装和配置SQLAlchemy定义数据模型和关系执行基本的CRUD操作构建复杂查询管理数据库事务遵循最佳实践SQLAlchemy还有更多高级特性，如混合属性、事件监听、自定义查询等，值得进一

讯飞AI开发者社区

读人形机器人21全球经济格局

1.7.1. 随着机器人接管常规任务，社会对技能的需求转向与自动化互补的技能，包括编程、维护、人工智能开发以及需要创造力、情感智能和复杂人际互动的工作。4.7.1. 为机器人技术和AI制定明确的规章制度，能够确保安全、增进信任，并促进其应用，包括产品安全、数据保护、有道德和负责任地使用AI等方面的标准。初创公司和老牌公司都在投资开发医疗机器人，以提升医疗服务的可及性和质量。2.1.2. 随着对机器