第 28 篇:XPath 语法精讲——爬虫工程师的“屠龙刀“

发布时间:2026/6/27 19:07:47
第 28 篇:XPath 语法精讲——爬虫工程师的“屠龙刀“ 一、XPath 是什么XPath(XML Path Language)是一种在 XML/HTML 文档中定位节点的语言。它最初为 XSLT 设计,后来被各种爬虫工具广泛采用。lxml(C 实现,最快)parsel(Scrapy 内部使用)html5lib + xpathselenium / playwright的xpath()定位器BeautifulSoup通过lxml解析后也能用soup.xpath()(不过 BS4 自己有更友好的select)爬虫工程师最常用的是lxml.etree.HTML()。二、环境准备pipinstalllxml parsel