Python爬虫(三)解析网页内容
前一篇聊到了简单的请求和获取,这一篇会写关于网页内容的解析。
我们如果是爬取的html,那么内容就会有很多是我们不需要的,我们就需要解析html并抽取到自己需要的内容部分。
对于解析内容,有三种...
前一篇聊到了简单的请求和获取,这一篇会写关于网页内容的解析。
我们如果是爬取的html,那么内容就会有很多是我们不需要的,我们就需要解析html并抽取到自己需要的内容部分。
对于解析内容,有三种...
前面介绍了用请求解析页面数据、headless加载页面js等资源的方式。我们也可以关注一下现有的轮子,一些比较优秀的爬虫框架。这里介绍一下scrapy,并以快速爬取网站全站的链接为例子说明。
scrapy是非常强大...