展示 8 篇文章   每页 3
爬虫
2114 阅读

Python爬虫(六)模拟用户登录

对于很多网站来说,登录后才会呈现部分数据。对于非网页形式的服务端,用户身份验证也是必要的操作。 比如贴吧登录后才能看到我的收藏,比如只有有妖气会员才能看的收费漫画,等等。 于是爬虫也需要能够模拟用户登录的行为,才能获取需要的数据。 关键是在能获得服务器认可的已登录状态。而服务......
python 爬虫 spider
爬虫
1963 阅读

Python爬虫(三)解析网页内容

前一篇聊到了简单的请求和获取,这一篇会写关于网页内容的解析。 我们如果是爬取的html,那么内容就会有很多是我们不需要的,我们就需要解析html并抽取到自己需要的内容部分。 对于解析内容,有三种方法: 1. 正则表达式匹配获取。 2. 用lxml解析获取。 3. ......
python 爬虫 spider
爬虫
1902 阅读

Python爬虫(一)基础准则和基本概念

爬虫、网络机器人、spider、crawler,都是一个东西,就是一些程序对目标进行有规律有目的性的自动的信息收集。当然实际上爬虫并不会真正去到目的地,但是会发送请求过去,并拿到回复,回复可能是空,也可能是html、json等。 收集到的信息数据可被人为使用或者被其他程序再次筛选和整理。......
python 爬虫 spider