文章列表 - Bob Blog

爬虫

3837 阅读

Python爬虫(二)获取百度搜索收录结果

前面一篇聊了一些基础的概念，在这篇里可以试一下基础的搜索和收集内容。当我们在用百度搜索时，我们会看到很多相关的信息。于是我们可以用爬虫来帮助我们搜索和收集相关的信息。比如我想查看百度收录的stackoverflow里爬虫相关的内容的前十条，打开浏览器比如firefox或chro......

python 爬虫 spider

工具框架爬虫

3835 阅读

Selenium反爬的几种方式

selenium是用来自动化操作web页面元素的工具，当我们有需要自动化某些业务流程的时候就可以用到。但是对于有些网站来说，是有各类反爬机制，会监测到是否是真人操作，这里记录了几种可以绕过反爬机制的方式。一. 利用devtools，用命令行启动chrome浏览器，指定remo......

selenium 爬虫 spider

爬虫

3469 阅读

Python爬虫(五)关于headless浏览器被反爬虫禁止访问

有些网站会有反爬虫的机制。反爬虫的机制有很多种，之后会在一篇文章中统一说明。这篇文章是记录headless浏览器时被识别为爬虫的解决方式。比如这个网站会检查访问者是否异常："https://haveibeenpwned.com/". 当用Phantom......

python 爬虫 spider

爬虫

3427 阅读

Python爬虫(七)使用scrapy快速爬取全站页面

前面介绍了用请求解析页面数据、headless加载页面js等资源的方式。我们也可以关注一下现有的轮子，一些比较优秀的爬虫框架。这里介绍一下scrapy，并以快速爬取网站全站的链接为例子说明。 scrapy是非常强大和方便的工具，它还提供了一些预设好的爬取类型。关于scrapy的组件可以参......

python 爬虫 spider

爬虫

3142 阅读

Python爬虫(四)使用selenium和headless浏览器

当只是爬静态网页时，用requests并解析页面是很方便的。如果我们看到加载页面时有调用API(浏览器的dev tool里network标签里看)，也可以直接向这个api发送请求。不过当遇到ajax异步加载或者需要执行javascript时，仅仅使用requests就不够了。这时我们可......

python 爬虫 spider