展示 8 篇文章   每页 5
工具框架 爬虫
3557 阅读

Selenium反爬的几种方式

selenium是用来自动化操作web页面元素的工具,当我们有需要自动化某些业务流程的时候就可以用到。但是对于有些网站来说,是有各类反爬机制,会监测到是否是真人操作,这里记录了几种可以绕过反爬机制的方式。 一. 利用devtools,用命令行启动chrome浏览器,指定remo......
selenium 爬虫 spider
爬虫
3534 阅读

Python爬虫(二)获取百度搜索收录结果

前面一篇聊了一些基础的概念,在这篇里可以试一下基础的搜索和收集内容。 当我们在用百度搜索时,我们会看到很多相关的信息。于是我们可以用爬虫来帮助我们搜索和收集相关的信息。 比如我想查看百度收录的stackoverflow里爬虫相关的内容的前十条,打开浏览器比如firefox或chro......
python 爬虫 spider
爬虫
3221 阅读

Python爬虫(五)关于headless浏览器被反爬虫禁止访问

有些网站会有反爬虫的机制。反爬虫的机制有很多种,之后会在一篇文章中统一说明。 这篇文章是记录headless浏览器时被识别为爬虫的解决方式。 比如这个网站会检查访问者是否异常:"https://haveibeenpwned.com/". 当用Phantom......
python 爬虫 spider
爬虫
3052 阅读

Python爬虫(七)使用scrapy快速爬取全站页面

前面介绍了用请求解析页面数据、headless加载页面js等资源的方式。我们也可以关注一下现有的轮子,一些比较优秀的爬虫框架。这里介绍一下scrapy,并以快速爬取网站全站的链接为例子说明。 scrapy是非常强大和方便的工具,它还提供了一些预设好的爬取类型。关于scrapy的组件可以参......
python 爬虫 spider
爬虫
2892 阅读

Python爬虫(四)使用selenium和headless浏览器

当只是爬静态网页时,用requests并解析页面是很方便的。如果我们看到加载页面时有调用API(浏览器的dev tool里network标签里看),也可以直接向这个api发送请求。 不过当遇到ajax异步加载或者需要执行javascript时,仅仅使用requests就不够了。这时我们可......
python 爬虫 spider