展示 8 篇文章
每页 5 篇
selenium是用来自动化操作web页面元素的工具,当我们有需要自动化某些业务流程的时候就可以用到。但是对于有些网站来说,是有各类反爬机制,会监测到是否是真人操作,这里记录了几种可以绕过反爬机制的方式。
一. 利用devtools,用命令行启动chrome浏览器,指定remo......
selenium
爬虫
spider
前面一篇聊了一些基础的概念,在这篇里可以试一下基础的搜索和收集内容。
当我们在用百度搜索时,我们会看到很多相关的信息。于是我们可以用爬虫来帮助我们搜索和收集相关的信息。
比如我想查看百度收录的stackoverflow里爬虫相关的内容的前十条,打开浏览器比如firefox或chro......
python
爬虫
spider
有些网站会有反爬虫的机制。反爬虫的机制有很多种,之后会在一篇文章中统一说明。
这篇文章是记录headless浏览器时被识别为爬虫的解决方式。
比如这个网站会检查访问者是否异常:"https://haveibeenpwned.com/".
当用Phantom......
python
爬虫
spider
前面介绍了用请求解析页面数据、headless加载页面js等资源的方式。我们也可以关注一下现有的轮子,一些比较优秀的爬虫框架。这里介绍一下scrapy,并以快速爬取网站全站的链接为例子说明。
scrapy是非常强大和方便的工具,它还提供了一些预设好的爬取类型。关于scrapy的组件可以参......
python
爬虫
spider
当只是爬静态网页时,用requests并解析页面是很方便的。如果我们看到加载页面时有调用API(浏览器的dev tool里network标签里看),也可以直接向这个api发送请求。
不过当遇到ajax异步加载或者需要执行javascript时,仅仅使用requests就不够了。这时我们可......
python
爬虫
spider