一行js代码识别Selenium+Webdriver及其应对方案
有不少朋友在开发爬虫的过程中喜欢使用Selenium + Chromedriver,以为这样就能做到不被网站的反爬虫机制发现。
先不说淘宝这种基于用户行为的反爬虫策略,仅仅是一个普通的小网站,使用一行Javascript代码,就能轻轻松松识别你是否使用了Selenium + Chromedriver模拟浏览器。
我们来看一个例子。
有不少朋友在开发爬虫的过程中喜欢使用Selenium + Chromedriver,以为这样就能做到不被网站的反爬虫机制发现。
先不说淘宝这种基于用户行为的反爬虫策略,仅仅是一个普通的小网站,使用一行Javascript代码,就能轻轻松松识别你是否使用了Selenium + Chromedriver模拟浏览器。
我们来看一个例子。
大家经常在一些博客中看到这样的说法:
1 | a += 1 |
等价于
1 | a = a + 1 |
这种说法实际上并不准确。
我们来看一个例子:
1 | >>> a = [1, 2, 3] |
这里报错了,说明a += b
和a = a + b
并不是完全等价的。
在使用Airtest超快速开发App爬虫文章的最后,我们留了一个尾巴:如何启动Airtest的无线模式,不用USB线就能控制手机?
本文将会讲到具体的做法。做法分为两种:第一种是在Airtest的IDE中控制手机。第二种是在Python代码里面控制远程手机。
想开发网页爬虫,发现被反爬了?想对 App 抓包,发现数据被加密了?不要担心,使用 Airtest 开发 App 爬虫,只要人眼能看到,你就能抓到,最快只需要2分钟,兼容 Unity3D、Cocos2dx-*、Android 原生 App、iOS App、Windows Mobile……。
在Python中,你可能会发现这样一个奇怪的现象:
1 | >>> 2 == 2 > 1 |
为什么会出现2 == 2 > 1
的结果为True
?如果说这是运算符的优先级问题,那么后两个式子为什么又都是False
?
实际上这涉及到了Python的链式对比(Chained Comparisons)
。在其他语言中,有一个变量x
,如果要判断x是否大于1,小于5,可能需要这样写代码:
1 | if (1 < x and x < 5) |
但是在Python中,可以这样写代码:
1 | if 1 < x < 5 |
Python能够正确处理这个链式对比的逻辑。
回到最开始的问题上,==
等于符号和<
小于符号,本质没有什么区别。所以实际上2==2>1
也是一个链式对比的式子,它相当于2==2 and 2>1
。此时,这个式子就等价于True and True
。所以返回的结果为True。
关于链式对比,可以看官方文档:https://docs.python.org/3/reference/expressions.html#comparisons
2018年,我的第一本书出版了。
离开北京,来到到杭州,加入了网易游戏伏羲人工智能实验室。
在这一年里面,一共看完了21本书:
在LeetCode刷了九十多题:https://github.com/kingname/LeetCode
写了13篇博客。
2019年1月,我的第二本书即将出版。
2019年新年目标:
在《跳出任务管理的泥沼,拥抱甘特图的怀抱》一文中,我谈到了使用甘特图来规划任务。甘特图更多的关注每一个任务的进度上。那么如果我希望了解项目整体的进度,应该如何选择呢?此时就需要引入另一个简单又强大的工具:燃尽图(Burn down chart)。
在前面两篇文章介绍了下载器中间件的使用,这篇文章将会介绍爬虫中间件(Spider Middleware)的使用。
在上一篇文章中介绍了下载器中间件的一些简单应用,现在再来通过案例说说如何使用下载器中间件集成Selenium、重试和处理请求异常。
中间件是Scrapy里面的一个核心概念。使用中间件可以在爬虫的请求发起之前或者请求返回之后对数据进行定制化修改,从而开发出适应不同情况的爬虫。
“中间件”这个中文名字和前面章节讲到的“中间人”只有一字之差。它们做的事情确实也非常相似。中间件和中间人都能在中途劫持数据,做一些修改再把数据传递出去。不同点在于,中间件是开发者主动加进去的组件,而中间人是被动的,一般是恶意地加进去的环节。中间件主要用来辅助开发,而中间人却多被用来进行数据的窃取、伪造甚至攻击。
在Scrapy中有两种中间件:下载器中间件(Downloader Middleware)和爬虫中间件(Spider Middleware)。
这一篇主要讲解下载器中间件的第一部分。