谢乾坤 | Kingname

给时光以生命。

今天,2022年4月21日,公众号未闻Code粉丝突破20000!

感谢现在正在看这篇文章的各位。

阅读全文 »

我在多篇文章里面都说过,我非常喜欢使用Yaml格式来写配置文件。Yaml是一个对人非常友好的配置格式。

有时候,我们在开发环境、测试环境和线上环境会有多套不同的配置文件,如何在不修改代码的情况下方便的切换配置文件呢?我以前的文章讲过一种方法,使用环境变量来指定配置文件名。今天我们来介绍一个更先进的工具,专门用来高效加载配置文件。这就是Facebook开源的Hydra。

阅读全文 »

我们知道,协程本质上是单线程单进程,通过充分利用IO等待时间来实现高并发。在IO等待时间之外的代码,还是串行运行的。因此,如果协程非常多,多少每个协程内部的串行代码运行时间超过了IO请求的等待时间,那么它的并发就会有一个上限。

阅读全文 »

开篇先抛出我的观点:希望各位做爬虫的同学,尽快,尽可能多地做海外的爬虫项目,爬海外的网站。这才是你们新的未来。

我最近两年时间,已经没有做过任何国内网站的爬虫了,根据这两年爬海外网站的一些经验,谈谈我的发现和想法。

阅读全文 »

在公众号粉丝群里面,经常有同学问:为什么自己的爬虫明明设置了代理,但一访问网站就能被发现。我总结了几种常见的情况。

实际上,网站要识别你是否使用了代理,并不一定非要什么高深的反爬虫机制,也不需要使用AI识别用户行为。下面这几种情况,要识别代理简直是易如反掌。

阅读全文 »

在之前的文章:一日一技:使用装饰器简化大量 if…elif…代码发布以后,有很多同学说想看后续,如何在装饰器中表示大于小于。甚至有同学每周来催一次稿:

于是,今天我们就来看看大于小于应该怎么来判断。为了实现我们今天的目标,有两个前置知识需要掌握,一个是Python自带的operator模块,另一个是偏函数。

阅读全文 »
0%