一日一技:应该传入对象还是在用的时候再初始化?
在写 Python 代码的时候,大家可能会在不知不觉中使用一些设计范式。我们来看两个例子。
在写 Python 代码的时候,大家可能会在不知不觉中使用一些设计范式。我们来看两个例子。
现在我有10亿条微博正文,并从同事手上拿到了15000条需要过滤的垃圾信息正则表达式,只要微博正文符合任何一条正则表达式,就删除这条微博。
Python 初学者在阅读一些 Python 开源项目时,常常会看到一个叫做__init__.py
的文件。下图为著名的第三方库requests
的源代码:
那么__init__.py
有什么用呢?本文介绍它的两个用途。
对不少 Python 初学者来说,Python 导入其他模块的方式让他们很难理解。什么时候用import xxx
?什么时候用from xxx import yyy
?什么时候用from xxx.yyy import zzz
?什么时候用from xxx import *
?
这篇文章,我们来彻底搞懂这个问题。
在使用推特开放API获取推文的时候,会发现推文的发布时间是下面这样的:
1 | { |
现在我想把它转换为2019-12-24 18:51:15
的形式,应该如何操作呢?
在上一篇文章中,我们提到了aiohttp官方文档中的默认写法速度与requests单线程请求没有什么区别,需要通过使用asyncio.wait
来加速aiohttp的请求。今天我们来探讨一下这背后的原因。
听说过异步爬虫的同学,应该或多或少听说过aiohttp
这个库。它通过 Python 自带的async/await
实现了异步爬虫。
使用 aiohttp,我们可以通过 requests 的api写出并发量匹敌 Scrapy 的爬虫。
关于Kafka的第三篇文章,我们来讲讲如何使用Python读写Kafka。这一篇文章里面,我们要使用的一个第三方库叫做kafka-python
。大家可以使用pip
或者pipenv
安装它。下面两种安装方案,任选其一即可。
作为一个爬虫工程师,Kafka 对你而言就是一个消息队列,你只需要掌握如何向里面写入数据,以及如何读取数据就可以m’ys’q作为一个爬虫工程师,Kafka 对你而言就是一个消息队列,你只需要掌握如何向里面写入数据,以及如何读取数据就何读取就可以可了。
请谨记:使用 Kafka 很容易,但对 Kafka 集群进行搭建、维护与调优很麻烦。Kafka 集群需要有专人来维护,不要以为你能轻易胜任这个工作。