谢乾坤 | Kingname

给时光以生命。

我们在开发的过程中,会创建非常多的日志,对日志进行 rotate 是一个基本要求。

所谓的rotate,可以理解为对日志按照一定的规则进行切分。例如,每天晚上0点生成一个新的日志文件,并把老的文件归档。又或者每个日志文件超过多少 MB 以后就自动切分,并把老的内容单独存档或者压缩。存档以后的日志文件保存多少个。超过数量以后先删除老日志再删除新日志。

如果我们使用的是 Python,那么我们可以使用自带的logging模块或者第三方的logoru来写日志。但如果我们使用像是 MongoDB这种第三方的软件,那么要对日志进行 rotate 就非常麻烦了。如果不加以管理,MongoDB 的日志很容易就达到几十GB。

还有其他软件,他们的日志散落在系统的各个位置,我们应该如何替他们 rotate 呢?

阅读全文 »

假设有一个 Redis 集合,里面有 N 条数据,你不停从里面lpop数据,直到某一条数据的值为'Stop'字符串为止(已知里面必有一条数据为'Stop'字符串,但其位置不知道)。

阅读全文 »

我们平时导入第三方模块的时候,一般使用的是import关键字,例如:

1
2
import scrapy
from scrapy.spider import Spider

但是如果各位同学看过 Scrapy 的settings.py文件,就会发现里面会通过字符串的方式来指定pipeline 和 middleware,例如:

1
2
3
4
5
6
7
8
DOWNLOADER_MIDDLEWARES = {
'Test.middlewares.ExceptionRetryMiddleware': 545,
'Test.middlewares.BOProxyMiddlewareV2': 543,
}

SPIDER_MIDDLEWARES = {
'Test.middlewares.LoggingRequestMiddleware': 543,
}

我们知道,这里的Test.middlewares.ExceptionRetryMiddleware实际上对应了根目录下面的Test文件夹里面的middlewares.py文件中的ExceptionRetryMiddleware类。那么 Scrapy 是如何根据这个字符串,导入这个类的呢?

阅读全文 »

请大家猜一猜下面这段代码的运行效果:

1
2
3
4
5
6
7
8
import random
import time

people = ['kingname', '王小一', '李小二', '张小三', '刘小四', '卢小五', '马小六', '周小七', '丁小八', '朱小九']
for i in range(1, 11):
lucky_guy = random.choice(people)
print(f'第{i}次抽奖,中奖用户:{lucky_guy}')
time.sleep(1)

你是不是以为这段代码运行以后,结果如下图所示?

但实际上,我可以让输出结果根据我的意愿随意变动,例如像下面这个 gif ,所有输出结果都是我:

你可以先不要往下看,放下手机,自己写一下代码,试一试 如何才能实现 gif 中的效果。

阅读全文 »

在我们使用 Python 查询 MongoDB 的时候,一般会使用MongoDB 的集合(collection)对象的 find()方法或者find_one()方法:

1
2
3
4
5
6
7
8
9
10
11
12
13
import pymongo

handler = pymongo.MongoClient().chapter_7.example_data_4

# 获得一个游标操作对象,并迭代
rows = handler.find()
for row in rows:
print(row)


# 查询第一条数据
row = handler.find_one()
print(row)

其中,find()方法返回的是一个游标对象,我们可以直接对这个对象进行迭代,从而按顺序获取每一条数据。

阅读全文 »

Jupyter 是数据分析领域非常有名的开发环境,使用 Jupyter 写数据分析相关的代码会大大节约开发时间。

设想这样一个场景:别的部门的同事传给你一个数据分析的模块,用于实现对数据的高级分析。模块里面有上百个函数。

阅读全文 »

原来我们在 Python 中写日志,使用的是 Python 自带的 logging 模块,要实现既在终端输出,又能写文件,并且日志文件还能 rotate ,代码需要十多行:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
import logging
from logging.handlers import RotatingFileHandler

os.makedirs('Logs', exists_ok=True)
logger = logging.getLogger('Robot')
handler = logging.StreamHandler()
handler.setLevel(logging.DEBUG)
file_handler = RotatingFileHandler(os.path.join('Logs', 'robot.log'),
maxBytes=5 * 1024 * 1024,
backupCount=10,
encoding='utf-8')
formatter = logging.Formatter('%(asctime)s - %(name)s - %(levelname)s - %(message)s')
handler.setFormatter(formatter)
file_handler.setFormatter(formatter)
logger.addHandler(handler)
logger.addHandler(file_handler)
logger.setLevel(logging.DEBUG)

logger.info('终于可以写日志了...')

那有没有什么简单好用,for human的写日志方案呢?

阅读全文 »

有这样一个业务场景:

我有100篇故事,放在 MongoDB 里面。我做了一个 web 接口,每次请求返回一篇故事。希望能够实现:

每次请求返回的故事都不一样,在100次请求里面,每篇故事都需要返回。直到100篇故事全部返回完成。第101次与第1次相同,第102次与第2次相同……

阅读全文 »

在我们日常使用 Python 时,大家可能有这样一种认识:

  • a == b 为 True,a is b 不一定为 True
  • a is b 为 True,则 a == b 一定为 True
1
2
3
4
5
6
7
8
9
10
11
>>> a = 'abc!'
>>> b = 'abc!'
>>> a == b
True
>>> a is b
False
>>> c = a
>>> a is c
True
>>> a == c
True

这是因为 == 只比较值,而 is 同时比较值和内存地址。简单来说:你左手边有一个人,右手边有一个人,两个人长得一模一样,那么左手边的人==右手边的人;你左手边有一个人,一分钟以后这个人走到了你的右手边,那么刚才左手边的人 is 现在右手边的人

但凡事总有意外,情况下面的代码:

为什么会出现这种情况?a is b为 True,a == b却为 False

你可以先停在这里,猜一下a 和 b 里面的值到底是什么东西。

现在来揭开答案,我们来网上看两行:

a 和 b 的值为,它的意思是Not a Number,非数。

与任何数,包括它自己比较,结果都是 False,这是IEEE-754规定的:

Python 在实现这个数据的时候,根据 IEEE-754的要求,也做了限制:

相关的文档地址详见 Python 的 math 库

所以,这里 a == b 为 False,是一种特殊情况。并不是 Python 出现了错误。

0%