谢乾坤 | Kingname

使用倒排索引极速提高字符串搜索效率

发表于 2019-03-02 更新于 2025-06-04 分类于 Python 本文字数： 2k 阅读时长 ≈ 7 分钟

在Python中，如果要判断一个字符串是否在另一个字符串里面，我们可以使用in关键字，例如：

>>> a = '你说我是买苹果电脑，还是买windows电脑呢？'
>>> if '苹果' in a:
...  print('苹果这个词在a字符串里面')
...
苹果这个词在a字符串里面

如果有多个句子和多个关键字，那么可以使用for循环来实现：

sentences = ['你说我是买苹果电脑，还是买windows电脑呢？', 
             '人生苦短我用Python', 
             '你TM一天到晚只知道得瑟',
             '不不不，我不是说你，我是说在座的各位都是垃圾。'
             '我CNM你个大SB'
            ]
keywords = ['垃圾', 'CNM', 'SB', 'TM']
for sentence in sentences:
    for keyword in keywords:
        if keyword in sentence:
            print(f'句子: 【{sentence}】包含脏话：【{keyword}】')

运行效果如下图所示：

现在如果有100000000个句子，有1000个关键字，那么你需要对比1000亿次才能全部查询完成。这个时间代价太大了，如果Python一秒钟能运行500万次查询（实际上没有这么快），那么1000亿次查询需要20000秒，接近6小时。而且，由于in关键字的时间复杂度为O(n)，如果有大量长句子，查询时间会更长。

阅读全文 »

数据工程师妹子养成手记——数据库篇

发表于 2019-02-23 更新于 2025-06-04 分类于 MongoDB ， Redis 本文字数： 2k 阅读时长 ≈ 7 分钟

这篇文章没有代码，请放心阅读。

程序员最宝贵的东西是生命，生命属于程序员只有一次。一个程序员的一生应该这样度过：当她回首往事的时候，她不会因为搭建环境浪费时间而悔恨，也不会因为集群无法运行而羞耻。这样，在她开发的时候，她能够说：“我的整个生命和全部精力，都已经献给了开发中最重要的事情——设计程序，实现程序和调Bug。” ——P酱。

P酱是公司新来的实习生妹子。听说是一个文科生。文科生应该会去文案组或者策划组吧。什么？来数据组？让我来带？

于是我和P酱生活工作在了一起。

阅读全文 »

一行js代码识别Selenium+Webdriver及其应对方案

发表于 2019-02-12 更新于 2025-06-04 分类于 Python 本文字数： 1k 阅读时长 ≈ 3 分钟

有不少朋友在开发爬虫的过程中喜欢使用Selenium + Chromedriver，以为这样就能做到不被网站的反爬虫机制发现。

先不说淘宝这种基于用户行为的反爬虫策略，仅仅是一个普通的小网站，使用一行Javascript代码，就能轻轻松松识别你是否使用了Selenium + Chromedriver模拟浏览器。

我们来看一个例子。

阅读全文 »

在Python中，a += b并不总是等价于a = a + b

发表于 2019-01-29 更新于 2025-06-04 分类于 Python 本文字数： 323 阅读时长 ≈ 1 分钟

大家经常在一些博客中看到这样的说法：

a += 1

等价于

a = a + 1

这种说法实际上并不准确。

我们来看一个例子：

>>> a = [1, 2, 3]
>>> a += (4,)
>>> a
[1, 2, 3, 4]

>>> a = [1, 2, 3]
>>> a = a + (4,)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
TypeError: can only concatenate list (not "tuple") to list

这里报错了，说明a += b和a = a + b并不是完全等价的。

阅读全文 »

在Airtest中如何使用无线模式控制手机

发表于 2019-01-28 更新于 2025-06-04 分类于 Python 本文字数： 613 阅读时长 ≈ 2 分钟

在使用Airtest超快速开发App爬虫文章的最后，我们留了一个尾巴：如何启动Airtest的无线模式，不用USB线就能控制手机？

本文将会讲到具体的做法。做法分为两种：第一种是在Airtest的IDE中控制手机。第二种是在Python代码里面控制远程手机。

阅读全文 »

使用Airtest超快速开发App爬虫

发表于 2019-01-19 更新于 2025-06-04 分类于 Airtest 本文字数： 4.5k 阅读时长 ≈ 15 分钟

想开发网页爬虫，发现被反爬了？想对 App 抓包，发现数据被加密了？不要担心，使用 Airtest 开发 App 爬虫，只要人眼能看到，你就能抓到，最快只需要2分钟，兼容 Unity3D、Cocos2dx-*、Android 原生 App、iOS App、Windows Mobile……。

阅读全文 »

为什么Python中“2 == 2 > 1”结果为True？

发表于 2019-01-10 更新于 2025-06-04 分类于 Python 本文字数： 258 阅读时长 ≈ 1 分钟

在Python中，你可能会发现这样一个奇怪的现象：

>>> 2 == 2 > 1
True
>>> (2 == 2) > 1
False
>>> 2 == (2 > 1)
False

为什么会出现2 == 2 > 1的结果为True？如果说这是运算符的优先级问题，那么后两个式子为什么又都是False？

实际上这涉及到了Python的链式对比(Chained Comparisons)。在其他语言中，有一个变量x，如果要判断x是否大于1，小于5，可能需要这样写代码：

1	if (1 < x and x < 5)

但是在Python中，可以这样写代码：

1	if 1 < x < 5

Python能够正确处理这个链式对比的逻辑。

回到最开始的问题上，==等于符号和<小于符号，本质没有什么区别。所以实际上2==2>1也是一个链式对比的式子，它相当于2==2 and 2>1。此时，这个式子就等价于True and True。所以返回的结果为True。

关于链式对比，可以看官方文档：https://docs.python.org/3/reference/expressions.html#comparisons

2018 年终总结

发表于 2018-12-29 更新于 2025-06-04 分类于总结本文字数： 433 阅读时长 ≈ 1 分钟

2018年，我的第一本书出版了。

离开北京，来到到杭州，加入了网易游戏伏羲人工智能实验室。

在这一年里面，一共看完了21本书：

罗贯中——《三国演义》
王小波——《黄金时代》
当年明月——《明朝那些事儿1-7》
瑞·达利欧《原则》
毛姆《月亮与六便士》
Robert C. Martin——《代码整洁之道》
John Sonmez——《软技能——代码之外的生成之道》
尤瓦尔·赫拉利——《今日简史》
汪曾祺——《生活是很好玩的》
孙武——《孙子兵法》
？？？——《战国策》
李鑫——《数据产品经理——从零经验到令人经验》
Norman Lewis——《Word Power Made Easy》
刘飞——《从点子到产品 : 产品经理的价值观与方法论》
李诞——《笑场》

在LeetCode刷了九十多题：https://github.com/kingname/LeetCode

写了13篇博客。

2019年1月，我的第二本书即将出版。

2019年新年目标：

在2019-12-31之前，读完12本书，并为每一本书作出思维导图。
在2019-12-31之前，微信公众号的关注量超过5000人。
在2019-06-30之前，在Medium上发布3篇技术文章。
在2019-10-31之前，练习英语听力和复述能力，做到150词内的句子，听一次就能复述成功。
在2019-03-31之前，学会布鲁斯口琴吹气压音，8月31日之前脱稿演奏卡农。12月31日脱稿演奏未闻花名。
在2019-07-31之前，使用golang完成一个记单词的网站。
在2019-09-30之前，认识至少5个新朋友，并通过与他们聊天练习聊天技巧，努力成为一个会聊天的人。
在2019-10-01之前，累计跑步108公里。

项目经理必备——使用燃尽图监控项目整体进度

发表于 2018-12-23 更新于 2025-06-04 分类于项目管理本文字数： 1.1k 阅读时长 ≈ 4 分钟

在《跳出任务管理的泥沼，拥抱甘特图的怀抱》一文中，我谈到了使用甘特图来规划任务。甘特图更多的关注每一个任务的进度上。那么如果我希望了解项目整体的进度，应该如何选择呢？此时就需要引入另一个简单又强大的工具：燃尽图（Burn down chart）。

阅读全文 »

彻底搞懂Scrapy的中间件（三）

发表于 2018-11-20 更新于 2025-06-04 分类于 Python 本文字数： 1.6k 阅读时长 ≈ 5 分钟

在前面两篇文章介绍了下载器中间件的使用，这篇文章将会介绍爬虫中间件（Spider Middleware）的使用。

阅读全文 »