谢乾坤 | Kingname

正则表达式re.sub替换不完整的问题现象及其根本原因

发表于 2018-08-27 更新于 2026-07-20 分类于 Python 本文字数： 1.1k 阅读时长 ≈ 4 分钟

问题描述

问题的起因来自于一段正则替换。为了从一段HTML代码里面提取出正文，去掉所有的HTML标签和属性，可以写一个Python函数：

import re


def remove_tag(html):
    text = re.sub('<.*?>', '', html, re.S)
    return text

这段代码的使用了正则表达式的替换功能re.sub。这个函数的第一个参数表示需要被替换的内容的正则表达式，由于HTML标签都是使用尖括号包起来的，因此使用<.*?>就可以匹配所有<xxx yyy="zzz">和</xxx>。

第二个参数表示被匹配到的内容将要被替换成什么内容。由于我需要提取正文，那么只要把所有HTML标签都替换为空字符串即可。第三个参数就是需要被替换的文本，在这个例子中是HTML源代码段。

至于re.S，在4年前的一篇文章中我讲到了它的用法：Python正则表达式中的re.S。

现在使用一段HTML代码来测试一下：

import re


def remove_tag(html):
    text = re.sub('<.*?>', '', html, re.S)
    return text


source_1 = '''
<div class="content">今天的主角是<a href="xxx">kingname</a>，我们掌声欢迎！</div>
'''


text = remove_tag(source_1)
print(text)

运行效果如下图所示，功能完全符合预期

再来测试一下代码中有换行符的情况：

import re


def remove_tag(html):
    text = re.sub('<.*?>', '', html, re.S)
    return text

source_2 = '''
<div class="content">
    今天的主角是
    <a href="xxx">kingname</a>
    ，我们掌声欢迎！
</div>
'''
text = remove_tag(source_2)
print(text)

运行效果如下图所示，完全符合预期。

经过测试，在绝大多数情况下，能够从的HTML代码段中提取出正文。但也有例外。

阅读全文 »

技巧收集-M1806

发表于 2018-06-21 更新于 2026-07-20 分类于 Craft 本文字数： 1.1k 阅读时长 ≈ 4 分钟

2018.05

grep持续监控Log：

1	tail -f file \| grep --line-buffered my_pattern

列表和deque的区别：

根据index读list，时间复杂度为O(1)但deque是O(n)
在两头插入数据，deque的时间复杂度为O(1), list为O(n)
deque是一个双向链表，所以操作头尾非常简单。
随机往中间插入数据，deque与list的时间复杂度都是O(n)

阅读全文 »

使用生成器把Kafka写入速度提高1000倍

发表于 2018-04-13 更新于 2026-07-20 分类于 Python 本文字数： 2.1k 阅读时长 ≈ 7 分钟

通过本文你会知道Python里面什么时候用yield最合适。本文不会给你讲生成器是什么，所以你需要先了解Python的yield，再来看本文。

阅读全文 »

从Workflowy到印象笔记

发表于 2018-03-17 更新于 2026-07-20 分类于 Craft 本文字数： 1.4k 阅读时长 ≈ 5 分钟

Workflowy是一个极简风格的大纲写作工具，使用它提供的无限层级缩进和各种快捷键，可以非常方便的理清思路，写出一个好看而实用的大纲。如下图所示。

印象笔记更是家喻户晓，无人不知的跨平台笔记应用。虽然有很多竞争产品在和印象笔记争抢市场，但是印象笔记强大的搜索功能还是牢牢抓住了不少用户。

如果能够把用Workflowy写大纲的便利性，与印象笔记强大的搜索功能结合起来，那岂不是如虎添翼？如下图所示。

EverFlowy就是这样一个小工具。它可以自动把Workflowy上面的条目拉下来再同步到印象笔记中。如果Workflowy有更新，再运行一下这个小工具，它就会同步更新印象笔记上面的内容。Workflowy负责写，印象笔记负责存，各尽其能，各得其所。

阅读全文 »

任务管理，项目管理和目标管理

发表于 2018-01-01 更新于 2026-07-20 分类于经验本文字数： 2.3k 阅读时长 ≈ 8 分钟

我是一个工具控，经常尝试各种生产力工具。我发现任务管理App汗牛充栋，项目管理工具乏善可陈，而目标管理App更是少得可怜。

阅读全文 »

不用甘特图，你做什么项目管理

发表于 2017-12-31 更新于 2026-07-20 分类于经验本文字数： 1.3k 阅读时长 ≈ 4 分钟

我非常喜欢使用甘特图来做项目管理。不用甘特图的公司，我觉得很奇怪。

阅读全文 »

使用Jenkins自动部署博客

发表于 2017-12-17 更新于 2026-07-20 分类于 Jenkins 本文字数： 2k 阅读时长 ≈ 7 分钟

这篇文章比较简单，适合初学持续集成的读者，本文可以帮助你对基于Jenkins的持续集成有一个比较全局的概念。

阅读全文 »

使用有限状态机原理实现英文分词

发表于 2017-12-10 更新于 2026-07-20 分类于 Python 本文字数： 2.2k 阅读时长 ≈ 7 分钟

提出问题

使用Python开发一个英文句子分词程序，把一段英文句子切分为每一个单词。不能导入任何官方的或者第三方的库，也不能使用字符串的split()方法。

阅读全文 »

TeamFlowy——结合Teambition与Workflowy

发表于 2017-10-03 更新于 2026-07-20 分类于 Craft 本文字数： 2.1k 阅读时长 ≈ 7 分钟

Teambition是一个跨平台的团队协作和项目管理工具，相当于国外的Trello。使用Teambition可以像使用白板与便签纸一样来管理项目进度，如下图所示。

Teambition虽然便于管理项目，但是如果直接在Teambition上面创建一个项目对应的任务，却容易陷入面对茫茫白板，不知道如何拆分任务的尴尬境地。如下图所示。

面对这个空荡荡的窗口，应该添加哪些任务进去？直接用脑子现想，恐怕容易出现顾此失彼或者干脆漏掉了任务的情况。

当我要开始一个项目的时候，我一般不会直接打开Teambition就写任务，而是使用一个大纲工具——Workflowy来梳理思路，切分任务。等任务已经切分好了，在誊写到Teambition中，如下图所示。

但这样就出现了一个问题：首先在Workflowy上面把需要做的任务写好。然后再打开Teambition，把这些任务又誊写到Teambition中。为了减少“誊写”这一步重复劳动，于是就有了TeamFlowy这个小工具。它的作用是自动誊写Workflowy中的特定条目到Teambition中。

阅读全文 »

技巧收集-M1709

发表于 2017-09-22 更新于 2026-07-20 分类于 Craft 本文字数： 717 阅读时长 ≈ 2 分钟

2017.09

在macOS中直接复制文件路径，在Finder中选中文件，按下快捷键：Command + Option + C

以KB，MB，GB方式显示文件大小

ls -lh

删除超大文本文件的特定行数

1	sed -e '10000,50000d' xxx.txt > new_xxx.txt //删除xxx.txt的第10000行到50000行的所有内容,并将结果保存到new_xxx.txt

阅读全文 »

0%