谢乾坤 | Kingname

当10万+ AI 开始“加密聊天”：我们在期待怎样的类人化agents？

发表于 2026-02-05 更新于 2026-04-20 分类于 AI观察本文字数： 2k 阅读时长 ≈ 7 分钟

摄影：小鱼

土匪猪肝

最近看到一类很魔幻的新闻标题：「10 万+ AI 涌入 Moltbook 社交，集体加密、建宗教，人类已被踢出群聊」

乍一看，这似乎是赛博朋克世界要来了。但细看，却难以一笑而过。

这类新闻背后的项目是 OpenClaw（前Clawdbot → Moltbot），我翻阅了Github、科技博主们关于项目的解读，看到不同观点交织，有的在支持，有的在声讨，也有的保持中立。

但最让我好奇的并不是“AI 是否能够建立宗教”这一表面现象，而是一个更为根本的问题：

阅读全文 »

一日一技：写XPath也并不总是这么简单

发表于 2025-07-26 更新于 2026-04-20 本文字数： 980 阅读时长 ≈ 3 分钟

初级爬虫工程师有时候又叫做XPath编写员，他们的工作非常简单也非常繁琐，就是拿到网页的HTML以后，写XPath。并且他们觉得使用模拟浏览器可以解决一切爬虫问题。

很多人都看不起这个工作，觉得写XPath没有任何技术含量，随便找个实习生就能做。这种看法大部分情况下是正确的，但偶尔也有例外，例如今天我要讲的这个Case，可能实习生还搞不定。

阅读全文 »

一日一技：如何正确渲染大模型返回的Markdown？

发表于 2025-06-04 更新于 2026-04-20 本文字数： 498 阅读时长 ≈ 2 分钟

我们经常让大模型返回Markdown格式的文本，然后通过Python的markdown库把文本渲染成HTML。

但不知道大家有没有发现，大模型返回的Markdown并不是标准的Markdown。特别是当返回的内容包含列表时，大模型返回的内容有问题。例如下面这段文本：

**关于这个问题，我有以下看法**
* 第一点
* 第二点
* 第三点

你粗看起来没有问题，但当你使用markdown模块去把它渲染成HTML时，你会发现渲染出来的结果不符合你的预期，如下图所示：

阅读全文 »

一日一技：Scrapy如何发起假请求？

发表于 2025-05-26 更新于 2026-04-20 本文字数： 938 阅读时长 ≈ 3 分钟

在使用Scrapy的时候，我们可以通过在pipelines.py里面定义一些数据处理流程，让爬虫在爬到数据以后，先处理数据再储存。这本来是一个很好的功能，但容易被一些垃圾程序员拿来乱用。

阅读全文 »

一日一技：如何正确解析超大JSON列表

发表于 2025-05-06 更新于 2026-04-20 本文字数： 593 阅读时长 ≈ 2 分钟

当我们采购数据集时，有时候供应商会以JSON Lines的形式交付给我们。这种格式，本质上是文本格式，它每一行是一个JSON。例如，供应商给我们了一个文件小红书全量笔记.json文件，我们可以使用如下Python代码来一行一行读取：

import json
with open('小红书全量笔记.json') as f:
    for line in f:
        info = json.loads(line)
        note = info['note']
        print('笔记内容为：', note)

这个格式的好处在于，每一次只需要把少量内容读取到内存中。即便这个文件有1TB，我们也可以使用一个4GB内存的电脑来处理。

今天出了一个乌龙事件，某数据供应商在给我数据的时候，说的是以JSON Lines格式给我。但我拿过来解压缩以后一看，100GB的文件，里面只有1行，如下图所示：

也就是说，他用的是一个超大JSON直接导出给我，并没有使用JSON Lines格式。正常情况下，如果我要直接解析这个数据，需要我的电脑内存超过100GB。

这个大JSON大概格式是这样的：

[{"question": "xxx111", "answer": "aaa", "crawled_time": "2025-05-01 12:13:14"}, {"question": "xxx222", "answer": "aaa", "crawled_time": "2025-05-01 12:13:14"}, {"question": "xxx333", "answer": "aaa", "crawled_time": "2025-05-01 12:13:14"}, ...]

要解决这个问题，有三种方法。

如果这个JSON里面没有嵌套数据，只有一层key: value。那么非常简单。一个字符，一个字符读取。遇到}的时候，说明一条子JSON数据已经读取完成，解析以后再读取下一条子JSON。

如果这个JSON里面有嵌套结构，那么可以使用经典算法题里面的数括号算法来解决。当发现}的数量等于{的时候，说明一个子JSON已经读取完成，可以解析了。

今天我们来介绍第三种方法，使用一个第三方库，叫做ijson。它天然支持解析这种超大的JSON，并且代码非常简单：

import ijson

a = '''
[{"question": "xxx111", "answer": "aaa", "crawled_time": "2025-05-01 12:13:14"}, {"question": "xxx222", "answer": "aaa", "crawled_time": "2025-05-01 12:13:14"}, {"question": "xxx333", "answer": "aaa", "crawled_time": "2025-05-01 12:13:14"}]
'''

items = ijson.items(a, 'item')
for item in items:
    print(item)