谢乾坤 | Kingname

一日一技：如何同时使用多个GPT的API Key？

发表于 2023-09-03 更新于 2025-08-03 本文字数： 651 阅读时长 ≈ 2 分钟

相信很多同学或多或少都在Python中使用过GPT API，通过Python安装openai库，来调用GPT模型。

OpenAI官方文档中给出了一个示例，如下图所示：

如果你只有一个API账号，那么你可能不觉得这样写有什么问题。但如果你想同时使用两个账号怎么办？

阅读全文 »

一日一技：从PDF完美提取表格

发表于 2023-09-03 更新于 2025-08-03 本文字数： 326 阅读时长 ≈ 1 分钟

在之前很长一段时间，从PDF文件中提取表格都是一个老大难的问题。无论你使用的是PyPDF2还是其他什么第三方库，提取出来的表格都会变成纯文本，难以二次利用。

但现在好消息来了，专业处理PDF的第三方库PyMuPDF升级到了1.23.0，已经支持完美提取PDF中的表格了。还可以把表格转换为Pandas的DataFrame供你分析。

阅读全文 »

一日一技：在Scrapy中如何拼接URL Query参数？

发表于 2023-08-27 更新于 2025-08-03 本文字数： 440 阅读时长 ≈ 1 分钟

我们知道，在使用Requests发起GET请求时，可以通过params参数来传递URL参数，让Requests在背后帮你把URL拼接完整。例如下面这段代码：

# 实际需要请求的url参数为：
# https://www.kingname.info/article?id=1&doc=2&xx=3

import requests

params = {
	'id': '1',
	'doc': '2',
	'xx': '3'
}

requests.get('https://www.kingname.info/article', params=params)

那么在Scrapy中，发起GET请求时，应该怎么写才能实现这种效果呢？

阅读全文 »

一日一技：Scrapy最新版不兼容scrapy_redis的问题

发表于 2023-08-20 更新于 2025-08-03 本文字数： 180 阅读时长 ≈ 1 分钟

有不少同学在写爬虫时，会使用Scrapy + scrapy_redis实现分布式爬虫。不过scrapy_redis最近几年更新已经越来越少，有一种廉颇老矣的感觉。Scrapy的很多更新，scrapy_redis已经跟不上了。

阅读全文 »

一日一技：如何对Python代码进行混淆

发表于 2023-08-14 更新于 2025-08-03 本文字数： 781 阅读时长 ≈ 3 分钟

目前市面上没有任何方法能够完全避免你的程序被人反编译。即便是3A游戏大作，发布出来没多久也会被人破解。现在只能做到增大反编译的难度，让程序相对无法那么快被破解。

我们知道，Python代码默认是公开的。当你要把一个Python项目给别人运行的时候，一般来说别人就能看到你的全部源代码。我们可以使用Cython、Nuitka对代码进行打包，编译成.so文件、.dll文件或者是可执行文件，从而在一定程度上避免别人看到你的源代码。我在字节的时候，内部的一个系统就是使用Cython打包的，然后部署到客户的服务器上。

阅读全文 »

一日一技：不走常规路线，列表页1秒搞定

发表于 2023-07-19 更新于 2025-08-03 本文字数： 632 阅读时长 ≈ 2 分钟

最近遇到一个需求，需要抓取Docusaurus上面的全部文档。如下图所示：

抓文档的正文非常简单，使用GNE高级版，只要有URL直接就能抓取下来，如下图所示：

但现在的问题是，我怎么获取到每一篇文档的URL？

阅读全文 »

一日一技：iOS抓包最简单方案

发表于 2023-07-16 更新于 2025-08-03 本文字数： 1.2k 阅读时长 ≈ 4 分钟

写过爬虫的同学都知道，当我们想对App或者小程序进行抓包时，最常用的工具是Charles、Fiddler或者MimtProxy。但这些软件用起来非常复杂。特别是当你花了一两个小时把这些软件搞定的时候，别人只用了15分钟就已经手动把需要的数据抄写完成了。

我的需求

如果你不是专业的爬虫开发者，那么大多数时候你的抓包需求都是很小的需求，手动操作也不是不能。这种时候，我们最需要的是一种简单快捷的，毫不费力的方法来解放双手。

例如我最近在玩《塞尔达传说——王国之泪》，我有一个小需求，就是想找到防御力最大的帽子、衣服和裤子来混搭。这些数据，在一个叫做『Jump』的App上面全都有，如下图所示：

防具总共也就几十个，肉眼一个一个看也没问题，就是费点时间而已。那么，如果我想高效一些，有没有什么简单办法通过抓包再加上Python写几行代码来筛选，快速找到我想要的数据呢？

阅读全文 »

一日一技：方法不对，代码翻倍。Requests如何正确重试？

发表于 2023-06-11 更新于 2025-08-03 本文字数： 548 阅读时长 ≈ 2 分钟

程序员是一个需要持续学习的群体，如果你发现你现在写的代码跟你5年前的代码没什么区别，说明你掉队了。

我们在做Python开发时，经常使用一些第三方库，这些库很多年来持续添加了新功能。但我发现很多同学在使用这些第三方库时，根本不会使用新的功能。他们的代码跟几年前没有任何区别。

阅读全文 »

一日一技：Prompt逆向工程，破解小红书文案生成器

发表于 2023-05-17 更新于 2025-08-03 本文字数： 1.2k 阅读时长 ≈ 4 分钟

关注我公众号的很多同学都会写爬虫。但如果想把爬虫写得好，那一定要掌握一些逆向技术，对网页的JavaScript和安卓App进行逆向，从而突破签名或者绕过反爬虫限制。

最近半年，大语言模型异军突起，越来越多的公司基于GPT3.5、GPT-4或者其他大语言模型实现了各种高级功能。在使用大语言模型时，Prompt写得好不好，决定了最终的产出好不好。甚至因此产生了一门新的学问，叫做Prompt Engineer.

有些公司经过各种测试，投入大量人力，终于总结了一些神级Prompt。这些Prompt的效果非常好。他们会把这些Prompt当作魔法咒语一样视为珍宝，轻易不肯示人。

这个时候，另外一门对抗技术就产生了，我给他取名，Prompt Reverse Engineering：Prompt逆向工程。

阅读全文 »

一日一技：在LangChain中使用Azure OpenAI Embedding服务

发表于 2023-05-13 更新于 2025-08-03 本文字数： 847 阅读时长 ≈ 3 分钟

如果大家深入使用过ChatGPT的API，或者用过听说过AutoGPT，那么可能会知道，它背后所依赖的语言框架LangChain。LangChain能够让大语言模型具有访问互联网的能力，以及与其他各种API互动交互，甚至是执行系统命令的能力。

ChatGPT的prompt支持的Token数量是有限的，但是使用LangChain，能够很容易实现ChatPDF/ChatDoc的效果。即使一段文本有几百万字，也能让ChatGPT对其中的内容进行总结，也能让你针对文本中的内容进行提问。

Question Answering over Docs这是LangChain官方文档给出的示例，如果你使用的是OpenAI官方的API，你只需要复制粘贴上面的代码，就可以实现针对大文本进行提问。

如果你使用的是Azure OpenAI提供的接口，那就比较麻烦，需要多一些设置。我们来看一下我在使用过程中所踩的坑。

阅读全文 »