谢乾坤 | Kingname

一日一技：如何使用大模型提取结构化数据

发表于 2025-01-20 更新于 2026-04-20 本文字数： 1.7k 阅读时长 ≈ 6 分钟

经常有同学在微信群里面咨询，如何使用大模型从非结构化的信息里面提取出结构化的内容。最常见的就是从网页源代码或者长报告中提取各种字段和数据。

最直接，最常规的方法，肯定就是直接写Prompt，然后把非结构化的长文本放到Prompt里面，类似于下面这段代码：

from zhipuai import ZhipuAI
client = ZhipuAI(api_key="") # 填写您自己的APIKey
response = client.chat.completions.create(
    model="glm-4-air-0111",
    messages=[
        {"role": "system", "content": '''你是一个数据提取专家，非常善于从
从长文本中，提取结构化的数据。
        '''},
        {"role": "user", "content": '''你需要从下面的文本中，提取出姓名，工资，地址，然后以JSON格式返回。返回字段示例：{"name": "xxx", "salary": "yyy", "address": "zzz"}.只需要返回JSON字符串就可以了，不要解释，不要返回无关的内容。

"""
长文本
"""
'''}
    ],
)
print(response.choices[0].message)

阅读全文 »

一日一技：超简单方法显著提高大模型答案质量

发表于 2024-12-26 更新于 2026-04-20 本文字数： 2k 阅读时长 ≈ 7 分钟

很多人都知道Prompt大神李继刚，他使用Lisp语法来写Prompt，把大模型指挥得服服帖帖。但我们很多时候没有办法把自己业务场景的Prompt改造成伪代码的形式。

相信不少人跟我一样，会使用Markdown格式来写Prompt，大部分时候没什么问题，但偶尔总会发现大模型返回的结果跟我们想要的不一样。

阅读全文 »

一日一技：如何正确对Python第三方库做二次开发

发表于 2024-12-23 更新于 2026-04-20 本文字数： 1.3k 阅读时长 ≈ 4 分钟

今天，有同学在知识星球上给我提了一个问题：如何在Simplemind中接入Azure的GPT接口。如下图所示。

在使用Python时经常会出现这样的情况，某一个第三方库，满足我们99%的需求，但碰巧有一个小需求不满足。遇到这种情况，有些同学会忍痛割爱，换一个库；还有一些同学，会继续使用这个第三方库，但是缺的那个功能，他就完全自己单独写；剩下的同学，可能是把这个第三方库下载下来，放到自己项目的根目录中，然后当做项目的一部分来修改并导入使用。今天我们就来讲一下这个问题。

前两个方法不需要多说什么。第三个方法从功能上来说没什么问题，但会给自己的项目引入大量其他代码，导致项目在做安全性检查、静态类型检查、Code Review时变得很麻烦。而且这个第三方库必须放到项目的根目录，否则在导入时，它的导入语句就跟正常pip安装的导入语句不一样，以后如果官方库支持了这个缺失的功能，你得改很多个导入语句，才能再换回来，无形中引入了很多的不确定性和隐患。

我们今天想实现的功能是，调用这个二次开发的第三方库时，我自己的代码不需要做任何修改，甚至包括环境变量也不需要修改，直接像是调用任何pip安装的第三方库一样使用。

阅读全文 »

一日一技：为什么我很讨厌LangChain

发表于 2024-12-14 更新于 2026-04-20 本文字数： 1.9k 阅读时长 ≈ 6 分钟

一说到RAG或者Agent，很多人就会想到LangChan或者LlamaIndex，他们似乎觉得这两个东西是大模型应用开发的标配。

但对我来说，我特别讨厌这两个东西。因为这两个东西就是过度封装的典型代表。特别是里面大量使用依赖注入，让人使用起来非常难受。

阅读全文 »

一日一技：Python类型标注的高级用法

发表于 2024-11-12 更新于 2026-04-20 本文字数： 823 阅读时长 ≈ 3 分钟

假设你正在写后端代码，其中一个函数的功能是传入文章id，返回文章详情。因为项目比较大，因此在定义函数时，把类型标注加上，标明了参数的类型和返回的类型。例如：

from typing import List
from dataclasses import dataclass


@dataclass
class ArticleDetail:
    id: int
    title: str
    content: str
    tag: List[str]


def query_article_detail(article_id: int) -> ArticleDetail:
    detail = ArticleDetail(
        id=article_id,
        title='文章标题',
        content='文章内容',
        tag=['tag1', 'tag2']
    )
    return detail


def test_query_article_detail():
    detail = query_article_detail(123)
    print(detail.content)