AI编程实战：如何让AI生成带参数和返回值的Python函数——以PDF文本提取为例

原创

于 2025-07-17 16:48:09 发布 · 797 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #AI编程 #python

引言：当效率需求遇上AI编程

在日常数据处理工作中，PDF转文本是个高频且痛苦的需求。手动复制粘贴不仅耗时，面对上百页文档时更是噩梦。传统解决方案需要掌握PyPDF2、pdfminer等库的复杂用法，这对初学者犹如天堑。而如今，借助AI编程助手，我们只需用自然语言描述需求，就能自动生成可运行的代码。更重要的是，我们可以通过迭代对话，教会AI生成高度定制化、带参数和返回值的专业级函数。本文将手把手带你体验这场生产力革命。

一、新手入门：零基础生成第一个PDF处理函数

1.1 明确你的基础需求

假设我们需要完成以下任务：

输入：一个PDF文件路径
输出：该PDF的所有文本内容
技术要求：使用流行的Python库，代码简洁健壮

1.2 向AI提出初始请求

提示词（Prompt）示例：

请用Python写一个函数，使用PyPDF2库提取PDF文件的全部文本内容。
要求处理可能出现的文件异常，最终返回完整文本字符串。

1.3 AI生成的初级代码

import PyPDF2

def extract_pdf_text(file_path):
    """
    提取PDF文件的全部文本内容
    :param file_path: PDF文件路径
    :return: 包含所有文本的字符串
    """
    text = ""
    try:
        with open(file_path, 'rb') as file:
            reader = PyPDF2.PdfReader(file)
            for page in reader.pages:
                text += page.extract_text() + "\n"
    except Exception as e:
        print(f"处理文件时出错: {
     
     e}")
        return ""
    return text

1.4 代码解析（初学者必看）

代码片段	功能说明	新手注意事项
`with open(...)`	安全打开文件	使用rb模式读取二进制文件
`PdfReader()`	创建PDF阅读对象	替代旧版的PdfFileReader
`page.extract_text()`	提取单页文本	不同库的提取效果有差异
`try...except`	异常处理	防止程序因文件错误崩溃

关键收获：通过自然语言描述，我们获得了可直接运行的完整函数，避免了查阅文档的时间成本。

二、进阶改造：给AI函数添加专业级参数

2.1 识别基础函数的不足

初始版本虽然可用，但存在明显缺陷：

无法选择提取特定页码
缺少文本清洗功能
没有处理加密文档的能力
返回纯文本难以定位内容来源

2.2 设计增强版参数方案

我们需要添加以下参数：

def extract_pdf_text(
    file_path: str,
    start_page: int = 0,          # 起始页码(从0开始)
    end_page: int = None,

最低0.47元/天解锁文章

新学期VIP享超值加赠