【AI】提示词入门实战：用10个基础问题测试大模型响应-CSDN博客

本文链接：https://blog.csdn.net/xcshap/article/details/149930044

提示词入门实战：用 10 个基础问题测试大模型响应

对于刚接触大模型的人来说，学会写提示词是很重要的一步。而测试大模型对不同提示词的响应，能帮助我们快速掌握提示词的撰写技巧。本文选取 10 个基础问题，通过实战测试，看看大模型的表现如何，同时分析这些问题背后的提示词逻辑，让新手能更快入门。

1. 问题一：“什么是人工智能？”—— 测试基础概念理解能力

1.1 测试目的

这个问题主要测试大模型对基础概念的理解和解释能力。通过简单直接的提问，看模型能否用通俗易懂的语言把 “人工智能” 这个概念讲清楚。

1.2 提示词示例

“什么是人工智能？请用简单的话解释一下。”

1.3 大模型理想响应

理想的响应应该包含人工智能的核心：让机器模拟人类的智能行为，比如学习、推理、判断等。可以举例说明，比如语音助手、自动驾驶等都是人工智能的应用。语言要口语化，避免太多专业术语。

1.4 常见问题分析

如果模型的回答过于复杂，充满专业术语，说明提示词中 “用简单的话解释” 这一要求没有被充分理解，下次可以更明确地要求 “避免专业术语，举 1 - 2 个例子”。

2. 问题二：“帮我写一句早安问候语。”—— 测试简单文本生成能力

2.1 测试目的

测试大模型根据简单指令生成特定类型文本的能力，看它能否把握 “早安问候语” 的场景和语气。

2.2 提示词示例

“帮我写一句早安问候语，要温馨一点。”

2.3 大模型理想响应

理想的问候语应该简洁、温暖，带有积极的情绪，比如 “早上好呀，新的一天充满阳光，愿你有个好心情！” 既符合早安的场景，又体现了温馨的要求。

2.4 常见问题分析

如果生成的问候语过于正式或生硬，比如 “早晨好，祝你今天顺利”，可能是提示词中 “温馨一点” 的风格要求不够明确，可以补充 “带点亲切感，像朋友之间的问候”。

3. 问题三：“北京和上海哪个城市更大？”—— 测试事实性问答能力

3.1 测试目的

测试大模型对事实性信息的掌握和比较能力，看它能否准确回答两个城市的大小比较，并给出依据。

2.2 提示词示例

“北京和上海哪个城市的面积更大？请说明理由。”

3.3 大模型理想响应

理想的响应应该明确指出北京的面积比上海大，并给出具体的面积数据（大致范围即可），比如 “北京的面积更大，北京面积约 1.64 万平方千米，上海面积约 6340 平方千米”。

3.4 常见问题分析

如果模型回答错误或没有给出依据，可能是对这两个城市的面积数据掌握不准确。这种情况下，可以在提示词中补充 “根据最新的数据”，提醒模型调用准确信息。

4. 问题四：“把‘我很高兴’翻译成英语。”—— 测试语言翻译能力

4.1 测试目的

测试大模型的基础翻译能力，看它能否准确将简单的中文句子翻译成英语，保证语法正确、语义一致。

4.2 提示词示例

“把‘我很高兴’翻译成英语。”

4.3 大模型理想响应

正确的翻译是 “I am very happy”，语法正确，和原句的语义完全一致。

4.4 常见问题分析

如果出现翻译错误，比如翻译成 “I very happy”，说明模型的语法掌握有疏漏。对于这种简单句子，一般不会出错，若出错可以再次提问，或在提示词中要求 “确保语法正确”。

5. 问题五：“为什么天空是蓝色的？”—— 测试科学知识解释能力

5.1 测试目的

测试大模型对科学现象的解释能力，看它能否用通俗易懂的语言说明天空呈蓝色的原因，避免过于深奥的理论。

5.2 提示词示例

“为什么天空是蓝色的？用简单的话解释，不要太复杂。”

5.3 大模型理想响应

理想的解释应该提到光的散射，比如 “阳光中有不同颜色的光，蓝色的光更容易被空气中的微小颗粒散射，所以我们看到的天空是蓝色的”，简单明了，容易理解。

5.4 常见问题分析

如果解释中出现太多光学专业术语，比如 “瑞利散射”，而没有通俗化解释，说明提示词中 “不要太复杂” 的要求没被完全理解，可以进一步要求 “用生活中的例子说明，比如和彩虹的形成有点像”。

6. 问题六：“列出 3 种常见的水果。”—— 测试列表生成能力

6.1 测试目的

测试大模型根据数量要求生成列表的能力，看它能否准确列出符合 “常见水果” 条件且数量为 3 种的内容。

6.2 提示词示例

“列出 3 种常见的水果，每种后面加一句简单的特点描述。”

6.3 大模型理想响应

理想的列表应该是常见的水果，比如：

苹果：味道酸甜，富含维生素。

香蕉：口感软糯，能快速补充能量。

橙子：水分充足，含有丰富的维生素 C。

既符合数量要求，又有简单的特点描述。

6.4 常见问题分析

如果列出的水果不常见，比如 “榴莲”（虽然常见但并非所有人都认为常见），或者数量不对，可能是对 “常见” 的理解有偏差，下次可以提示 “大众普遍熟悉的水果”。

7. 问题七：“帮我制定一个 5 分钟的健身计划。”—— 测试简单计划制定能力

7.1 测试目的

测试大模型根据时间限制制定特定类型计划的能力，看它能否在 5 分钟的时间内，安排合理、简单易行的健身动作。

7.2 提示词示例

“帮我制定一个 5 分钟的健身计划，适合在家做，动作简单点。”

7.3 大模型理想响应

理想的计划应该包含热身和几个简单动作，时间分配合理，比如：

热身（1 分钟）：原地踏步，活动手腕脚腕。

深蹲（1 分钟）：15 - 20 次，膝盖不要超过脚尖。

俯卧撑（1 分钟）：如果做不了标准的，可以做跪姿俯卧撑，10 - 15 次。

平板支撑（1 分钟）：坚持 30 秒，休息 10 秒，再坚持 20 秒。

放松（1 分钟）：拉伸手臂和腿部肌肉。

7.4 常见问题分析

如果计划中的动作难度太大或时间分配不合理，比如包含需要器械的动作，可能是提示词中 “适合在家做，动作简单点” 的要求不够明确，可以补充 “不需要任何器械，适合健身新手”。

8. 问题八：“这篇短文的主要内容是什么？[短文内容]”—— 测试文本总结能力

8.1 测试目的

测试大模型对一段文本的理解和总结能力，看它能否抓住短文的核心内容，用简洁的语言概括出来。

8.2 提示词示例

“这篇短文的主要内容是什么？请用两三句话总结。短文：‘春天来了，小草从土里钻了出来，花儿也开了，有红色的、黄色的、紫色的，非常漂亮。小鸟在树上叽叽喳喳地叫着，好像在欢迎春天的到来。’”

8.3 大模型理想响应

理想的总结应该涵盖短文的主要元素：春天来了，小草、花儿的变化，以及小鸟的表现，比如 “短文主要讲了春天来了，小草长出、花儿开放，小鸟在树上鸣叫，迎接春天”。

8.4 常见问题分析

如果总结遗漏了重要内容，比如没提到小鸟，可能是模型对短文的理解不够全面。可以在提示词中要求 “涵盖短文中提到的主要事物”。

9. 问题九：“明天会下雨吗？”—— 测试实时信息获取能力

9.1 测试目的

测试大模型对实时信息的获取和处理能力，由于天气是实时变化的，看它能否说明无法准确预测，或提示需要结合具体地点和最新天气预报。

9.2 提示词示例

“明天会下雨吗？我在广州。”

9.3 大模型理想响应

理想的响应应该说明天气具有实时性，需要查看最新的天气预报，比如 “我无法准确预测明天广州是否会下雨，建议你查看当地最新的天气预报，获取更准确的信息”。

9.4 常见问题分析

如果模型给出了具体的下雨或不下雨的结论，可能是它没有意识到自己无法获取实时天气信息。这种情况下，需要知道模型的局限性，在提示词中可以提前说明 “由于天气实时变化，请告诉我是否能准确回答”。

10. 问题十：“用‘阳光’‘笑脸’‘公园’写一段话。”—— 测试词语组合创作能力

10.1 测试目的

测试大模型根据指定词语进行创作的能力，看它能否将 “阳光”“笑脸”“公园” 这三个词语自然地融入一段话中，内容连贯、有画面感。

10.2 提示词示例

“用‘阳光’‘笑脸’‘公园’写一段话，描绘一个开心的场景。”

10.3 大模型理想响应

理想的段落应该自然包含三个词语，场景开心，比如 “周末的公园里，阳光洒在地上，暖洋洋的。小朋友们在草地上奔跑，脸上洋溢着灿烂的笑脸，大人们坐在旁边聊天，整个公园都充满了欢乐的气息。”

10.4 常见问题分析

如果词语使用生硬，比如 “公园里有阳光，还有笑脸”，说明模型没有很好地将词语融入场景。可以在提示词中要求 “让词语自然地出现在句子中，描述一个完整的场景”。

11. 从测试结果看提示词撰写的关键点

11.1 明确任务类型

在提示词中，要清楚告诉大模型要做什么，是问答、生成文本、翻译还是总结等。比如问题二中，明确 “写一句早安问候语”，让模型知道任务是文本生成。

11.2 给出具体要求

除了任务类型，还要给出具体的要求，比如风格、数量、格式等。问题六中，“列出 3 种”“每种后面加一句简单的特点描述”，这些具体要求让模型的输出更符合预期。

11.3 考虑模型局限性

要知道大模型不是万能的，对于实时信息、非常专业的领域知识等，可能无法准确回答。问题九中，天气是实时变化的，模型无法准确预测，提示词中可以提前考虑到这一点。

11.4 语言简洁直接

提示词要用简单、直接的语言，避免模糊、复杂的表述。问题一中，“用简单的话解释” 比 “用通俗易懂且不包含专业术语的语言进行阐释” 更简洁，模型也更容易理解。

12. 测试后的提示词优化方法

12.1 根据响应调整要求

如果模型的响应不符合预期，分析原因后调整提示词中的要求。比如问题二中，模型生成的问候语不够温馨，下次可以更具体地描述温馨的感觉。

12.2 补充必要信息

当模型的回答遗漏关键内容时，在提示词中补充必要的信息。比如问题八中，总结遗漏了小鸟，可以补充 “包括短文中提到的动物”。

12.3 明确输出格式

对于需要特定格式的任务，在提示词中明确输出格式。比如问题七中，健身计划可以要求 “分点列出，每个动作注明时间”，让输出更清晰。

12.4 控制信息长度

提示词中的信息不要过多或过少，过多会让模型抓不住重点，过少则无法明确需求。比如问题三中，“北京和上海哪个城市的面积更大？请说明理由”，信息长度适中，既明确了问题，又提出了要求。

13. 不同大模型对基础问题的响应差异

13.1 综合型大模型

像 ChatGPT、文心一言这类综合型大模型，对这 10 个基础问题的响应通常比较全面，无论是概念理解、文本生成还是事实问答，都能有较好的表现，能较好地理解提示词中的各种要求。

13.2 专项型大模型

有些专项型大模型，比如专注于翻译的模型，在问题四的翻译任务中可能表现更出色，但在文本创作、计划制定等任务中，可能不如综合型模型灵活。

13.3 新手选择建议

对于新手来说，刚开始可以选择综合型大模型进行测试和练习，因为它们的适用范围更广，能应对多种基础任务，有助于更好地掌握提示词的撰写技巧。

14. 实战练习：自己设计提示词进行测试

14.1 练习步骤

14.1.1 确定测试任务

先确定要测试大模型的哪种能力，比如文本分类、情感分析等。

14.1.2 设计提示词

根据任务类型，设计包含任务要求、具体信息的提示词，语言要简单直接。

14.1.3 观察响应结果

提交提示词后，观察大模型的响应，看是否符合预期。

14.1.4 分析与优化

分析响应结果，找出不足，然后优化提示词，再次测试，直到得到满意的结果。

14.2 练习示例

任务：测试情感分析能力。

初始提示词：“‘这个电影太好看了，我看了三遍’这句话的情感是正面的吗？”

响应：“是正面的。”

分析：响应正确，但可以更详细。

优化提示词：“‘这个电影太好看了，我看了三遍’这句话表达的情感是什么？请说明理由。”

响应：“这句话表达的是正面情感。因为‘太好看了’直接表达了对电影的喜爱，‘看了三遍’也体现出对电影的认可。”

15. 提示词入门常见误区

15.1 提示词越长越好

很多新手觉得提示词写得越长，模型越能理解。但实际上，过长的提示词可能包含冗余信息，让模型抓不住重点。比如问题三中，不需要详细描述北京和上海的其他特点，只需问面积比较即可。

15.2 不明确具体要求

只说 “帮我写点东西”，而不说明写什么、写多少、什么风格，模型很难给出符合预期的输出。就像问题二中，明确 “早安问候语”“温馨一点”，才能得到合适的结果。

15.3 忽略模型的反馈

模型的响应是对提示词的直接反馈，有些新手不分析反馈结果，只是重复提交类似的提示词，进步很慢。应该像 14.1.4 中说的，根据反馈优化提示词。

15.4 过度依赖模型

虽然大模型能完成很多任务，但新手不能过度依赖，要通过测试和练习，理解提示词的逻辑，提高自己的撰写能力，而不是让模型随意生成内容。

16. 基础问题测试的意义

16.1 快速了解模型能力

通过这 10 个基础问题的测试，能快速了解大模型在不同方面的能力，知道它擅长什么，不擅长什么，方便后续根据模型特点来写提示词。

16.2 掌握提示词基本逻辑

在测试过程中，能逐渐掌握提示词的基本逻辑：明确任务、给出要求、语言简洁等，为撰写更复杂的提示词打下基础。

16.3 建立与模型的沟通节奏

就像和人沟通一样，和大模型沟通也需要节奏。通过测试，能找到让模型理解自己的方式，建立起顺畅的沟通节奏，提高使用效率。

16.4 增强使用信心

对于新手来说，刚开始使用大模型可能会有畏难情绪。通过基础问题的测试，看到模型能按照提示词完成任务，能增强使用信心，更愿意深入学习提示词技巧。

17. 进阶方向：从基础问题到复杂任务

17.1 增加任务复杂度

在基础问题的基础上，逐渐增加任务的复杂度。比如从写一句早安问候语，到写一篇完整的早安主题短文；从总结一段短文，到总结一篇长文章。

17.2 结合多个任务类型

尝试让大模型完成结合多个任务类型的工作，比如先翻译一段文字，再总结翻译后的内容，最后根据总结写一段评论。

17.3 加入更多约束条件

在提示词中加入更多的约束条件，比如 “写一篇关于环保的短文，要求用总分总结构，包含 3 个例子，字数在 300 字左右，语言正式”，锻炼模型在多约束下的响应能力。

17.4 进行多轮对话测试

从单轮提问，过渡到多轮对话，比如先问 “什么是人工智能”，然后根据模型的回答，进一步问 “人工智能有哪些潜在的风险”，测试模型在上下文连贯下的响应能力。

18. 总结测试经验，提升提示词水平

18.1 记录成功案例

把那些能让模型给出理想响应的提示词记录下来，分析它们的结构和特点，比如如何明确任务、如何给出要求，供以后参考。

18.2 整理失败教训

对于那些效果不好的提示词，也要整理起来，分析失败的原因，是任务不明确、要求不清楚，还是忽略了模型的局限性，避免以后再犯类似的错误。

18.3 定期复习练习

定期回顾记录的案例和教训，重新