上一篇
注意:由于模型的差异性,测试结果可能不同

一、 参数配置类

1. 温度系数:调节生成内容的确定性、随机性和创造性。
以下是针对概念解释文本创作两个领域的低/高温对比测试用例:

概念解释

温度 输入内容 差异分析
0.2 什么是AI大模型 低温特性
- 每次输出内容几乎相似
- 格式相似
- 适用于科普
1.8 什么是AI大模型 💥 高温特性
- 每次输出内容不太一致
- 格式不一样
- 不适用科普并且输出内容并随异常

文本创作

温度 输入内容 关键差异分析
0.3 续写:星空正在 低温特性
- 内容范围贴近人类
- 内容更具体
- 适用于情感比较细腻文本创造
1.6 续写:星空正在 💥 高温特性
- 内容范围向宇宙扩大
- 内容更抽象
- 使用于便想象力丰富文本创作

通过这种极化测试设计,可直观观察到:

  • 低温适用于确定性的文本生成
  • 高温适用于创造性,随机性的文本生成

2. 最长回复长度:限制输出内容的篇幅。

最大长度 输入内容 关键分析
1024token 用500字内说明AI大模型的核心特点 达标效果
- 限定字数在500字左右
- 输出内容完整
100token 用500字内说明AI大模型的核心特点 ⚠️ 截断问题
- 内容输出不完整

3. 携带上下文轮数:决定模型保留对话历史的轮次,影响语境理解深度。

多轮深度对话 输入内容 关键分析
高轮数(20轮) 第一句:我早餐喜欢吃牛奶面包
第二句:我午餐喜欢吃粉,特别是生料猪杂粉
第三句:我晚餐喜欢吃饭,素材是白菜,金针菇,荤菜是烧鸭腿,鸡腿
第四句:到了夜宵的时候,我喜欢吃烧烤,其中最喜欢吃鸡蛋瘦肉炒粉和韭菜加豆腐皮,生蚝
第五句:你还记得我早餐喜欢吃什么吗
理解效果
- 根据上下文理解回答并输出内容
低轮数(2轮) 同上 ⚠️ 失忆问题
- 不记得之前用户输入内容

二、 功能模块类

1. Prompt:通过编写系统提示词,定义对话角色、任务规则或内容方向。
以下分别展示角色设定任务规范 对生成结果的定向控制效果:

角色设定对比
输入内容:我最近总是疲劳,应该怎么调整饮食?

Prompt类型 生成结果
角色:营养师 以这句话开头"作为营养师,我会从饮食的角度为你提供一些建议,帮助你改善疲劳状态"
角色:全科医生 以这句话开头 “作为全科医生,我会从饮食的角度为你提供一些科学的建议,帮助你改善疲劳状态。同时,如果调整饮食后仍无改善,建议进一步就医排查潜在问题。”

任务规范对比
输入内容:解释什么是人工智能

Prompt类型 生成结果 关键差异分析
学术规范 “人工智能(Artificial Intelligence,简称AI)是计算机科学的一个分支,致力于开发能够模拟、延伸和扩展人类智能的理论、方法、技术和应用系统。其核心目标是使机器能够执行通常需要人类智能才能完成的任务。。” 严谨性
- 学科归属明确
- 分类清晰
- 使用术语
口语化规范 “简单来说呢,人工智能就是让机器像人一样能思考、做决策。比如说,我们希望电脑能认出照片里的猫,能听懂咱们说的话,还能下棋赢过人类高手。” 💡 易理解性
- 使用生活类比
- 省略专业分类

Prompt工程建议
①. 角色设定公式

[专业身份] + [知识范围] + [禁忌领域]  
示例:  
"作为金融分析师(身份),专注于股票市场趋势分析(范围),不提供个人投资建议(禁忌)"

②. 任务规范模板

[输出格式] + [语言风格] + [信息深度]  
示例:  
"用分点列表(格式)、比喻手法(风格)解释量子物理概念(深度不超过高中课本)"

③. 复合Prompt示例

system_prompt = """
角色:儿童科普作家  
任务要求:  
- 用拟人化故事讲解科学知识  
- 每段包含1个互动问题  
- 禁用专业术语(如"光合作用"需改为"植物吃阳光饭")  
输出格式:3段式童话故事
"""

2. 知识库检索增强:开启后调用专业知识库,提升回答的确定性与固定性。

知识库状态 输入内容 生成结果分析
开启知识库 什么是量子力学 多次提问都基于知识库的内容生成
关闭知识库 同上 具有随机性
开启知识库 感冒护理措施 多次提问都基于知识库的内容生成
关闭知识库 同上 具有随机性

3. Prompt样例库:引入任务示例,引导模型参考示例风格、逻辑生成内容。

以下是为Prompt样例库(Few-shot学习)功能设计的两个测试用例,分别展示在文案创作与代码开发场景中引入样例前后的生成效果对比:


测试用例表格:样例库引导效果对比

场景类型 输入提示 引入样例 生成结果 关键差异分析
文案创作
无样例 “为智能手表写一句广告文案” “不止是时间,更是你的智能管家,腕上未来,从此开启。” ⚠️ 基础表述
- 随机性
带样例 同上 样例1
“像贴身健康顾问,XX手环24小时守护你的心跳律动——睡眠质量分析精度提升40%,让你听见身体的声音”
“掌控时间,更懂你心——XX智能手表,24小时全天候健康监测,精准记录每一次心跳与步伐,让科技为你的生活注入更多可能” 样例引导效果
- 继承比喻手法
场景类型 输入提示 引入样例 生成结果分析
代码开发
无样例 “用Python实现递归” 生成内容不固定
带样例 同上 样例1
先输出代码(包含注释),给出结果并解释
根据样例1的要求给出代码包含注释到结果最后解释

4. 长期记忆:存储用户历史信息(如偏好),维持多轮对话的连贯性。

长期记忆状态 对话历史与当前输入 生成结果分析
开启记忆 历史输入
第一句:我喜欢神州笔记本电脑,因为性价比高
第二句:我通常会使用电脑打游戏,特别是刺客信条大革命
第三句:打游戏时我喜欢用迈从的键盘和英菲克的鼠标
当前输入:帮我安排周末做什么
周末的安排包含历史输入的内容,如使用神州电脑,迈从的键盘和英菲克的鼠标完刺客信条大革命
关闭记忆 同上 生成内容具有随机性,可能不包含有历史输入的内容

5. 插件:接入外部工具(如计算器、图片生成等工具),扩展模型功能边界。

以下是为插件功能设计的两个测试用例,分别展示在开启/关闭插件时模型算术能力与生成图片的差异:

场景分类 输入提示 生成结果 关键差异分析
算术能力
开启插件 456789*456789 208656190521 - 得出正确结果
- 无计算过程
关闭插件 同上 208654990521 - 计算错误
- 有计算过程
场景分类 输入提示 内容生成分析
生成图片
开启插件 随机生成一张图 根据用户需求生成图片
关闭插件 同上 图片无法生成,会提示相关工具

6. 流程:定制任务执行流程,串联多个功能模块,实现有序交互。

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐