测试能在AI领域做什么？

最近在B站还有各大网站找了一圈和大模型相关的测试领域的视频文章，新兴领域，参考屈指可数，要不就是要交钱的培训营，大概是在AI 大模型的落地运用层面，开发和测试并没有特别明确的细分，一般如果公司在Agent智能体层面的产品落地，测试可能更关注的是UI 层面的功能测试，而内部的算法测试大概是开发在微调的过程中就已经自行覆盖到了。

ruxue.feng

837人浏览 · 2025-05-23 12:29:24

ruxue.feng · 2025-05-23 12:29:24 发布

1. AI结合测试市场诉求：

看了一下人家的培训课程的内容，基本上关于人工智能的底层原理是是一个模块，另外一块就是应用层面，在智能生成用例，自动生成UI 测试用例，接口测试用例，构建大规模数据这部分会比较多一下

看了下网站关于AI 测试一些招聘岗位，感觉岗位诉求并不多，要不就是传统的一些测试岗位的要求，主要有几点

结合AI 技术建设内部提效平台
AI 大模型训练的性能测试
AI 框架评测体系构建

其中要求的测试人员需要具备的技能有

拥有机器学习，NLP ,人工智能领域的专业知识
懂python ,很多大模型应用的开源项目，基本都是用的python实现的

2. 大模型测试稳定性

关于大模型的应用场景，可以分为基层：由上至下可以分为

应用层--> 能力层-->模型层-->云原生层-->基础设施层

或者简单归结为：应用层，模型层，算力层

从测试的质量保障角度触发，测试关注的三大部分：质量，效率，稳定性，那么针对不同层级的大模型的稳定性保障，可以做什么呢？

问了下chatGpt ，回答还是很全面的：

应用层

能力层

模型层

备注：

1. 正确率 = 提取出的正确信息条数 / 提取出的信息条数

2. 召回率 = 提取出的正确信息条数 / 样本中的信息条数

3. F值 = 正确率 * 召回率 * 2 / (正确率 + 召回率) （F 值即为正确率和召回率的调和平均值）

云原生

基础设施层

3. 测试领域的AI 的应用场景

软件测试领域的AI 运用实例，有一些应用场景：

3.1. 代码层面

代码质量分析分析
代码性能瓶颈分析即优化建议
代码缺陷分析定位

3.2. 用例层面

智能生成用例
报告生成
针对失败的自动化用例完成缺陷分析
自动化用例脚本生成

3.3. 工具层面

负载模拟与分析
定制化工具开发
数据分析与验证
测试数据生成
知识库问答

3.4. 流程层面

CI / CD 流程中的测试自动化

4. 内部的AI在测试领域的实践

目前在所在的质量部门在AI 测试这块没看到有特别好的实践，但是在质量，效率提升，稳定性这块都有一些相关的实践：

UI 自动化用例执行的图像diff,图像智能识别算法
资金稳定性的通过AI 推荐来写离线数据核对SQL脚本
造数平台结合AI 推荐造数脚本及智能造数
网站多语言错翻漏翻治理，训练数据来源于网站正确翻译页面截图
通过AI 对海量日志信息进行抽取，辅助网站用户体验提升
通过AI 快速生成功能测试用例,UI 自动化用例

4.1. 造数工具交互式生成

4.1.1. 问题背景

造数平台各种造数脚本数量大，且脚本质量参差不齐，调用脚本需要填写的参数也会存在非常繁琐的地方，对于新用户来说，没法快速解决自己的数据诉求，可以结合内部私域知识库，借助打磨西，通过自然语言交互的形式快速达成造数诉求。

关于其中的几点技术实现：

1、向量数据库

其中代码实现里面用到了 Chroma 向量数据库，它为复杂的数据处理和检索提供了所需要的基础架构

2、实践中关于私域知识的训练方案选项：

1）通过往prompt 设计里面进行知识灌入

2）自己训练支持微调的大语言模型，自己准备训练集

4、构建知识向量库：

可以参考这篇文章：

基于大语言模型知识问答应用落地实践 – 知识库构建（上） | 亚马逊AWS官方博客

4.2. 智能离线核对脚本生成

4.2.1. 实现方案

通过在提示词里面输入数据库表各字段的描述，表名，以及离线核对编写的一些特殊规则规范等放到prompt里面，通过输入自然语言，让大模型根据语义输出相关的组装好的SQL语句，减少人工编写离线核对的成本，研发测试人员可以根据大模型返回的sql语句做进一步调优或者直接采纳，也可以通过大模型去判断人工编写的sql 是否有优化的空间或者语法是否正确。

4.3. 多语言错翻漏翻检测

4.3.1. 实现方案

下单页面涉及到十几个国家语言切换翻译，页面翻译正确友好与否直接影响了用户下单支付的成功率。国际站核心页面繁多，场景多，端类型多，如果依靠人工的方式去一一核对工作量巨大且容易造成遗漏；为此可以通过先人工截取不同语种正确翻译的网页截图，然后以此作数预料库对大模型进行内部数据的训练，在通过训练好的模型对页面进行扫描检测网页漏翻错翻问题。

4.4. AI 辅助网站体验优化升级

4.4.1. 问题背景：

对于和用户直接交互的页面体验，例如核心商详加购下单支付流程，体验是否良好，不同的国家多语言页面是否能够让用户顺畅下单，没有异常，需要人工走查和日志监控相结合，但是人工走查成本非常高且异常场景覆盖有限，日志有些页面上直接就报错导致买家无法正常下单，两种方式都有其缺陷，故可以考虑结合AI 来辅助网站功能走查。

AI 最大的能力就是对抽象问题的归纳推理，通过借助AI 归纳推理的能力，通过日志的关键信息提取后进行业务信息补全，（日志检索增强），然后对问题现象进行归纳过滤后进行特征提取，对于没有任何错误日志的情况，基于用户的行为来归纳用户在网页遇到的卡点问题，其中也存在不足的地方就是准确率有待提升，另外一个就是大模型的调用成本过高，收益产出比不够平衡。

技术共进，成长同行——讯飞AI开发者社区

更多推荐

YOLOv8【卷积创新篇·第25节】Capsule Network胶囊卷积网络：让检测器拥有“空间想象力”！

讯飞AI开发者社区

一阶谓词逻辑及其重要子集对人工智能自然语言处理深层语义分析的影响与启示

讯飞AI开发者社区

机器学习与人工智能

python# 创建基类# 定义一对多关系# 定义多对一关系# 定义多对多关系（通过关联表）# 关联表（用于多对多关系）SQLAlchemy ORM提供了强大而灵活的数据库操作方式，通过本文的介绍，您应该能够：安装和配置SQLAlchemy定义数据模型和关系执行基本的CRUD操作构建复杂查询管理数据库事务遵循最佳实践SQLAlchemy还有更多高级特性，如混合属性、事件监听、自定义查询等，值得进一