测试能在AI领域做什么?
最近在B站还有各大网站找了一圈和大模型相关的测试领域的视频文章,新兴领域,参考屈指可数,要不就是要交钱的培训营,大概是在AI 大模型的落地运用层面,开发和测试并没有特别明确的细分,一般如果公司在Agent智能体层面的产品落地,测试可能更关注的是UI 层面的功能测试,而内部的算法测试大概是开发在微调的过程中就已经自行覆盖到了。
最近在B站还有各大网站找了一圈和大模型相关的测试领域的视频文章,新兴领域,参考屈指可数,要不就是要交钱的培训营,大概是在AI 大模型的落地运用层面,开发和测试并没有特别明确的细分,一般如果公司在Agent智能体层面的产品落地,测试可能更关注的是UI 层面的功能测试,而内部的算法测试大概是开发在微调的过程中就已经自行覆盖到了。
1. AI结合测试市场诉求:
看了一下人家的培训课程的内容,基本上关于人工智能的底层原理是是一个模块,另外一块就是应用层面,在智能生成用例,自动生成UI 测试用例,接口测试用例,构建大规模数据这部分会比较多一下
看了下网站关于AI 测试一些招聘岗位,感觉岗位诉求并不多,要不就是传统的一些测试岗位的要求, 主要有几点
- 结合AI 技术建设内部提效平台
- AI 大模型训练的性能测试
- AI 框架评测体系构建
其中要求的测试人员需要具备的技能有
- 拥有机器学习,NLP ,人工智能领域的专业知识
- 懂python ,很多大模型应用的开源项目,基本都是用的python实现的
2. 大模型测试稳定性
关于大模型的应用场景,可以分为基层:由上至下可以分为
应用层--> 能力层-->模型层-->云原生层-->基础设施层
或者简单归结为 :应用层,模型层,算力层
从测试的质量保障角度触发,测试关注的三大部分:质量,效率,稳定性,那么针对不同层级的大模型的稳定性保障,可以做什么呢?
问了下chatGpt ,回答还是很全面的:
- 应用层
- 能力层
- 模型层
备注:
1. 正确率 = 提取出的正确信息条数 / 提取出的信息条数
2. 召回率 = 提取出的正确信息条数 / 样本中的信息条数
3. F值 = 正确率 * 召回率 * 2 / (正确率 + 召回率) (F 值即为正确率和召回率的调和平均值)
- 云原生
- 基础设施层
3. 测试领域的AI 的应用场景
软件测试领域的AI 运用实例,有一些应用场景:
3.1. 代码层面
- 代码质量分析分析
- 代码性能瓶颈分析即优化建议
- 代码缺陷分析定位
3.2. 用例层面
- 智能生成用例
- 报告生成
- 针对失败的自动化用例完成缺陷分析
- 自动化用例脚本生成
3.3. 工具层面
- 负载模拟与分析
- 定制化工具开发
- 数据分析与验证
- 测试数据生成
- 知识库问答
3.4. 流程层面
- CI / CD 流程中的测试自动化
4. 内部的AI在测试领域的实践
目前在所在的质量部门在AI 测试这块没看到有特别好的实践,但是在质量,效率提升,稳定性这块都有一些相关的实践:
- UI 自动化用例执行的图像diff,图像智能识别算法
- 资金稳定性的通过AI 推荐来写离线数据核对SQL脚本
- 造数平台结合AI 推荐造数脚本及智能造数
- 网站多语言错翻漏翻治理,训练数据来源于网站正确翻译页面截图
- 通过AI 对海量日志信息进行抽取,辅助网站用户体验提升
- 通过AI 快速生成功能测试用例,UI 自动化用例
4.1. 造数工具交互式生成
4.1.1. 问题背景
造数平台各种造数脚本数量大,且脚本质量参差不齐,调用脚本需要填写的参数也会存在非常繁琐的地方,对于新用户来说,没法快速解决自己的数据诉求,可以结合内部私域知识库,借助打磨西,通过自然语言交互的形式快速达成造数诉求。
关于其中的几点技术实现:
1、向量数据库
其中代码实现里面用到了 Chroma 向量数据库 ,它为复杂的数据处理和检索提供了所需要的基础架构
2、实践中关于私域知识的训练方案选项:
1)通过往prompt 设计里面进行知识灌入
2)自己训练支持微调的大语言模型 ,自己准备训练集
4、构建知识向量库:
可以参考这篇文章:
基于大语言模型知识问答应用落地实践 – 知识库构建(上) | 亚马逊AWS官方博客
4.2. 智能离线核对脚本生成
4.2.1. 实现方案
通过在提示词里面输入数据库表各字段的描述,表名,以及离线核对编写的一些特殊规则规范等放到prompt里面,通过输入自然语言,让大模型根据语义输出相关的组装好的SQL语句,减少人工编写离线核对的成本,研发测试人员可以根据大模型返回的sql语句做进一步调优或者直接采纳,也可以通过大模型去判断人工编写的sql 是否有优化的空间或者语法是否正确。
4.3. 多语言错翻漏翻检测
4.3.1. 实现方案
下单页面涉及到十几个国家语言切换翻译,页面翻译正确友好与否直接影响了用户下单支付的成功率。国际站核心页面繁多,场景多,端类型多,如果依靠人工的方式去一一核对工作量巨大且容易造成遗漏;为此 可以通过先人工截取不同语种正确翻译的网页截图,然后以此作数预料库对大模型进行内部数据的训练,在通过训练好的模型对页面进行扫描检测网页漏翻错翻问题。
4.4. AI 辅助网站体验优化升级
4.4.1. 问题背景:
对于和用户直接交互的页面体验,例如核心商详加购下单支付流程,体验是否良好,不同的国家多语言页面是否能够让用户顺畅下单,没有异常,需要人工走查和日志监控相结合,但是人工走查成本非常高且异常场景覆盖有限,日志有些页面上直接就报错导致买家无法正常下单,两种方式都有其缺陷,故可以考虑结合AI 来辅助网站功能走查。
AI 最大的能力就是对抽象问题的归纳推理,通过借助AI 归纳推理的能力,通过日志的关键信息提取后进行业务信息补全,(日志检索增强),然后对问题现象进行归纳过滤后进行特征提取 ,对于没有任何错误日志的情况,基于用户的行为来归纳用户在网页遇到的卡点问题,其中也存在不足的地方就是准确率有待提升,另外一个就是大模型的调用成本过高,收益产出比不够平衡。
更多推荐
所有评论(0)