最近在B站还有各大网站找了一圈和大模型相关的测试领域的视频文章,新兴领域,参考屈指可数,要不就是要交钱的培训营,大概是在AI 大模型的落地运用层面,开发和测试并没有特别明确的细分,一般如果公司在Agent智能体层面的产品落地,测试可能更关注的是UI 层面的功能测试,而内部的算法测试大概是开发在微调的过程中就已经自行覆盖到了。

1. AI结合测试市场诉求:

看了一下人家的培训课程的内容,基本上关于人工智能的底层原理是是一个模块,另外一块就是应用层面,在智能生成用例,自动生成UI 测试用例,接口测试用例,构建大规模数据这部分会比较多一下

看了下网站关于AI 测试一些招聘岗位,感觉岗位诉求并不多,要不就是传统的一些测试岗位的要求, 主要有几点

  • 结合AI 技术建设内部提效平台
  • AI 大模型训练的性能测试
  • AI 框架评测体系构建

其中要求的测试人员需要具备的技能有

  • 拥有机器学习,NLP ,人工智能领域的专业知识
  • 懂python ,很多大模型应用的开源项目,基本都是用的python实现的

2. 大模型测试稳定性

关于大模型的应用场景,可以分为基层:由上至下可以分为

应用层--> 能力层-->模型层-->云原生层-->基础设施层

或者简单归结为 :应用层,模型层,算力层

从测试的质量保障角度触发,测试关注的三大部分:质量,效率,稳定性,那么针对不同层级的大模型的稳定性保障,可以做什么呢?

问了下chatGpt ,回答还是很全面的:

  • 应用层

  • 能力层

  • 模型层

备注:

1. 正确率 = 提取出的正确信息条数 / 提取出的信息条数

2. 召回率 = 提取出的正确信息条数 / 样本中的信息条数

3. F值 = 正确率 * 召回率 * 2 / (正确率 + 召回率) (F 值即为正确率和召回率的调和平均值)

  • 云原生

  • 基础设施层

3. 测试领域的AI 的应用场景

软件测试领域的AI 运用实例,有一些应用场景:

3.1. 代码层面

  • 代码质量分析分析
  • 代码性能瓶颈分析即优化建议
  • 代码缺陷分析定位

3.2. 用例层面

  • 智能生成用例
  • 报告生成
  • 针对失败的自动化用例完成缺陷分析
  • 自动化用例脚本生成

3.3. 工具层面

  • 负载模拟与分析
  • 定制化工具开发
  • 数据分析与验证
  • 测试数据生成
  • 知识库问答

3.4. 流程层面

  • CI / CD 流程中的测试自动化

4. 内部的AI在测试领域的实践

目前在所在的质量部门在AI 测试这块没看到有特别好的实践,但是在质量,效率提升,稳定性这块都有一些相关的实践:

  • UI 自动化用例执行的图像diff,图像智能识别算法
  • 资金稳定性的通过AI 推荐来写离线数据核对SQL脚本
  • 造数平台结合AI 推荐造数脚本及智能造数
  • 网站多语言错翻漏翻治理,训练数据来源于网站正确翻译页面截图
  • 通过AI 对海量日志信息进行抽取,辅助网站用户体验提升
  • 通过AI 快速生成功能测试用例,UI 自动化用例

4.1. 造数工具交互式生成

4.1.1. 问题背景

造数平台各种造数脚本数量大,且脚本质量参差不齐,调用脚本需要填写的参数也会存在非常繁琐的地方,对于新用户来说,没法快速解决自己的数据诉求,可以结合内部私域知识库,借助打磨西,通过自然语言交互的形式快速达成造数诉求。

关于其中的几点技术实现:

1、向量数据库

其中代码实现里面用到了 Chroma 向量数据库 ,它为复杂的数据处理和检索提供了所需要的基础架构

2、实践中关于私域知识的训练方案选项:

1)通过往prompt 设计里面进行知识灌入

2)自己训练支持微调的大语言模型 ,自己准备训练集

4、构建知识向量库:

可以参考这篇文章:

基于大语言模型知识问答应用落地实践 – 知识库构建(上) | 亚马逊AWS官方博客

4.2. 智能离线核对脚本生成

4.2.1. 实现方案

通过在提示词里面输入数据库表各字段的描述,表名,以及离线核对编写的一些特殊规则规范等放到prompt里面,通过输入自然语言,让大模型根据语义输出相关的组装好的SQL语句,减少人工编写离线核对的成本,研发测试人员可以根据大模型返回的sql语句做进一步调优或者直接采纳,也可以通过大模型去判断人工编写的sql 是否有优化的空间或者语法是否正确。

4.3. 多语言错翻漏翻检测

4.3.1. 实现方案

下单页面涉及到十几个国家语言切换翻译,页面翻译正确友好与否直接影响了用户下单支付的成功率。国际站核心页面繁多,场景多,端类型多,如果依靠人工的方式去一一核对工作量巨大且容易造成遗漏;为此 可以通过先人工截取不同语种正确翻译的网页截图,然后以此作数预料库对大模型进行内部数据的训练,在通过训练好的模型对页面进行扫描检测网页漏翻错翻问题。

4.4. AI 辅助网站体验优化升级

4.4.1. 问题背景:

对于和用户直接交互的页面体验,例如核心商详加购下单支付流程,体验是否良好,不同的国家多语言页面是否能够让用户顺畅下单,没有异常,需要人工走查和日志监控相结合,但是人工走查成本非常高且异常场景覆盖有限,日志有些页面上直接就报错导致买家无法正常下单,两种方式都有其缺陷,故可以考虑结合AI 来辅助网站功能走查。

AI 最大的能力就是对抽象问题的归纳推理,通过借助AI 归纳推理的能力,通过日志的关键信息提取后进行业务信息补全,(日志检索增强),然后对问题现象进行归纳过滤后进行特征提取 ,对于没有任何错误日志的情况,基于用户的行为来归纳用户在网页遇到的卡点问题,其中也存在不足的地方就是准确率有待提升,另外一个就是大模型的调用成本过高,收益产出比不够平衡。

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐