Spring AI项目Open AI语音转文本指导

【代码】Spring AI项目Open AI对话接口开发指导。

缘友一世

1070人浏览 · 2024-05-14 11:51:22

缘友一世 · 2024-05-14 11:51:22 发布

文章目录

创建Spring AI项目
配置项目pom和application文件
controller接口开发
结果测试

创建Spring AI项目

打开IDEA创建一个新的spring boot项目，填写项目名称和位置，类型选择maven，组、工件、软件包名称可以自定义，JDK选择17+即可，java语言标准和JDK相同即可
配置Spring Boot版本和开发所需的依赖，主要如下图所示
- Spring Boot版本可以选择3.2.5或者更高的版本（作者使用3.2.5和3.2.6(SNAPSHOT)可以正常开发）
- Spring Boot DevTools：spring项目热部署工具，修改完代码（不含application和pom配置文件）即刻热部署项目
- Lombok：通过配置快速配置对象的get、set、toString
- Spring AI：Spring AI是一个用于AI工程的应用框架
创建完成后，项目结构大体如下(这里删除了无用的maven文件内容、修改application的文件格式为yaml)

配置项目pom和application文件

注意：修改pom文件，重新下载spring ai依赖需要科学上网，请确保网络连接没有问题

打开项目的pom文件，修改spring ai的版本（项目默认使用稳定版0.8.1）
- 主要注意默认的spring ai版本和配置依赖jar包仓库（maven仓库中还没有spring ai的依赖）

<properties>
    <java.version>21</java.version>
    <spring-ai.version>0.8.1</spring-ai.version>
</properties>

<repositories>
    <repository>
        <id>spring-snapshots</id>
        <name>Spring Snapshots</name>
        <url>https://repo.spring.io/snapshot</url>
        <releases>
            <enabled>false</enabled>
        </releases>
    </repository>
    <repository>
        <id>spring-milestones</id>
        <name>Spring Milestones</name>
        <url>https://repo.spring.io/milestone</url>
        <snapshots>
            <enabled>false</enabled>
        </snapshots>
    </repository>
</repositories>

<pluginRepositories>
    <pluginRepository>
        <id>spring-snapshots</id>
        <name>Spring Snapshots</name>
        <url>https://repo.spring.io/snapshot</url>
        <releases>
            <enabled>false</enabled>
        </releases>
    </pluginRepository>
</pluginRepositories>

配置application文件（api-key的获取参考Spring AI开发前期开发指导）

spring:
  application:
    name: ChatImage
  ai:
    openai:
      api-key: hk-xxx
      base-url: https://api.openai-hk.com #请根据自己的api-key自定义配置
server:
  port: 8082

controller接口开发

可以自己选择flac格式的语音文件，然后采用免费在线剪切 FLAC 文件工具裁剪一段内容，错位素材进行测试文件

package com.yang.chattranscription.controller;

import jakarta.annotation.Resource;
import org.springframework.ai.openai.OpenAiAudioTranscriptionClient;
import org.springframework.ai.openai.OpenAiAudioTranscriptionOptions;
import org.springframework.ai.openai.api.OpenAiAudioApi;
import org.springframework.ai.openai.audio.transcription.AudioTranscriptionPrompt;
import org.springframework.ai.openai.audio.transcription.AudioTranscriptionResponse;
import org.springframework.core.io.ClassPathResource;
import org.springframework.web.bind.annotation.GetMapping;
import org.springframework.web.bind.annotation.RestController;


@RestController
public class TranscriptionController {
    @Resource
    private OpenAiAudioTranscriptionClient client;

    @GetMapping("/ai/transcript")
    public String transcription(){
        ClassPathResource resource = new ClassPathResource("半生雪_out.flac");
        OpenAiAudioTranscriptionOptions transcriptionOptions = OpenAiAudioTranscriptionOptions.builder()
                .withResponseFormat(OpenAiAudioApi.TranscriptResponseFormat.TEXT)
                .withTemperature(0f)
                .withModel("whisper-1")
                .build();
        AudioTranscriptionPrompt transcriptionRequest = new AudioTranscriptionPrompt(resource, transcriptionOptions);
        AudioTranscriptionResponse response = client.call(transcriptionRequest);
        System.out.print(response.getResult().getOutput());
        return response.getResult().getOutput();
    }
}

结果测试

发送请求http://localhost:8082/ai/transcript，由于素材取自歌曲，部分音乐被识别成了英语，但是中文内容识别度很好

技术共进，成长同行——讯飞AI开发者社区

更多推荐

1747张YOLO标注奶牛水牛识别数据集：精准标注跨场景动物检测模型训练专用计算机视觉数据集，助力智慧农业与畜牧业AI算法研发

讯飞AI开发者社区

YOLOv8【卷积创新篇·第25节】Capsule Network胶囊卷积网络：让检测器拥有“空间想象力”！

讯飞AI开发者社区

YashanDB在医疗行业的应用与机遇

随着医疗行业数据规模的持续扩展和智能医疗应用的深化，数据库系统的性能和可靠性成为医疗信息化的核心竞争力。未来，随着医疗场景对人工智能、大数据实时分析等技术的不断融合，YashanDB将持续深化HTAP能力，增强分布式协作与资源整合能力，通过不断优化系统性能和安全保障，推动医疗行业数据管理水平的全面提升，为智慧医疗服务的广泛应用奠定坚实基础。YashanDB在医疗行业中，基于强大的逻辑架构，实现了客