java语音api_【百度语音识别】JavaAPI方式语音识别示例MP3转PCM

【百度语音识别】JavaAPI方式语音识别示例MP3转PCMJava-API合成语音示例:http://ai.baidu.com/forum/topic/show/496727REST-API文档地址：http://ai.baidu.com/docs#/TTS-API/top注意：需要下载MP3插件jar。才可以进行MP3CONVERTPCM链接:https://pan.baidu.com/...

小猪丢丢zd

316人浏览 · 2021-02-17 01:49:58

小猪丢丢zd · 2021-02-17 01:49:58 发布

【百度语音识别】JavaAPI方式语音识别示例MP3转PCM

Java-API合成语音示例:http://ai.baidu.com/forum/topic/show/496727

REST-API文档地址：http://ai.baidu.com/docs#/TTS-API/top

注意：需要下载MP3插件jar。才可以进行MP3CONVERTPCM 链接: https://pan.baidu.com/s/1i5pJxpb 密码: 8w4x

遇到的坑：HTTPUtil工具类中。不需要拼接access_token参数。大家注意一下。ContentType也改一下。

----------------------------------开始代码示例----------------------------------

MP3转PCM的方法需要下载注意的jar才可以正确转换哦

第一步就是语音合成的MP3文件转换PCM格式文件

package com.xs.audio.tns;

import java.io.File;

import java.io.FileOutputStream;

import java.io.OutputStream;

import javax.sound.sampled.AudioFormat;

import javax.sound.sampled.AudioInputStream;

import javax.sound.sampled.AudioSystem;

/**

* MP3转PCM Java方式实现

* @author 小帅丶

* @date 2017年12月6日

public class MP3ConvertPCM {

/**

* MP3转换PCM文件方法

* @param mp3filepath 原始文件路径

* @param pcmfilepath 转换文件的保存路径

* @throws Exception

public static void mp3Convertpcm(String mp3filepath,String pcmfilepath) throws Exception{

File mp3 = new File(mp3filepath);

File pcm = new File(pcmfilepath);

//原MP3文件转AudioInputStream

AudioInputStream mp3audioStream = AudioSystem.getAudioInputStream(mp3);

//将AudioInputStream MP3文件转换为PCM AudioInputStream

AudioInputStream pcmaudioStream = AudioSystem.getAudioInputStream(AudioFormat.Encoding.PCM_SIGNED, mp3audioStream);

//准备转换的流输出到OutputStream

OutputStream os = new FileOutputStream(pcm);

int bytesRead = 0;

byte[] buffer = new byte[8192];

while ((bytesRead=pcmaudioStream.read(buffer, 0, 8192))!=-1) {

os.write(buffer, 0, bytesRead);

}

os.close();

pcmaudioStream.close();

}

HttpUtil工具类新增加一个postASR的方法

/**

* 获取语音识别内容

* @param requestUrl

* @param params

* @return

* @throws Exception

public static String postASR(String requestUrl, String params) throws Exception {

System.out.println(params);

String generalUrl = requestUrl;//这里不需要对接口地址拼接access_token参数切记！！！

System.out.println("发送的连接为:"+generalUrl);

URL url = new URL(generalUrl);

// 打开和URL之间的连接

HttpURLConnection connection = (HttpURLConnection) url.openConnection();

System.out.println("打开链接，开始发送请求"+new Date().getTime()/1000);

connection.setRequestMethod("POST");

// 设置通用的请求属性

connection.setRequestProperty("Content-Type", "application/json");

connection.setRequestProperty("Connection", "Keep-Alive");

connection.setUseCaches(false);

connection.setDoOutput(true);

connection.setDoInput(true);

// 得到请求的输出流对象

DataOutputStream out = new DataOutputStream(connection.getOutputStream());

out.writeBytes(params);

out.flush();

out.close();

// 建立实际的连接

connection.connect();

// 获取所有响应头字段

Map> headers = connection.getHeaderFields();

// 遍历所有的响应头字段

for (String key : headers.keySet()) {

System.out.println(key + "--->" + headers.get(key));

}

// 定义 BufferedReader输入流来读取URL的响应

BufferedReader in = null;

if (requestUrl.contains("nlp"))

in = new BufferedReader(new InputStreamReader(connection.getInputStream(), "GBK"));

else

in = new BufferedReader(new InputStreamReader(connection.getInputStream(), "UTF-8"));

String result = "";

String getLine;

while ((getLine = in.readLine()) != null) {

result += getLine;

}

in.close();

System.out.println("请求结束"+new Date().getTime()/1000);

System.out.println("result:" + result);

return result;

}

下面就是语音识别的示例代码哦

package com.xs.audio.tns;

import java.io.File;

import java.util.HashMap;

import com.xs.util.baidu.Base64Util;

import com.xs.util.baidu.FileUtil;

import com.xs.util.baidu.HttpUtil;

import com.xs.util.baidu.RandomStringGenerator;

/**

* 语音识别Java-API JSON上传方式示例代码

* @author 小帅丶

public class Audio2Text {

//接口地址

private static final String AUDIO2TEXT_URL = "http://vop.baidu.com/server_api";

public static void main(String[] args) throws Exception {

//合成的MP3语音文件

String path = "C:/Users/Administrator/text2audio/VOICE1512521962.mp3";

//MP3转pcm要保存的路径和文件名

String path2 = "C:/Users/Administrator/text2audio/VOICE1512521962.pcm";

MP3ConvertPCM.mp3Convertpcm(path, path2);

// 对语音二进制数据进行识别

byte[] data = FileUtil.readFileByBytes(path2); //readFileByBytes仅为获取二进制数据示例

String speech = Base64Util.encode(data);

File file = new File(path2);

long len = file.length();

String result = Audio2text("pcm", 16000,RandomStringGenerator.getRandomStringByLength(60),"自己获取的AccessToken", speech, len);

System.out.println(result);

}

/**

* JSON方式上传

* @param format必填语音文件的格式，pcm 或者 wav 或者 amr。不区分大小写。推荐pcm文件

* @param rate必填采样率， 8000 或者 16000，推荐 16000 采用率

* @param channel必填声道数，仅支持单声道，请填写固定值 1

* @param cuid必填用户唯一标识，用来区分用户，计算UV值。建议填写能区分用户的机器 MAC 地址或 IMEI 码，长度为60字符以内。

* @param token必填开放平台获取到的access_token, 见上面的“鉴权认证机制”段落

* @param lan选填语种选择，默认中文(zh)。中文=zh、粤语=ct、英文=en，不区分大小写

* @param url选填可下载的语音下载地址，与callback连一起使用，确保百度服务器可以访问。

* @param callback选填用户服务器的识别结果回调地址，确保百度服务器可以访问

* @param speech选填本地语音文件的的二进制语音数据，需要进行base64 编码。与len参数连一起使用。

* @param len选填本地语音文件的的字节数，单位字节

public static String Audio2text(String format,Integer rate,String cuid,String token,String speech,long len) throws Exception{

HashMap paramMap = new HashMap();

paramMap.put("speech",speech);

paramMap.put("format", format);

paramMap.put("rate", rate);

paramMap.put("channel",1);

paramMap.put("cuid",cuid);

paramMap.put("token", token);

paramMap.put("len", len);

net.sf.json.JSONObject params = net.sf.json.JSONObject.fromObject(paramMap);

String data = HttpUtil.postASR(AUDIO2TEXT_URL,params.toString());

System.out.println("语音文件识别的内容:"+data);

return data;

}

看看返回的内容

{

"corpus_no": "6496262443167631439",

"err_msg": "success.",

"err_no": 0,

"result": [

"开发者小帅你好，"

"sn": "74778487111512528965"

}

MP3转PCM。使用MP3SPI第三方jar 可以Maven引入

com.googlecode.soundlibs

mp3spi

1.9.5.4

使用mp3spi进行转换的代码

package com.xs.audio.tns;

import java.io.File;

import javax.sound.sampled.AudioFileFormat;

import javax.sound.sampled.AudioFormat;

import javax.sound.sampled.AudioInputStream;

import javax.sound.sampled.AudioSystem;

import javax.sound.sampled.DataLine;

import javax.sound.sampled.SourceDataLine;

import javazoom.spi.mpeg.sampled.file.MpegAudioFileReader;

/**

* MP3转PCM方法

* @author 小帅丶

public class MP3ConvertPCMBySPI {

public static void main(String[] args) {

String path = "C:/Users/Administrator/text2audio/VOICE1513237078";

String mp3filepath = path + ".mp3";

String pcmfilepath = path + ".pcm";

try {

MP3ConvertPCMBySPI.convertMP32PCM(mp3filepath, pcmfilepath);

} catch (Exception e) {

e.printStackTrace();

}

/**

* MP3转换PCM文件方法

* @param mp3filepath 原始文件路径

* @param pcmfilepath 转换文件的保存路径

* @throws Exception

public static void convertMP32PCM(String mp3filepath, String pcmfilepath) throws Exception {

//转换PCM audioInputStream 数据

AudioInputStream audioInputStream = getPcmAudioInputStream(mp3filepath);

//写入PCM预给定的文件

AudioSystem.write(audioInputStream, AudioFileFormat.Type.WAVE, new File(pcmfilepath));

}

/**

* 获取PCM AudioInputStream 数据

* @param mp3filepath

* @return AudioInputStream

private static AudioInputStream getPcmAudioInputStream(String mp3filepath) {

File mp3File = new File(mp3filepath);

AudioInputStream audioInputStream = null;

AudioFormat targetFormat = null;

try {

AudioInputStream in = null;

MpegAudioFileReader mp = new MpegAudioFileReader();

in = mp.getAudioInputStream(mp3File);

AudioFormat baseFormat = in.getFormat();

targetFormat = new AudioFormat(AudioFormat.Encoding.PCM_SIGNED, baseFormat.getSampleRate(), 16,

baseFormat.getChannels(), baseFormat.getChannels() * 2, baseFormat.getSampleRate(), false);

audioInputStream = AudioSystem.getAudioInputStream(targetFormat, in);

} catch (Exception e) {

e.printStackTrace();

}

return audioInputStream;

}

/**

* 播放MP3方法

* @param mp3filepath

* @throws Exception

public static void playMP3(String mp3filepath) throws Exception {

File mp3 = new File(mp3filepath);

// 播放

int k = 0, length = 8192;

AudioInputStream audioInputStream = getPcmAudioInputStream(mp3filepath);

if (audioInputStream == null)

System.out.println("null audiostream");

AudioFormat targetFormat;

targetFormat = audioInputStream.getFormat();

byte[] data = new byte[length];

DataLine.Info dinfo = new DataLine.Info(SourceDataLine.class, targetFormat);

SourceDataLine line = null;

try {

line = (SourceDataLine) AudioSystem.getLine(dinfo);

line.open(targetFormat);

line.start();

int bytesRead = 0;

byte[] buffer = new byte[length];

while ((bytesRead = audioInputStream.read(buffer, 0, length)) != -1) {

line.write(buffer, 0, bytesRead);

}

audioInputStream.close();

line.stop();

line.close();

} catch (Exception ex) {

ex.printStackTrace();

System.out.println("audio problem " + ex);

}

以上就是语音识别Java-API调用示例代码哦。难点是MP3转PCM会卡壳开发者们。

技术共进，成长同行——讯飞AI开发者社区

更多推荐

【人工智能通识专栏】第五讲：DeepSeek插件

讯飞AI开发者社区

【人工智能】提示词进阶：用“思维链（CoT）”让大模型更擅长逻辑推理

讯飞AI开发者社区

D.20.10.01-人工智能与AI实践

人工智能（AI）是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。随着大语言模型的崛起，AI正从感知智能向认知智能迈进，其核心目标是让机器能够胜任一些通常需要人类智能才能完成的复杂工作，并具备推理、创造和决策能力。

讯飞AI开发者社区

所有评论(0)

查看更多评论

小猪丢丢zd

@weixin_30030255

已为社区贡献1条内容