简单通过SenseVoice给自己配置一个语音转文字服务

本文介绍了在Mac电脑上部署SenseVoice语音转文字服务的步骤。首先通过Git克隆项目代码，然后创建Dockerfile配置Python环境和依赖项（采用CPU版本的PyTorch）。启动容器后映射7860端口即可访问服务。对于苹果设备的音频文件，建议使用ffmpeg将.m4a格式转换为.wav格式后再进行处理。整个过程实现了从代码下载到服务部署的完整流程，适用于无GPU环境的Mac用户。

oe1019

382人浏览 · 2025-06-21 18:38:31

oe1019 · 2025-06-21 18:38:31 发布

首先把代码下载下来
git@github.com:FunAudioLLM/SenseVoice.git

然后写一个docker文件

FROM ubuntu:latest

RUN apt-get update -y
RUN apt-get install -y python3-full python3-pip 
RUN mkdir -p /SenseVoice
WORKDIR /SenseVoice
RUN python3 -m venv .
ENV USE_CUDA=0
EXPOSE 7860
ENV GRADIO_SERVER_NAME="0.0.0.0"
RUN ./bin/pip install torch==2.3.0 torchvision==0.18.0 torchaudio==2.3.0 --index-url https://download.pytorch.org/whl/cpu
COPY . .
RUN ./bin/pip install -r requirements.txt

由于这里我是Mac电脑不带GPU，所以就用了pytorch的不带GPU的安装模式，如果需要对应GPU的安装方式，可以去pytorch官网看。

第三部，启动容器，把7860端口映射。启动，就可以在http://localhost:7860/?上看到服务了。
在这里插入图片描述
然后就可以录音，通过录音进行转换了。考虑我是苹果全家桶，苹果语音转文字的情况使用。

 ./ffmpeg -i test.m4a output.wav

技术共进，成长同行——讯飞AI开发者社区

更多推荐

AI智能体—人工智能工作流与人工智能智能体：真正的区别是什么？

本文探讨了人工智能工作流与智能体的核心区别。工作流是静态、可预测的执行序列（如预处理→嵌入→搜索→总结），适合批处理作业；而智能体能动态感知环境、自主决策（感知→推理→决策循环），具备适应性和工具选择能力。关键差异在于：工作流遵循固定路径，智能体则能根据目标调整策略。架构上，工作流使用Airflow等工具，智能体依赖LangChain等框架。智能体的自主性使其更适用于动态环境，代表下一代AI应用方