自建语音 / 视频转文本服务

基于 SenseVoice 模型,支持中/英/日/韩/粤五种语言。数据全程留在你的服务器,通过 API 供其他项目调用。

音频转写

上传 MP3/WAV/FLAC 等音频文件,返回识别文本和时间戳分段。支持超长音频自动切分。

视频转写

上传 MP4/MKV/MOV 等视频文件,自动提取音轨并转写。原始视频不保存,只留提取音频。

YouTube 链接

粘贴链接自动转写。官方字幕优先几秒完成,无字幕自动走 ASR 兜底,同时生成 MP3 永久保留。

实时流式

通过 WebSocket 发送 PCM 音频帧,VAD 自动分段,逐句返回识别结果,延迟 ≤ 3 秒。

API 速览

所有请求需携带 Authorization: Bearer sk-xxx 头。在管理后台创建 API Key。

方法 路径 说明
POST /api/v1/audio/transcribe 上传音频文件转写(同步)
POST /api/v1/video/transcribe 上传视频文件转写(同步)
POST /api/v1/youtube/transcribe 提交 YouTube 链接(异步,立即返回 id)
GET /api/v1/transcriptions/{id} 查询任务状态、进度、结果
GET /api/v1/transcriptions/{id}/mp3 下载 YouTube 任务生成的 MP3
WSS /api/v1/stream/transcribe WebSocket 实时流式转写
GET /api/v1/health 服务健康检查(无需认证)
curl -X POST https://asr2.llll.im/api/v1/audio/transcribe \
  -H "Authorization: Bearer sk-your-api-key" \
  -F "file=@recording.mp3"

在线试用

Key 会自动保存在浏览器本地,下次无需重复输入

点击选择或拖拽文件到此处

识别结果
选择模式后开始试用