腾讯云智聆口语评测音频上传格式-教育服务解决方案

音频文件规范

腾讯云智聆口语评测(Smart Oral Evaluation,SOE)在流式或非流式评测下都需要开发者按以下格式上传音频数据:注意:1. 需要满足音频属性,如有不一致,可能导致评估不准确或失败。2. 比特率的控制模式推荐使用 CBR,固定码率。

音频文件格式 音频压缩格式 采样率(sample rate) 声道(channels) 位深(bit depth) 比特率(bit rate)
pcm pcm 16kHz 单声道 16bit 256kbps以上
wav
mp3 MP3 32kbps以上
speex speex 24kbps以上

音频格式转换

使用第三方转码工具 ffmpeg 进行转码,安装 ffmpeg,在命令行进行转码操作。常用命令如下:

wav 转 mp3

ffmpeg -i "input.mp4" -vn -acodec libmp3lame -ar 16k -ac 1  -b:a 48k "output.mp3" -y

mp4 转 mp3

ffmpeg -i "input.mp4" -vn -acodec libmp3lame -ar 16k -ac 1  -b:a 48k "output.mp3" -y

mp3/pcm 转 wav

ffmpeg -i "input.mp3" -acodec pcm_s16le -ar 16k -ac 1 "output.wav" -y

wav 转 pcm

ffmpeg -i "input.wav" -f s16le -ar 16k -ac 1 "output.pcm" -y

参数描述

参数 说明
ffmpeg ffmpeg 命令
-i input.wav -i 输入音频文件名
-vn 关闭视频流。用于视频转音频
-acodec libmp3lame 设置音频codec为 libmp3lame。将文件转换为mp3格式。
-acodec pcm_s16le 设置音频codec为 pcm_s16le。将文件转换为wav格式,位深16bit。
-f s16le 设置文件格式为 s16le(pcm小端)。
-ar 16k 设置采样率为16k(hz)
-ac 1 设置音频通道数为1(单声道)
-b:a 48k 设置比特率为48k(kb/s)
output.mp3 输出转码后的音频文件
-y 输出文件存在时,无需询问,直接覆盖输出文件。

音频信息获取

使用第三方转码工具 FFmpeg 进行转码,安装 ffmpeg后,在命令行进行音频信息获取操作。常用命令如下:

ffprobe  -i 'out.wav' -v quiet  -of json -show_format -show_streams 
参数 说明
ffprobe ffmpeg 命令。ffprobe包含在ffmpeg中
-i input.wav -i 输入音频文件名
-v quiet 设置日志级别为 quiet
-of json 设置输出打印格式为 json
-show_format 设置显示输入多媒体流的容器格式信息
-show_streams 设置显示输入多媒体流中每一个流的信息



腾讯云官网1折活动,限时活动,即将结束,速速收藏
同尘科技为腾讯云授权服务中心。
购买腾讯云产品享受折上折,更有现金返利。同意关联立享优惠

发表评论