功能腾讯智能语音产品提供多场景强大功能,满足不同类型开发者需求。语音识别分为三种服务,您可以根据使用场景进行选择:
实时语音识别对长音频流进行识别,支持智能断句,实时识别为文字。
适用于持续时间较长、有一定实时性要求的场景,例如语音输入、会议现场记录、电话会议记录、会场字幕、直播内容审核、视频直播字幕、智慧法庭记录、客服通话内容记录等场景。
语言和方言:语音识别服务目前支持中文普通话,和带有一定方言口音的普通话识别;实时语音识别还可以支持英文16k音频识别。
音频格式支持:支持16bit、8k或16k的单声道中文音频识别;支持16bit 16k单声道英文音频识别;支持音频格式为wav、pcm、sppex、silk。
音频数据长度支持:每个数据包的音频分片最大不能超过200k。
一句话识别对60秒之内的实时短音频流进行识别,可应用于运营活动,和各种语音交互场景,例如语音输入、语音短信、语音搜索、智能硬件和智能语音助手的语音指令等。
语言和方言:语音识别服务目前支持中文普通话,和带有一定方言口音的普通话识别。
音频格式支持:支持16bit、8k或16k的单声道中文音频识别;支持音频格式为wav、mp3。
音频数据长度支持:若采用直接上传音频数据方式,整个数据包不能大于1 m,若采用上传音频url方式,整个音频时长不能大于60s。
录音文件识别对录音文件进行识别,适用于语音量大、对实时性要求低的场景,例如客服质检、视频字幕生成、音频节目字幕生成等。
音频格式支持:支持16bit、8k或者16k的单声道或双声道的中文音频识别;支持音频格式为wav、pcm、mp3、silk、speex、amr。
音频数据长度支持:若采用直接上传音频数据方式,则音频数据不能大于5m,若采用上传url方式,则音频时长不能大于1小时。
注意如超出当天免费策略上限,您可以 提交工单 联系我们处理。
相关产品:语音识别asr , 活体检测 , 腾讯云
昆山昱唯网络科技有限公司
17601404160