语音合成
POST
/ent/v2/audio-tts
- 官方文档: https://platform.vidu.cn/docs/speech-synthesis
- 语音合成,返回 task_id 或任务详情
- 使用请求参数控制生成行为
Authorizations
bearer
Type
HTTP (bearer)
Request Body
application/json
text
string
Required
需要合成语音的文本
- 长度限制小于 10000 字符
- 段落切换用换行符标记
- 停顿控制:支持自定义文本之间的语音时间间隔,以实现自定义文本语音停顿时间的效果。
- 使用方式:在文本中增加<#x#>标记,x 为停顿时长(单位:秒),范围 [0.01, 99.99],最多保留两位小数。文本间隔时间需设置在两个可以语音发音的文本之间,不可连续使用多个停顿标记
- 示例:你好<#2#>我是vidu<#2#>很高兴见到你
voice_setting_voice_id
string
Required
合成音频的音色id
可查看音色列表查询全部可用音色:https://shengshu.feishu.cn/sheets/EgFvs6DShhiEBStmjzccr5gonOg
voice_setting_speed
string
语速,默认为1.0
1.0为正常语速,范围 [0.5,2],值为0.5时播报语速最慢,值为2时播报语速最快
voice_setting_volume
string
音量大小
范围 0 - 10,默认为0,代表正常音量,值越大音量越高
voice_setting_pitch
string
合成音频的语调
范围 [-12,12],默认 0,其中 0 为原音色输出
voice_setting_emotion
string
控制合成语音的情绪
- 参数范围 ["happy", "sad", "angry", "fearful", "disgusted", "surprised", "calm"],分别对应 7 种情绪:高兴,悲伤,愤怒,害怕,厌恶,惊讶,中性
- 模型会根据输入文本自动匹配合适的情绪,一般无需手动指定
pronunciation_dict_tone
string
定义多音字发音
- 定义需要特殊标注的文字或符号对应的注音或发音替换规则,针对多音字场景,在中文文本中,声调用数字表示:一声为 1;二声为 2;三声为 3;四声为 4;轻声为 5。
- 示例如下:
["燕少飞/(yan4)(shao3)(fei1)", "达菲/(da2)(fei1)", "omg/oh my god"]
payload
string
透传参数
不做任何处理,仅数据传输
注:最多 1048576个字符
Responses
成功
application/json
object
task_id
string
Required
state
string
Required
model
string
Required
prompt
string
Required
duration
integer
Required
seed
integer
Required
created_at
string
Required
credits
integer
Required