Skip to content

语音合成

POST
/ent/v2/audio-tts
  • 官方文档: https://platform.vidu.cn/docs/speech-synthesis
  • 语音合成,返回 task_id 或任务详情
  • 使用请求参数控制生成行为

Authorizations

bearer
Type
HTTP (bearer)

Request Body

application/json
object

需要合成语音的文本

  1. 长度限制小于 10000 字符
  2. 段落切换用换行符标记
  3. 停顿控制:支持自定义文本之间的语音时间间隔,以实现自定义文本语音停顿时间的效果。
  • 使用方式:在文本中增加<#x#>标记,x 为停顿时长(单位:秒),范围 [0.01, 99.99],最多保留两位小数。文本间隔时间需设置在两个可以语音发音的文本之间,不可连续使用多个停顿标记
  • 示例:你好<#2#>我是vidu<#2#>很高兴见到你

合成音频的音色id
可查看音色列表查询全部可用音色:https://shengshu.feishu.cn/sheets/EgFvs6DShhiEBStmjzccr5gonOg

语速,默认为1.0
1.0为正常语速,范围 [0.5,2],值为0.5时播报语速最慢,值为2时播报语速最快

音量大小
范围 0 - 10,默认为0,代表正常音量,值越大音量越高

合成音频的语调
范围 [-12,12],默认 0,其中 0 为原音色输出

控制合成语音的情绪

  1. 参数范围 ["happy", "sad", "angry", "fearful", "disgusted", "surprised", "calm"],分别对应 7 种情绪:高兴,悲伤,愤怒,害怕,厌恶,惊讶,中性
  2. 模型会根据输入文本自动匹配合适的情绪,一般无需手动指定

定义多音字发音

  • 定义需要特殊标注的文字或符号对应的注音或发音替换规则,针对多音字场景,在中文文本中,声调用数字表示:一声为 1;二声为 2;三声为 3;四声为 4;轻声为 5。
  • 示例如下:
    ["燕少飞/(yan4)(shao3)(fei1)", "达菲/(da2)(fei1)", "omg/oh my god"]

透传参数
不做任何处理,仅数据传输
注:最多 1048576个字符

Responses

成功

application/json
object

Playground

Authorization
Body

Samples