语音合成

POST

/ent/v2/audio-tts

官方文档: https://platform.vidu.cn/docs/speech-synthesis
语音合成，返回 task_id 或任务详情
使用请求参数控制生成行为

Authorizations

bearer

Type

HTTP (bearer)

Request Body

application/json

object

需要合成语音的文本

长度限制小于 10000 字符
段落切换用换行符标记
停顿控制：支持自定义文本之间的语音时间间隔，以实现自定义文本语音停顿时间的效果。

使用方式：在文本中增加<#x#>标记，x 为停顿时长（单位：秒），范围 [0.01, 99.99]，最多保留两位小数。文本间隔时间需设置在两个可以语音发音的文本之间，不可连续使用多个停顿标记
示例：你好<#2#>我是vidu<#2#>很高兴见到你

合成音频的音色id
可查看音色列表查询全部可用音色：https://shengshu.feishu.cn/sheets/EgFvs6DShhiEBStmjzccr5gonOg

语速，默认为1.0
1.0为正常语速，范围 [0.5,2]，值为0.5时播报语速最慢，值为2时播报语速最快

音量大小
范围 0 - 10，默认为0，代表正常音量，值越大音量越高

合成音频的语调
范围 [-12,12]，默认 0，其中 0 为原音色输出

控制合成语音的情绪

参数范围 ["happy", "sad", "angry", "fearful", "disgusted", "surprised", "calm"]，分别对应 7 种情绪：高兴，悲伤，愤怒，害怕，厌恶，惊讶，中性
模型会根据输入文本自动匹配合适的情绪，一般无需手动指定

定义多音字发音

定义需要特殊标注的文字或符号对应的注音或发音替换规则，针对多音字场景，在中文文本中，声调用数字表示：一声为 1；二声为 2；三声为 3；四声为 4；轻声为 5。
示例如下：
["燕少飞/(yan4)(shao3)(fei1)", "达菲/(da2)(fei1)", "omg/oh my god"]

透传参数
不做任何处理，仅数据传输
注：最多 1048576个字符

Responses

成功

Content-Type

application/json

object

OpenAI官方格式

聊天模式

统一标准接口格式

统一标准接口格式

OpenAI兼容格式

统一标准接口格式

聊天模式

OpenAI兼容格式

统一标准接口格式

OpenAI兼容格式

Replicate 官方格式

OpenAI兼容格式

语音合成

Authorizations

Request Body

Responses

Playground

Samples

语音合成​

Authorizations​

Request Body​

Responses​

Playground​

Samples​

语音合成

Authorizations

Request Body

Responses

Playground

Samples