Skip to main content

Chuyển văn bản thành giọng nói (với Google Gemini)

POST /gemini/v1beta/models/{model}:generateContent

Tạo file âm thanh với endpoint pass through tới Google Gemini.

Tham khảo

Chi tiết đầy đủ các tham số, tham khảo tài liệu Google Gemini.

Tham số đường dẫn (Path Parameters)

modelstringRequired

ID của mô hình sẽ sử dụng. Ví dụ: gemini-2.5-flash-preview-tts.

Cấu trúc yêu cầu (Request Body)

contentsarrayRequired

Nội dung của yêu cầu.

partsarrayRequired

Một danh sách các phần của nội dung.

textstringRequired

Prompt văn bản để chuyển thành giọng nói.

generationConfigobject

Cấu hình cho việc sinh nội dung.

responseModalitiesarray

Chỉ định ["AUDIO"] để yêu cầu trả về dữ liệu âm thanh.

speechConfigobject

Cấu hình dành riêng cho việc sinh giọng nói.

voiceConfigobject

Cấu hình cho giọng nói của một người nói.

prebuiltVoiceConfigobject

Sử dụng một giọng nói được dựng sẵn.

voiceNamestring

Tên của giọng nói sẽ sử dụng. Ví dụ: Kore.

multiSpeakerVoiceConfigobject

Cấu hình cho giọng nói của nhiều người nói.

speakerVoiceConfigsarray

Một danh sách các cấu hình giọng nói cho từng người nói.

speakerstring

Tên của người nói (phải khớp với tên trong prompt).

voiceConfigobject

Cấu hình giọng nói cho người nói này.


Cấu trúc Phản hồi (Response Body)

Phản hồi thành công sẽ chứa dữ liệu âm thanh được mã hóa base64.

Đối tượng Candidate

candidatesarray

Một danh sách các ứng viên được tạo.

contentobject

Nội dung của ứng viên.

partsarray

Một danh sách các phần của nội dung.

inlineDataobject

Dữ liệu âm thanh dưới dạng base64.

mime_typestring

Loại MIME của âm thanh, ví dụ: audio/L16;codec=pcm;rate=24000.

datastring

Dữ liệu âm thanh được mã hóa base64.

Ví dụ một người nói (Single-speaker)

curl 'https://api.thucchien.ai/gemini/v1beta/models/:generateContent' \
-H 'x-goog-api-key: ' \
-H 'Content-Type: application/json' \
-d '{
"contents": [{
"parts": [
{"text": ""}
]
}],
"generationConfig": {
"responseModalities": ["AUDIO"],
"speechConfig": {
"voiceConfig": {
"prebuiltVoiceConfig": {
"voiceName": ""
}
}
}
}
}'
Example Response
{
"candidates": [
{
"content": {
"parts": [
{
"inlineData": {
"mime_type": "audio/L16;codec=pcm;rate=24000",
"data": "<base64_encoded_audio_data>"
}
}
],
"role": "model"
}
}
]
}

Ví dụ nhiều người nói (Multi-speaker)

curl 'https://api.thucchien.ai/gemini/v1beta/models/:generateContent' \
-H 'x-goog-api-key: ' \
-H 'Content-Type: application/json' \
-d '{
"contents": [{
"parts": [
{"text": ""}
]
}],
"generationConfig": {
"responseModalities": ["AUDIO"],
"speechConfig": {
"multiSpeakerVoiceConfig": {
"speakerVoiceConfigs": [{
"speaker": "",
"voiceConfig": {
"prebuiltVoiceConfig": {
"voiceName": ""
}
}
}, {
"speaker": "",
"voiceConfig": {
"prebuiltVoiceConfig": {
"voiceName": ""
}
}
}]
}
}
}
}'
Example Response
{
"candidates": [
{
"content": {
"parts": [
{
"inlineData": {
"mime_type": "audio/L16;codec=pcm;rate=24000",
"data": "<base64_encoded_audio_data>"
}
}
],
"role": "model"
}
}
]
}