AudioText-to-Audio

ACE-Step – Text to Audio

Text-to-Audio model by ACE Studio — China.

4/5 LORY rating

About this model

Song-focused text-to-audio model that works well for structured style tags and lyric guidance.

CapabilityText-to-Audio

ProviderACE Studio

OriginChina

OutputAudio

ModesGenerate

Model details

Practical specs for planning a generation in LORY. These details come from the model contract we use when routing a request.

InputsPrompt required

OutputWAV, WAV, MPEG, OGG +2 more · Native audio

Duration5s-4 minutes

Creative controlsSeed · Prompt up to 1,000 characters

Try ACE-Step – Text to Audio on LORY

Start with free welcome credits — no subscription, and we never ask for payment info during your trial. Pay only when you decide to top up.

Try this model Browse all models

Similar modelsMore audio models you might like

AudioText-to-Audio

MiniMax Music 2.6

Full-track music generation with optional structured lyrics, vocal or instrumental output, and configurable audio settings.

MiniMax · ChinaView details

AudioText-to-Audio

Stable Audio 2.5

Text-to-audio generations for full-length music and SFX (up to ~3 minutes).

Stability AI · UKView details

AudioText-to-Audio

ElevenLabs Music

ElevenLabs Eleven Music (music_v1) — full-track music generation with vocals or instrumental, multilingual singing, and 44.1 kHz studio-quality output.

ElevenLabs · USView details

AudioAudio-to-Audio

Stable Audio 2.5 – Audio to Audio

Audio-to-audio transformation with prompt-driven restyling and a strength control to preserve or replace the source.

Stability AI · UKView details

AudioText-to-Speech

Eleven Multilingual v2 – Text to Speech

High-quality multilingual text-to-speech by ElevenLabs with 21 preset voices, style control, and speed adjustment.

ElevenLabs · USView details

AudioSpeech-to-Speech

Chatterbox – Speech to Speech

Voice conversion from a source clip with an optional target voice reference.

Resemble AI · CanadaView details