Los investigadores de Google han creado una IA que puede generar piezas musicales de minutos de duración a partir de indicaciones de texto, e incluso puede transformar una melodía silbada o tarareada en otros instrumentos, de forma similar a cómo los sistemas como DALL-E generan imágenes a partir de indicaciones escritas (a través de TechCrunch ). El modelo se llama MusicLM, y aunque no puedes jugar con él por ti mismo, la compañía ha subido un montón de muestras que produjo usando el modelo.

Los ejemplos son impresionantes. Hay fragmentos de 30 segundos de lo que suenan como canciones reales creadas a partir de descripciones de párrafos largos que prescriben un género, ambiente e incluso instrumentos específicos, así como piezas de cinco minutos de duración generadas a partir de una o dos palabras como «techno melódico». ” Tal vez mi favorito sea una demostración del «modo historia», donde el modelo básicamente recibe un guión para transformarse entre indicaciones. Por ejemplo, este aviso:

canción electrónica reproducida en un videojuego (0:00-0:15)

canción de meditación tocada junto a un río (0:15-0:30)

fuego (0:30-0:45)

fuegos artificiales (0:45-0:60)

Dio como resultado el audio que puedes escuchar aquí .

Puede que no sea para todos, pero pude ver que esto fue compuesto por un humano (también lo escuché en bucle docenas de veces mientras escribía este artículo). En el sitio de demostración también se incluyen ejemplos de lo que produce el modelo cuando se le pide que genere clips de 10 segundos de instrumentos como el violonchelo o las maracas (el último ejemplo es uno en el que el sistema hace un trabajo relativamente pobre), clips de ocho segundos de un cierto género, música que encajaría en una fuga de prisión, e incluso cómo sonaría un pianista principiante en comparación con uno avanzado. También incluye interpretaciones de frases como “club futurista” y “death metal de acordeón”.

Shares: