Hace un par de semanas atrás, hablamos sobre enfoques creativos para la música cinematográfica y el diseño de sonido. Luego, mi colega Nino Leitner se puso a trabajar con una canción CineD totalmente generada por IA que no se parecía en nada a un ruido mecánico abstracto, sino más bien a una pista musical real. Me pregunto hasta qué punto han avanzado estas herramientas respecto al año anterior. ¿Cuál es el estado actual de desarrollo en esta área? ¿Pueden los generadores de música con IA componer la banda sonora de una película? ¡Probemos algunos de ellos y averigüémoslo!
Ha pasado un tiempo desde que escribí sobre MusicLM de Google y MusicGen de Meta, las dos aplicaciones más importantes para la generación de música con IA en ese momento. Los que probaron estas herramientas no estaban contentos con los resultados. “Suena horrible”, “las melodías son aleatorias”, “las progresiones de acordes no tienen ningún sentido”, estos son sólo algunos de los comentarios que recuerdo haber leído.
Sin embargo, el entrenamiento en IA no se detiene. Aproximadamente un año después, los tracks generados están muy lejos de los resultados que obtuvimos antes. Además, la inteligencia artificial aprendió a “cantar”.
Generadores de música con IA: un gran salto
Antes de presentar herramientas nuevas y populares, echémosle un vistazo a las que ya conocemos. Por ejemplo, el modelo MusicLM de Google ya no existe. En cambio, los desarrolladores escucharon todos los comentarios para poder integrar y lanzar MusicFX. Aún lo consideran un “experimento generativo de conversión de texto a música con IA”, ya que es su área de investigación de IA y una herramienta en fase Beta.
MusicFX puede producir melodías de 30, 50 o 70 segundos de duración. Solo necesitas darle una descripción de texto y, después de analizar tu redacción, la red neuronal ofrecerá dos variantes. Personalmente, me sorprendió la calidad de las pistas resultantes (especialmente teniendo en cuenta lo horribles que sonaban los intentos de MusicLM hace apenas un año). He aquí un ejemplo:
¿Qué te imaginas cuando escuchas la melodía de arriba? ¿Un campo de trigo iluminado por los tiernos rayos del atardecer? ¿Quizás una mujer de aspecto triste con un vestido blanco, tocando el pasto mientras deambula? ¿Una escena lenta y melancólica de un drama de época de Terrence Malick? Estas son las imágenes que pasan por mi cabeza. Sin embargo, mi mensaje de texto a MusicFX no incluía nada por el estilo. De hecho, decía: “Pieza instrumental para una película independiente de fantasía oscura, que presenta una escena de pelea entre una bruja y su cazador”.
Entonces, sí, el generador de música con IA de Google no proporcionó nada parecido a mi solicitud original. De todos modos, la melodía creada suena consistente (al menos, para mi oído novato) y genera una respuesta emocional. Después de algunas pruebas, quedó claro que esta IA puede generar mejores resultados cuando usas términos del estilo (como “jazz”), incluyes los instrumentos necesarios en tu mensaje (“batería”, “guitarra”, “cuerdas”) o el ritmo (rápido, lento, de ritmo medio).
Puedes probar MusicFX gratis aquí, y cuéntame si compartes mi entusiasmo (aunque será mejor que lo llame “miedo”, ya que estos avances de la IA siempre tienen un sabor amargo al principio).
¿Letras y voces generadas? ¡Ningún problema!
Sin embargo, el rápido desarrollo de la música con IA ha ido aún más lejos. Aquí está la canción de CineD que nos mostró Nino en la oficina:
Esta pista fue creada por Udio, basándose únicamente en el mensaje de texto: “Una canción sobre CineD, una plataforma de tecnología cinematográfica, canción pop, indie”. No se necesitan otras configuraciones, comandos ni modificaciones. La red neuronal desarrolló letras e incluso voces generadas por IA. Se trata de un enfoque radicalmente simplificado de la composición musical.
El equipo de Udio está formado por ex investigadores de Google DeepMind, por lo que no me sorprende que tengan suficiente experiencia en entrenamiento de IA. Su herramienta recibe actualizaciones frecuentes. A modo de ejemplo, a principios de mayo, los desarrolladores introdujeron la función llamada “Inpainting” que les permite a los usuarios seleccionar una parte de una pista para regenerarla en función del contexto circundante; Esta mejora debería ayudar a editar líneas vocales individuales, corregir errores o transiciones suaves. Inpainting actualmente está disponible solo para suscriptores.
Otro intento de crear una banda sonora generada por IA
Udio también tiene un plan gratuito que les otorga a los usuarios 10 créditos/día con 100 créditos adicionales/mes (1 generación = 1 crédito). Es por eso que decidí probar suerte creando una partitura de fantasía oscura nuevamente, usando el mismo mensaje que antes con MusicFX. Al igual que la IA de Google, Udio genera simultáneamente dos pistas diferentes, de 32 segundos cada una. Aquí está mi favorita:
El modelo de aprendizaje profundo le dio un título a mi melodía – “Réquiem de bruja” – y la etiquetó con especificaciones de estado de ánimo. En mi caso, la pista estaba marcada como “atmosférica” y “de suspenso”, aunque no usé estas palabras en el ingreso de texto. ¿Qué opinas? Mucho más cercano a la idea original, ¿no? Aunque no lo usaría para mi escena de “lucha con elementos mágicos”. La partitura creada es demasiado lenta y épica para mi gusto.
Si 32 segundos no son suficientes, siempre puedes hacer clic en el botón “Extender”, que les ofrece a los usuarios cierto nivel de control. Por ejemplo, la aplicación te permitirá decidir cuándo debe realizarse la extensión y si deseas especificar la descripción de texto para la nueva pieza.
Comparación de generadores de música con IA populares
Para realizar el experimento, tuve que probar otro generador de música con IA, que es bastante popular hoy en día y aparece regularmente en mis redes sociales. Se llama Suno, y su equipo fundador provenía de grandes empresas tecnológicas (Meta, TikTok) antes de iniciar su propio negocio.
Desde el principio, Suno tiene una interfaz y un flujo de trabajo muy similares. Ofrece un plan básico gratuito casi idéntico (50 créditos que se renuevan diariamente, lo que equivale a 10 canciones) y también realiza dos trabajos a la vez. Por otro lado, las pistas generadas son mucho más largas (dos minutos cada una) y, en general, la herramienta funciona considerablemente más rápido que Udio.
En términos de calidad y comprensión del idioma, quiero que ustedes sean jueces conmigo. Aquí está mi música de fantasía oscura preferida para la pelea entre una bruja y su cazador, generada por Suno:
Suno tituló esta canción “Midnight Duel” y le añadió una versión (posiblemente también generada por IA). Siento que el ritmo y el trabajo orquestal me llegan un poco, pero aún así, esta canción me recuerda más a un juego de computadora genérico que a una experiencia cinematográfica. ¿Qué opinas?
Obviamente, tampoco pude resistirme a hacer otra melodía de CineD usando el mensaje original de Nino. Lo útil es que este modelo de IA publica las letras creadas directamente en la misma página (por cierto, ambas herramientas te permiten cargar tus propias letras antes de generar la pista).
¡Si tan solo pudiera corregir la pronunciación de “CineD”, le daría una mejor calificación que a Udio! (¡Es broma! Podría haber escrito “CineDee” en el mensaje, como lo hizo Nino, así que no debería culpar a la IA). De alguna manera, me gusta más la calidad del sonido de Suno.
Pros, contras, limitaciones
Lo bueno es que usar generadores de música con IA es divertido, especialmente si siempre has soñado con convertirte en músico pero nunca tuviste el tiempo o los medios económicos para una formación adecuada. Además, es una forma rápida de tener algo melódico detrás de las imágenes (una vista previa o el primer borrador, podrían ser áreas perfectas de aplicación para estas herramientas). También imagino que, a largo plazo, los generadores de música con IA podrían reemplazar el tedioso proceso de búsqueda en las plataformas de música de archivo. Pero primero, los desarrolladores de IA tendrían que resolver el dilema ético del que siempre hablamos (¿Con qué imágenes se entrenaron sus redes neuronales? ¿Esos músicos y compositores originales obtienen atribución o regalías? ¿Los equipos de IA realmente pueden proporcionarles derechos comerciales a sus usuarios?) Como ejemplo, Udio permite compartir el contenido creado en las redes sociales, siempre que indiques correctamente que fue generado por IA y qué herramienta utilizaste.
Otros aspectos negativos y limitaciones:
- Las herramientas analizadas no nos dan suficiente control creativo sobre el resultado. Por ejemplo, no puedo pedirle a Suno que use una voz masculina en lugar de femenina o que evite los violines a toda costa. Por ahora.
- Como hemos visto anteriormente, los resultados no siempre siguen la solicitud inicial. A veces, las melodías suenan demasiado genéricas. Otras veces, es posible que pierdan por completo el estado de ánimo requerido. No es como trabajar con un compositor profesional que siente la historia, tiene un estilo personal o una visión sonora y puede implementar todos tus deseos a la partitura.
- Además, a la IA seguramente no se le ocurrirá la idea de incorporar grabaciones de sonidos reales de plantas de energía en la partitura de “Chernobyl”.
Algunos enfoques alternativos
Naturalmente, es imposible probar TODAS las herramientas de IA que están prosperando en un mercado que ya está repleto. Debo mencionar que existen otros enfoques para generar melodías además de los modelos de conversión de texto a música. Aquí tienes un montón de ejemplos, si quieres probar algo diferente:
- Soundraw. Esta aplicación basada en navegador no acepta indicaciones de texto, pero ofrece mucho más control sobre las partes melódicas e incluso les permite a los usuarios cargar la vista previa del video (en caso de que desees crear una banda sonora adecuada).
- Boomy. En este generador de música de IA, puedes elegir instrumentos particulares, reorganizar secciones específicas, cambiar con precisión el tempo de tu melodía y agregar tu voz o la de IA. Sin embargo, por más que lo intenté, no pude lograr que sonara mejor que una cacofonía. Probablemente me falta talento en general, así que, por favor, inténtalo de nuevo y luego comparte tus ideas.
- Loudly. Este modelo es fácil de usar y flexible y ofrece la posibilidad de modificar innumerables configuraciones antes de generar una canción. Loudly no genera voces ni letras hasta el momento, pero la melodía creada suena más interesante que todos mis intentos anteriores.
El futuro de la música de cine
Creo que el debate en los comentarios es inevitable. En lo que respecta a la IA, todos nos preguntamos si se convertirá en el futuro de los procesos creativos en comparación con cómo pensamos en ellos ahora. En mi opinión (y ojalá no sea sólo la mía), el valor humano sigue siendo lo que escasea. Si todos pueden hacerlo, entonces no será tan valioso. Por lo tanto, no es la IA la que nos reemplazará; Son los creadores con ideas originales los que saben cómo implementar herramientas de inteligencia artificial en sus flujos de trabajo.
¿Y tu qué opinas? ¿Has probado los generadores de música con IA? ¿Hay alguno que te guste y que no mencioné? ¿En qué casos optarías por utilizar música generada por IA en lugar de comprar piezas compuestas por humanos? ¡Cuéntanos en los comentarios a continuación!
Fuente de la imagen destacada: generada con Midjourney para CineD.