Googles neue KI verwandelt Text in Musik

Googles neue KI verwandelt Text in Musik

Google-Forscher haben eine KI entwickelt, die aus Textanweisungen minutenlange Musikstücke generieren und sogar eine gepfiffene oder gesummte Melodie in andere Instrumente umwandeln kann, ähnlich wie Systeme wie DALL-E Bilder aus schriftlichen Anweisungen generieren (via TechCrunch). Das Modell heißt MusicLM, und du kannst es zwar nicht selbst ausprobieren, aber das Unternehmen hat eine Reihe von Beispielen hochgeladen, die es mit dem Modell produziert hat.

Die Beispiele sind beeindruckend. Es gibt 30-Sekunden-Schnipsel, die sich wie echte Songs anhören, die auf der Grundlage von absatzlangen Beschreibungen erstellt wurden, die ein Genre, eine Stimmung und sogar bestimmte Instrumente vorgeben, sowie fünfminütige Stücke, die auf der Grundlage von ein oder zwei Wörtern wie "melodischer Techno" erstellt wurden. Interessant ist die Demo des "Story-Modus", bei dem das Model ein Skript erhält, das es zwischen verschiedenen Aufforderungen umwandeln muss. Zum Beispiel diese Aufforderung:

elektronisches Lied in einem Videospiel (0:00-0:15)

Meditationslied, das neben einem Fluss gespielt wird (0:15-0:30)

Feuer (0:30-0:45)

Feuerwerk (0:45-0:60)

Das Ergebnis kannst du dir hier anhören.

Es ist vielleicht nicht jedermanns Sache, aber es ist durchaus vorstellbar, dass ein Mensch diese Musik komponiert. Auf der Demoseite findest du auch Beispiele dafür, was das Modell produziert, wenn es aufgefordert wird, 10-Sekunden-Clips von Instrumenten wie dem Cello oder den Maracas zu erzeugen (das letztere Beispiel ist eines, bei dem das System relativ schlecht abschneidet), 8-Sekunden-Clips eines bestimmten Genres, Musik, die zu einem Gefängnisausbruch passen würde, und sogar, wie ein Klavieranfänger im Vergleich zu einem fortgeschrittenen Spieler klingen würde. Es enthält auch Interpretationen von Begriffen wie "futuristischer Club" und "Akkordeon Death Metal".

MusicLM kann sogar menschliche Stimmen simulieren, und obwohl es den Anschein hat, dass es den Ton und den Gesamtklang der Stimmen richtig hinbekommt, klingen die Töne körnig und unruhig.

Vielleicht ist dir auch aufgefallen, dass die Texte Unsinn sind, aber auf eine Art und Weise, die du nicht unbedingt verstehst, wenn du nicht aufpasst - so als würdest du jemandem zuhören, der auf Simlisch singt, oder diesem einen Lied, das wie Englisch klingen soll, es aber nicht ist.

Wie bei anderen Vorstößen ist Google auch bei MusicLM deutlich vorsichtiger als einige seiner Konkurrenten mit ähnlicher Technologie. "Wir haben nicht vor, die KI zu diesem Zeitpunkt zu veröffentlichen", heißt es in dem Papier, und zwar unter Hinweis auf das Risiko einer "potenziellen Aneignung kreativer Inhalte" (sprich: Plagiate) und einer potenziellen kulturellen Aneignung oder Fehlinterpretation.