Germany

Der Open-Source-DALL-E-Wettbewerb läuft auf Ihrer Grafikkarte

Bild: Stetige Diffusion

DALL-E 2 von OpenAI bekommt freie Konkurrenz. Dahinter stehen Open-Source-KI-Bewegung und das KI-Startup Stability AI.

Künstliche Intelligenz, die aus textuellen Beschreibungen Bilder generieren kann, ist seit Anfang 2021 rasant auf dem Vormarsch. OpenAI zeigte dann mit DALL-E 1 und CLIP beeindruckende Ergebnisse. Die Open-Source-Community nutzte CLIP das ganze Jahr über für zahlreiche alternative Projekte. Dann, im Jahr 2022, veröffentlichte OpenAI den beeindruckenden DALL-E 2, Google zeigte Imagen und Parti, Midjourney erreichte Millionen und Craiyon überschwemmte die sozialen Medien.

Startup Stability AI hat nun die Veröffentlichung von Stable Diffusion angekündigt, einem weiteren System ähnlich DALL-E-2, das zunächst nach und nach neuen Forschern und anderen Gruppen über einen Discord-Server zur Verfügung gestellt werden soll.

Nach einer Testphase wird Stable Diffusion kostenlos freigegeben – der Code und das vollständig trainierte Modell werden als Open Source veröffentlicht. Es wird auch eine gehostete Version mit einer Weboberfläche geben, mit der Benutzer das System testen können.

Stability AI finanziert kostenlose DALL-E 2-Konkurrenten

Stable Diffusion wurde in Zusammenarbeit zwischen Forschern von Stability AI, RunwayML, der LMU München sowie EleutherAI und LAION entwickelt. Das Forschungskollektiv EleutherAI ist unter anderem für seine Open-Source-Sprachmodelle GPT-J-6B und GPT-NeoX-20B bekannt und forscht auch an multimodalen Modellen.

Die Non-Profit-Organisation LAION (Large-Scale Open Network for Artificial Intelligence) stellte die Trainingsdaten mit dem Open-Source-Datensatz LAION 5B zur Verfügung, den das Team in der ersten Testphase mit menschlichem Feedback filterte und so das finale LAION-Aesthetics-Training erstellte Datensatz .

Patrick Esser von Runway und Robin Rombach von der LMU München leiteten das Projekt, aufbauend auf ihrer Arbeit in der CompVis-Gruppe der Universität Heidelberg. Hier kommen das häufig verwendete VQGAN und Latent Diffusion ins Spiel. Letzteres diente als Grundlage für einen robusten Rollout mit Forschung von OpenAI und Google Brain.

„Jazz Robots.“ von TheRealBissy#StableDiffusion #AIArt #AIArtwork @StableDiffusion pic.twitter.com/V6hBWZUuM9

– Stabile Diffusionsbilder (@DiffusionPics) 14. August 2022

Hinter der 2020 gegründeten Stability AI steht der Mathematiker und Informatiker Emad Mostaque. Er arbeitete mehrere Jahre als Analyst für verschiedene Hedgefonds, bevor er sich der Öffentlichkeitsarbeit zuwandte. 2019 half er bei der Gründung von Symmitree, einem Projekt, das darauf abzielt, die Kosten für Smartphones und Internetzugang für gefährdete Bevölkerungsgruppen zu senken.

Mit Stability AI und seinem persönlichen Vermögen will Mostaque die Open-Source-Community für KI-Forschung vorantreiben. Sein Start unterstützte zuvor beispielsweise die Erstellung des Datensatzes „LAION 5B“. Um das stabile Diffusionsmodell zu trainieren, stellte Stability AI Server mit 4000 Nvidia A100-GPUs bereit.

„Niemand außer unseren 75 Mitarbeitern hat ein Mitspracherecht – keine Milliardäre, große Fonds, Regierungen oder sonst jemand kontrolliert das Unternehmen oder die Gemeinschaften, die wir unterstützen. Wir sind völlig unabhängig“, sagte Mostak gegenüber TechCrunch. „Wir nutzen unsere Rechenleistung, um Open-Source-KI zu beschleunigen.“

Stable Diffusion ist ein Open-Source-Eckpfeiler

Stable Diffusion-Tests sind derzeit im Gange, neue Ergänzungen werden in Wellen eingeführt. Die Ergebnisse, die beispielsweise auf Twitter zu sehen sind, zeigen, dass hier ein echter DALL-E-2-Konkurrent auf dem Vormarsch ist.

Stable Diffusion ist vielfältiger als Midjourney, hat aber eine etwas geringere Auflösung als DALL-E 2. | Bild: Github

Im Gegensatz zu DALL-E 2 kann Stable Diffusion Bilder von prominenten Personen und anderen Motiven erzeugen, die OpenAI in DALL-E 2 verbietet. Andere Systeme wie Midjourney oder Pixelz.ai können dies, aber keines erreicht eine vergleichbare Qualität mit der großen Vielfalt, die darin zu sehen ist Stable Diffusion – und keines der anderen Systeme ist Open Source.

Es stellt sich heraus, dass #stablediffusion wirklich coole Interpolationen zwischen Texteingabeaufforderungen ausführen kann, wenn Sie das Initialisierungsrauschen anpassen und zwischen den Eingabeaufforderungs-Konditionierungsvektoren slerpieren: pic.twitter.com/lWOoETYVZ3

– Xander Steenbrugge (@xsteenbrugge) 7. August 2022

Stable Diffusion soll nun auf einer einzigen Grafikkarte mit 5,1 Gigabyte VRAM laufen – das Projekt bringt die KI-Technologie an den Rand, die bisher nur über Cloud-Dienste verfügbar war.

Auf diese Weise bietet Stable Diffusion Forschern und Interessenvertretern ohne Zugang zu GPU-Servern die Möglichkeit, mit fortschrittlichen generativen KI-Modellen zu experimentieren. Das Modell soll auch auf MacBooks mit Apples M1-Chip funktionieren. Allerdings dauert die Bilderzeugung mehrere Minuten statt Sekunden.

DALL-E 2 von OpenAI bekommt Open-Source-Konkurrenz. Dahinter stehen die Open-Source-Community und das Startup Stability AI. | Bild: Github

Die Stabilitäts-KI selbst will es Unternehmen auch ermöglichen, ihre eigene Version der stabilen Diffusion zu trainieren. Auf diese Weise folgen multimodale Modelle dem Weg, den große Sprachmodelle bereits eingeschlagen haben: weg von einem einzigen Anbieter und hin zur breiten Verfügbarkeit mehrerer Alternativen durch Open Source.

Runway erkundet bereits robuste, diffusionsfähige Textbearbeitung in Videos.

#stablediffusion Text-to-Image-Checkpoints sind jetzt für Forschungszwecke auf Anfrage unter verfügbar

Arbeiten Sie an freizügigeren Freigabe- und Kontrollpunktzeichnungen.

Coming Soon™ zu @runwayml für die Text-zu-Video-Bearbeitung pic.twitter.com/7XVKydxTeD

– Patrick Esser (@pess_r) 11. August 2022

Stable Diffusion: Die Büchse der Pandora und Nettovorteile

Mit offenem Zugang und der Möglichkeit, das Modell auf einer weit verbreiteten GPU auszuführen, steigt das Missbrauchspotenzial natürlich dramatisch an.

„Ein gewisser Prozentsatz der Menschen ist einfach unbeholfen und seltsam, aber das ist menschlich“, sagte Motake. „Wir sind davon überzeugt, dass sich diese Technologie weiterentwickeln wird, und die paternalistische und etwas herablassende Haltung vieler KI-Fans ist ein Fehler, weil sie der Gesellschaft nicht vertrauen.“

Mostak betont jedoch, dass die freie Verfügbarkeit es der Community ermöglicht, Gegenmaßnahmen zu entwickeln.

„Wir ergreifen umfangreiche Sicherheitsmaßnahmen, einschließlich der Entwicklung fortschrittlicher Tools, um potenzielle Schäden an der Freigabe und unseren eigenen Diensten zu mindern. Da Hunderttausende an diesem Modell arbeiten, sind wir zuversichtlich, dass der Nettonutzen überwältigend positiv sein wird, und da Milliarden von Menschen diese Technologie verwenden, werden die Nachteile in den Hintergrund treten.

Weitere Informationen finden Sie im Stable Diffusion-Github. Viele Beispiele für die Bilderzeugungsfunktionen von Stable Diffusion finden Sie im Subreddit von Stable Diffusion. Stable Diffusion Beta-Registrierung hier.

Hinweis: Links zu Onlineshops in den Artikeln können sogenannte Affiliate-Links sein. Wenn Sie über diesen Link kaufen, erhält MIXED.de vom Verkäufer eine Provision. Der Preis ändert sich für Sie nicht.