Entdecken Sie die Bildgenerierung mit GPT-4o!

OpenAI hat mit GPT-4o eine neue Ära der Bildgenerierung eingeläutet, die mit verbesserten Funktionen und einer fortschrittlichen Textdarstellung aufwartet. Dieses KI-Modell kann nun hochwertige, detaillierte Bilder erzeugen und folgt dabei den Anweisungen in natürlicher Sprache, um so das gewünschte Bild, das Sie im Kopf haben, präzise zu realisieren.
Früher hatten KI-Modelle große Schwierigkeiten mit Text. Wenn Sie beispielsweise darum baten, ein Schild zu generieren, bekamen Sie bestenfalls ein Schild mit unverständlichen Wörtern und schlimmstenfalls nur wirre Krakel. Doch das hat sich geändert: GPT-4o kann Bilder mit perfekt lesbarem Text erstellen!
Die Bildgenerierung beginnt in der Regel mit einem Texteingabeaufforderung, gefolgt von Anpassungen am ursprünglichen Entwurf. GPT-4o funktioniert jedoch anders: Sie fordern ein Bild an und weisen es dann an, bestimmte Elemente zu ändern – und so lange weiter, bis das gewünschte Ergebnis erzielt wird.
Ein Beispiel gefällig? Sie können ein einfaches Bild durch unkomplizierte englische Anweisungen generieren und modifizieren. Zudem hat OpenAI mit bestimmten Auswahlverfahren gearbeitet – viele der gezeigten Bilder stammen von den „besten 2“ oder sogar „besten 8“, was bedeutet, dass das Modell mehrere Versuche gebraucht hat, um das richtige Ergebnis zu erzielen. Die Resultate sind dennoch beeindruckend, und die Benutzeroberfläche ist extrem benutzerfreundlich.
Ein weiteres Szenario: GPT-4o kann mit einem bereits bestehenden Bild beginnen oder von Grund auf neu anfangen. Zum Beispiel kann ein Nutzer ein Foto von einer Katze hochladen und die KI darum bitten, der Katze einen Detektivhut und ein Monokel zu verleihen. Daraufhin kann der Nutzer das Bild weiter verfeinern, sodass es aussieht wie ein Screenshot aus einem Rollenspiel.
Sie können auch mit mehreren Bildern arbeiten und Elemente daraus kombinieren. OpenAI betont, dass GPT-4o hervorragend darin ist, detaillierte Anweisungen zu befolgen – es kann 10-20 verschiedene Objekte in einer Szene manipulieren, ohne durcheinander zu geraten. Zum Vergleich: Andere KI-Modelle schaffen nur 5-8 Objekte.
Obwohl GPT-4o ein großer Fortschritt ist, ist es nicht perfekt. OpenAI gibt offen zu, dass es Herausforderungen gibt. Manchmal werden Bilder an der Unterseite abgeschnitten, Halluzinationen bleiben ein Problem, und die Arbeit mit mehr als 20 Objekten kann kompliziert sein. Auch das Rendern von Text mit nicht-lateinischen Zeichen bedarf noch der Optimierung.
Als abschließendes Highlight präsentieren wir Ihnen einige Video-Demonstrationen, die die neuen Fähigkeiten von GPT-4o in der Bildgenerierung zeigen.