OpenAI wprowadza GPT-4o do generowania obrazów

OpenAI wprowadza nowe generowanie obrazów za pomocą GPT-4o, które wzbogacono o zaawansowane funkcje renderowania tekstu i lepszego podążania za instrukcjami. To już kolejna aktualizacja modelu, który zdobył uznanie od swojego debiutu.
Jak wiadomo, starsze modele sztucznej inteligencji miały problemy z generowaniem czytelnego tekstu. Gdy prosiłeś je o stworzenie znaku, często kończyło się to chaotycznymi napisami lub zupełnie niezrozumiałymi symbolami. Z nowym GPT-4o sytuacja się zmienia – ten model potrafi tworzyć obrazy z doskonale widocznym tekstem.
Proces generowania obrazów rozpoczyna się od wpisania prośby tekstowej. Następnie, w przeciwieństwie do wcześniejszych wersji, GP-4o oferuje elastyczność w modyfikacji stworzonych obrazów. Użytkownicy mogą zamawiać zmiany, a model dostosowuje obrazy w odpowiedzi na te instrukcje, aż do osiągnięcia pełnej satysfakcji. Przykłady zastosowań są imponujące.
Na przykład, użytkownicy mogą zacząć od prostego opisu, a później dostosować każdy aspekt obrazu. OpenAI podkreśla, że GPT-4o jest świetny w śledzeniu szczegółowych instrukcji, co pozwala na manipulowanie od 10 do 20 różnymi obiektami w scenie bez problemów, co jest wielką poprawą w porównaniu do poprzednich modeli, które radziły sobie jedynie z 5-8 obiektami.
Mimo osiągnięć GPT-4o, OpenAI przyznaje, że technologia ta nie jest doskonała. Czasami obrazy są przycinane na dole, fenomeny wizualne, zwane „halucynacjami”, są nadal wyzwaniem, a praca nad obiektami powyżej 20 może być kłopotliwa. Dodatkowo, renderowanie tekstów w alfabetach niełacińskich również wymaga dalszej pracy.
Na koniec warto zwrócić uwagę na wideo, które pokazuje nową umiejętność generowania obrazów przez GPT-4o. Chociaż różne programy AI były testowane pod kątem rozumienia języka angielskiego, wielu zastanawia się, czy ten model spełni ich oczekiwania.