OpenAI GPT-4o : Génération d'Images Améliorée

OpenAI GPT-4o : Génération d'Images Améliorée

OpenAI a récemment lancé GPT-4o, une version améliorée de son modèle d'IA qui intègre désormais la génération d'images avec un rendu textuel raffiné et une meilleure compréhension des instructions. Cette mise à jour, proposée il y a environ un an, permet à l'IA de créer des images détaillées et de haute qualité, tout en pouvant suivre vos instructions en langage naturel pour les modifier jusqu'à obtenir l'image désirée.

Contrairement aux anciens modèles d'IA qui avaient du mal avec le texte, souvent produisant des mots illisibles ou des gribouillis, GPT-4o se distingue par sa capacité à générer des images avec du texte parfaitement lisible.

Le processus de génération d'image commence généralement par la saisie d'une invite textuelle, puis l'amélioration de l'image demandée. Cependant, avec GPT-4o, vous demandez d'abord une image, puis indiquez de quoi la modifier, et ainsi de suite, jusqu'à ce que le résultat corresponde exactement à votre vision. Par exemple, un utilisateur peut demander une image d'un chat et ensuite lui attribuer un chapeau de détective et un monocle, affinent progressivement pour obtenir une scène digne d'un jeu de rôle.

GPT-4o permet également de travailler à partir de plusieurs images, en intégrant des éléments de chacune dans le résultat final. OpenAI affirme que le modèle excelle dans le suivi d'instructions détaillées et qu'il peut manipuler entre 10 et 20 objets dans une scène sans difficulté, alors que d'autres modèles ne peuvent traiter que 5 à 8 objets.

Cependant, GPT-4o n'est pas exempt de défauts, OpenAI reconnaissant même des limitations. Il arrive parfois que l'IA recadre des images de manière incorrecte, qu'elle génère des hallucinations, ou qu'elle rencontre des difficultés à gérer plus de 20 objets. De plus, le rendu de texte en caractères non-latins nécessite encore des améliorations.

Pour illustrer les compétences de génération d'image de GPT-4o, plusieurs démonstrations vidéo sont disponibles, mettant en avant les capacités impressionnantes de cet outil.