OpenAI dévoile GPT-4o, un modèle d'IA plus rapide, moins cher et multilingue

Publié le 05/14/2024
مدونة ذكاء


La société à l'origine du populaire ChatGPT, OpenAI, a annoncé le lancement de son nouveau modèle de langage, GPT-4o. Le "o" dans GPT-4o signifie "omni", indiquant la capacité du modèle à gérer le texte, la parole et la vidéo. Ce modèle, GPT-4o, est une amélioration par rapport à son prédécesseur, GPT-4 Turbo. Il offre des capacités améliorées, un traitement plus rapide et des économies de coûts pour les utilisateurs.

GPT-4o est destiné à alimenter le chatbot ChatGPT et l'API d'OpenAI, ce qui permet aux développeurs d'utiliser ses capacités. Le nouveau modèle est accessible pour les utilisateurs gratuits et payants. Certaines fonctionnalités sont déployées immédiatement et d'autres progressivement.

Le nouveau modèle apporte une amélioration significative de la vitesse de traitement, une réduction de 50 % des coûts, des limites de taux cinq fois plus élevées et la prise en charge de plus de 50 langues. OpenAI prévoit de déployer progressivement auprès des utilisateurs de ChatGPT Plus et Team. La disponibilité pour les entreprises est "prochainement disponible". La société a également commencé à déployer auprès des utilisateurs gratuits de ChatGPT, bien qu'avec des limites d'utilisation, lundi.

OpenAI introduira des fonctionnalités vocales et vidéo améliorées pour ChatGPT. Ces capacités pourraient intensifier la concurrence avec d'autres assistants vocaux, notamment Siri d'Apple, Google d'Alphabet et Alexa d'Amazon. De plus, les utilisateurs peuvent désormais interrompre ChatGPT pendant les requêtes pour simuler une conversation plus naturelle.

GPT-4o améliore considérablement l'expérience dans le chatbot alimenté par l'IA d'OpenAI, ChatGPT. Depuis longtemps, la plateforme propose un mode vocal qui transcrit les réponses du chatbot à l'aide d'un modèle de synthèse vocale. Maintenant, GPT-4o renforce ce mode, permettant aux utilisateurs d'interagir avec ChatGPT plus comme un assistant. Le modèle offre une réactivité immédiate et peut même saisir les nuances de la voix d'un utilisateur, en générant des voix dans "une gamme de styles émotifs différents" (y compris le chant) en réponse.

GPT-4o améliore également les capacités de vision de ChatGPT. Ce dernier peut désormais répondre rapidement aux questions connexes à partir d'une photo - ou d'un écran de bureau, allant de sujets tels que "Que se passe-t-il dans ce code logiciel ?" à "Quelle marque de chemise porte cette personne ?". Ces fonctionnalités évolueront encore à l'avenir. Par exemple, le modèle permettra potentiellement à ChatGPT de "regarder" un match sportif en direct et d'en expliquer les règles.

GPT-4o est également plus multilingue, avec des performances améliorées dans environ 50 langues. Dans l'API d'OpenAI et le service Azure de Microsoft, GPT-4o est deux fois plus rapide, moitié moins cher et a des limites de taux plus élevées que GPT-4 Turbo.

Lors de la démonstration, GPT-4o a montré qu'il pouvait comprendre les émotions des utilisateurs en écoutant leur respiration. Il a offert des conseils pour aider un utilisateur stressé à se détendre, lorsqu'il a remarqué. Le modèle a également montré qu'il pouvait converser dans plusieurs langues, traduisant et répondant aux questions automatiquement.

Les annonces d'OpenAI montrent à quel point le monde de l'IA progresse rapidement. Les améliorations des modèles et la rapidité, ainsi que la capacité à rassembler des capacités multimodales dans une interface omnimodale, sont sur le point de transformer l'interaction des gens avec ces outils.