[Do Mobile Time] A OpenAI apresentou a atualização do ChatGPT, batizada como GPT-4o (se pronuncia "Four O"). O serviço foi mostrado como o carro-chefe da companhia e é "omnimodal", uma vez que a inteligência artificial suporta diversos tipos de mídia, como áudio, vídeo e imagens.
A nova versão da aplicação pode responder ao usuário em tempo real a partir de imagens que são adicionadas ao prompt da conversa, fazer buscas na web, analisar dados e criar tabelas. Uma novidade importante é o modo de voz (Voice Mode, no original em inglês) que permite uma conversa mais fluída e natural entre usuários e o modelo de IA.
Nos testes apresentados pela empresa, o GPT-4o atuava mais como uma assistente virtual, ao responder em tempo real e com uma voz feminina sobre questões dos analistas da OpenAI. Inclusive, a tecnologia reconhecia o humor em imagem e voz, traduziu idiomas em tempo real (italiano para o inglês) e gerou conteúdo em diversos tons de voz.
De acordo com a OpenAI, as respostas são mais rápidas: em média levam 232 milissegundos contra a média de 320 milissegundos do ser humano. Além disso, o usuário pode interromper a qualquer momento a assistente no modo de voz.
Disponibilidade e PC
Inicialmente, a OpenAI está liberando apenas o GPT-4o com as ferramentas de texto e imagens a partir desta segunda-feira. Por sua vez, as vozes serão limitadas a uma seleção pré-definida e obedecerão às políticas de segurança existentes da companhia.
A empresa reconhece que os modelos de áudio apresentados podem trazer diversos riscos, e, nos próximos meses, a OpenAI trabalhará em um arcabouço técnico com "usabilidade via pós-treinamento e segurança necessária" para lançar a solução.
A companhia reafirma que o papel da OpenAI é oferecer "amplamente" o acesso das pessoas à sua tecnologia. Tanto que o GPT-4o ganha uma versão para desktop e está liberado para os usuários que acessam a versão gratuita. A diferença ante a versão paga ChatGPT Plus é a velocidade (em média cinco vezes mais rápido) e o Voice Mode, que chega em modo de testes (alpha).
Para os desenvolvedores, o acesso também está liberado para as funções de texto e imagem. Suporte para áudio e vídeo será liberado nas próximas semanas para um pequeno grupo de parceiros.