Explicando em 5 minutos - O que a “Gemini” do Google pode fazer comparado com o ChatGPT

Neste artigo, vamos explicar em um formato de 5 minutos de leitura sobre a IA de geração multimodal “Gemini” do Google, que foi anunciado em 6 de dezembro de 2023.

Índice

1-O que é Gemini?

2-O que é possível fazer com Gemini – O que é multimodal ?

3-Diferenças e comparações entre Gemini e ChatGPT

4-Planos futuros e como usar o Gemini

5-Conclusão

 

1. O que é Gemini?

O “Gemini” anunciado pelo Google em 6 de dezembro de 2023 é um modelo de IA generativa multimodal de ponta. Este modelo pode entender vários tipos de dados, como texto, imagem, áudio, vídeo e código, e combinar e manipular esses dados. Isso permite que ele lide com tarefas complexas que os modelos de IA generativa anteriores tinham dificuldade.

O Gemini será lançado em três modelos.

Gemini Ultra… Um modelo que oferece o mais alto nível de desempenho em uma ampla gama de campos, incluindo tarefas muito complexas, especialmente tarefas de inferência e multimodais.

Gemini Pro… Um modelo versátil que é otimizado para uma ampla gama de tarefas em termos de custo e latência.

Gemini Nano… Um modelo eficiente otimizado para tarefas em dispositivos, como smartphones ou tablets.

Fonte da imagem: https://deepmind.google/technologies/gemini/#introduction

2.O que é possível com Gemini – O que é multimodal ?

O Gemini, com suas habilidades multimodais, é esperado para trazer mudanças inovadoras em uma ampla gama de indústrias.

Multimodal refere-se à capacidade de uma IA de lidar com vários tipos de dados ao mesmo tempo. O Gemini aprende esses tipos de dados do zero e permite uma geração mais sofisticada usando dados multimodais.

A capacidade de lidar com texto, áudio, imagem, vídeo, etc. como entrada e texto e imagem como saída de forma entrelaçada (Interleave) é uma característica importante que outros IAs generativo não possuem.

Além disso, tarefas como resumir documentos complexos, extrair insights, responder a perguntas complexas baseadas em texto e imagens, e até gerar código de programação avançado são possíveis graças à avançada capacidade de inferência do Gemini. Em particular, em campos como pesquisa científica e análise financeira, será possível extrair apenas as informações necessárias e importantes de uma grande quantidade de dados.

Além disso, o Gemini está planejado para ser otimizado para tarefas em dispositivos móveis, melhorando drasticamente o desempenho de aplicações diárias como reconhecimento de voz e processamento de imagens, tornando nossas vidas mais convenientes e produtivas.

 

3.Diferenças e comparações entre Gemini e ChatGPT

Anunciado em setembro de 2023, como representado pelo GPT-4V, o ChatGPT também pode lidar com tarefas multimodais. No entanto, não foi divulgado como a implementação interna é feita. Pode ser possível que ele esteja realizando multimodal combinando tecnologias existentes (por exemplo, a capacidade de OCR imagens em strings e interpretá-las em LLM).

Por outro lado, o Gemini foi projetado desde o início para lidar com informações multimodais, e ao treiná-lo com um conjunto de dados multimodais desde o estágio de treinamento, ele se tornou um modelo que pode lidar nativamente com informações multimodais na entrada e saída.

“Os modelos Gemini são treinados para acomodar entradas de texto entrelaçadas com uma ampla variedade de entradas de áudio e visuais, como imagens naturais, gráficos, capturas de tela, PDFs e vídeos, e eles podem produzir saídas de texto e imagem (veja a Figura 2). A codificação visual dos modelos Gemini é inspirada em nosso próprio trabalho fundamental em Flamingo (Alayrac et al., 2022), CoCa (Yu et al., 2022a) e PaLI (Chen et al., 2022), com a importante distinção de que os modelos são multimodais desde o início e podem produzir imagens nativamente usando tokens de imagem discretos (Ramesh et al., 2021; Yu et al., 2022b).”

Além disso, gostaríamos de apresentar o teste de benchmark do Gemini e GPT4 em termos de desempenho de processamento de tarefas multimodais e tarefas de texto, que estão postados no site oficial do Google DeepMind, o instituto de pesquisa de inteligência artificial do Google.

O desempenho multimodal do Gemini supera ligeiramente o GPT-4, especialmente em tarefas de reconhecimento de imagem (VQA2, TextVQA), e mostra uma diferença de mais de 2,5% na compreensão de documentos (DocVQA). Por outro lado, no caption de vídeo (VATEX), o Gemini é cerca de 6,7 pontos mais alto, e na tradução de voz (CoVoST 2), o Gemini Pro é 10,2 pontos mais alto que o Whisper v2 do GPT-4.

Nos benchmarks baseados em texto, o Gemini Ultra supera o GPT-4 em tarefas de conhecimento geral (MMLU), inferência (Big-Bench Hard) e leitura (DROP), mas o GPT-4 está no topo em inferência de senso comum (HellaSwag). Em matemática (GSM8K), ambos mostram resultados semelhantes, e em geração de código (HumanEval, Natural2Code), o Gemini mostra maior precisão.

O score HellaSwag é pior que o GPT-4, mas no relatório técnico (https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf), a possibilidade de contaminação de dados é apontada.

MMLU é dito ser um benchmark abrangente para LLM, e há dados que afirmam que especialistas humanos em campos específicos têm 89,8% (referência:https://arxiv.org/abs/2009.03300), e registrou pela primeira vez no mundo 90,0% nos dados de teste.

Em outras palavras, não seria exagero dizer que um IA como um super-homem com conhecimento e habilidades de resolução de problemas superiores aos de especialistas em todos os campos, como medicina, física, matemática e direito, apareceu.

MMLU… Um dos métodos mais comuns para testar o conhecimento e a capacidade de resolução de problemas de um modelo de AI.

Em conclusão, ficou claro que o Gemini supera o GPT-4 e o GPT-4V em quase todos os itens de tarefa e é seguro dizer que ele tem um alto potencial para processar tarefas multimodais.

 

 

Referência: https://deepmind.google/technologies/gemini/#capabilities

Imagem fonte: https://deepmind.google/technologies/gemini/#capabilities

4.Planos futuros e como usar o Gemini

O Gemini será integrado a vários produtos e serviços do Google no futuro, criando muitos pontos de contato onde os usuários podem interagir diretamente.

Serviços Google (suporte sequencial)

O Gemini será integrado à pesquisa e publicidade do Google, melhorando a precisão e relevância dos resultados da pesquisa para melhorar a experiência do usuário. Também é esperado que seja usado para personalizar e otimizar conteúdo publicitário. Ele também será disponibilizado em Chrome, Duet AI, Google Maps, etc.

 

Google Pixel

No mais recente modelo da série Google Pixel, Pixel 8 Pro, o Gemini Nano é projetado para funcionar no dispositivo, proporcionando uma nova experiência ao usuário. Por exemplo, reconhecimento de voz, organização automática de fotos, apoio eficiente à comunicação, etc., tornam-se possíveis.

 

Google Bard

Integrando o Gemini Pro ao Bard, os usuários poderão utilizar uma IA de conversação mais avançada para editar textos, brainstorming , planejamento, etc. Isso ajuda os usuários a trabalhar de maneira mais criativa e eficiente. Além disso, espera-se que a expansão para vários tipos de dados multimodais, novas regiões e idiomas seja adicionada nos próximos meses. Em 2024, o Bard Advanced, que integra o Gemini Ultra e oferece a experiência de IA mais avançada, também está planejado para ser lançado.

A versão em inglês do Bard foi lançada em mais de 170 países e regiões a partir de 6 de dezembro de 2023.

API para desenvolvedores (lançada em 13 de dezembro de 2023)

Através do Gemini API oferecido pelo Google AI Studio e Vertex AI, os desenvolvedores podem integrar o Gemini Pro em suas próprias aplicações e serviços. Isso permite que os desenvolvedores ofereçam recursos mais ricos e inteligentes aos seus usuários.

 

5.Conclusão

Com o advento do Gemini do Google, a utilização da IA generativa evoluirá para a próxima fase centrada no multimodal. Espera-se que esteja disponível no Brasil em breve, então fique atento.

Referência: https://japan.googleblog.com/2023/12/gemini.html

Google, Chrome, Google Pixel e Google Maps são marcas comerciais da Google LLC.