Neste artigo, vamos explicar em um formato de 5 minutos de leitura sobre a IA de geração multimodal “Gemini” do Google, que foi anunciado em 6 de dezembro de 2023.
Índice
1-O que é Gemini?
2-O que é possível fazer com Gemini – O que é multimodal ?
3-Diferenças e comparações entre Gemini e ChatGPT
4-Planos futuros e como usar o Gemini
5-Conclusão
1. O que é Gemini?
O “Gemini” anunciado pelo Google em 6 de dezembro de 2023 é um modelo de IA generativa multimodal de ponta. Este modelo pode entender vários tipos de dados, como texto, imagem, áudio, vídeo e código, e combinar e manipular esses dados. Isso permite que ele lide com tarefas complexas que os modelos de IA generativa anteriores tinham dificuldade.
O Gemini será lançado em três modelos.
Gemini Ultra… Um modelo que oferece o mais alto nível de desempenho em uma ampla gama de campos, incluindo tarefas muito complexas, especialmente tarefas de inferência e multimodais.
Gemini Pro… Um modelo versátil que é otimizado para uma ampla gama de tarefas em termos de custo e latência.
Gemini Nano… Um modelo eficiente otimizado para tarefas em dispositivos, como smartphones ou tablets.
Fonte da imagem: https://deepmind.google/technologies/gemini/#introduction
2.O que é possível com Gemini – O que é multimodal ?
O Gemini, com suas habilidades multimodais, é esperado para trazer mudanças inovadoras em uma ampla gama de indústrias.
Multimodal refere-se à capacidade de uma IA de lidar com vários tipos de dados ao mesmo tempo. O Gemini aprende esses tipos de dados do zero e permite uma geração mais sofisticada usando dados multimodais.
A capacidade de lidar com texto, áudio, imagem, vídeo, etc. como entrada e texto e imagem como saída de forma entrelaçada (Interleave) é uma característica importante que outros IAs generativo não possuem.
Além disso, tarefas como resumir documentos complexos, extrair insights, responder a perguntas complexas baseadas em texto e imagens, e até gerar código de programação avançado são possíveis graças à avançada capacidade de inferência do Gemini. Em particular, em campos como pesquisa científica e análise financeira, será possível extrair apenas as informações necessárias e importantes de uma grande quantidade de dados.
Além disso, o Gemini está planejado para ser otimizado para tarefas em dispositivos móveis, melhorando drasticamente o desempenho de aplicações diárias como reconhecimento de voz e processamento de imagens, tornando nossas vidas mais convenientes e produtivas.
3.Diferenças e comparações entre Gemini e ChatGPT
Anunciado em setembro de 2023, como representado pelo GPT-4V, o ChatGPT também pode lidar com tarefas multimodais. No entanto, não foi divulgado como a implementação interna é feita. Pode ser possível que ele esteja realizando multimodal combinando tecnologias existentes (por exemplo, a capacidade de OCR imagens em strings e interpretá-las em LLM).
Por outro lado, o Gemini foi projetado desde o início para lidar com informações multimodais, e ao treiná-lo com um conjunto de dados multimodais desde o estágio de treinamento, ele se tornou um modelo que pode lidar nativamente com informações multimodais na entrada e saída.
“Os modelos Gemini são treinados para acomodar entradas de texto entrelaçadas com uma ampla variedade de entradas de áudio e visuais, como imagens naturais, gráficos, capturas de tela, PDFs e vídeos, e eles podem produzir saídas de texto e imagem (veja a Figura 2). A codificação visual dos modelos Gemini é inspirada em nosso próprio trabalho fundamental em Flamingo (Alayrac et al., 2022), CoCa (Yu et al., 2022a) e PaLI (Chen et al., 2022), com a importante distinção de que os modelos são multimodais desde o início e podem produzir imagens nativamente usando tokens de imagem discretos (Ramesh et al., 2021; Yu et al., 2022b).”
Além disso, gostaríamos de apresentar o teste de benchmark do Gemini e GPT4 em termos de desempenho de processamento de tarefas multimodais e tarefas de texto, que estão postados no site oficial do Google DeepMind, o instituto de pesquisa de inteligência artificial do Google.
O desempenho multimodal do Gemini supera ligeiramente o GPT-4, especialmente em tarefas de reconhecimento de imagem (VQA2, TextVQA), e mostra uma diferença de mais de 2,5% na compreensão de documentos (DocVQA). Por outro lado, no caption de vídeo (VATEX), o Gemini é cerca de 6,7 pontos mais alto, e na tradução de voz (CoVoST 2), o Gemini Pro é 10,2 pontos mais alto que o Whisper v2 do GPT-4.
Nos benchmarks baseados em texto, o Gemini Ultra supera o GPT-4 em tarefas de conhecimento geral (MMLU), inferência (Big-Bench Hard) e leitura (DROP), mas o GPT-4 está no topo em inferência de senso comum (HellaSwag). Em matemática (GSM8K), ambos mostram resultados semelhantes, e em geração de código (HumanEval, Natural2Code), o Gemini mostra maior precisão.
O score HellaSwag é pior que o GPT-4, mas no relatório técnico (https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf), a possibilidade de contaminação de dados é apontada.
MMLU é dito ser um benchmark abrangente para LLM, e há dados que afirmam que especialistas humanos em campos específicos têm 89,8% (referência:https://arxiv.org/abs/2009.03300), e registrou pela primeira vez no mundo 90,0% nos dados de teste.
Em outras palavras, não seria exagero dizer que um IA como um super-homem com conhecimento e habilidades de resolução de problemas superiores aos de especialistas em todos os campos, como medicina, física, matemática e direito, apareceu.
MMLU… Um dos métodos mais comuns para testar o conhecimento e a capacidade de resolução de problemas de um modelo de AI.
Em conclusão, ficou claro que o Gemini supera o GPT-4 e o GPT-4V em quase todos os itens de tarefa e é seguro dizer que ele tem um alto potencial para processar tarefas multimodais.
Referência: https://deepmind.google/technologies/gemini/#capabilities
Imagem fonte: https://deepmind.google/technologies/gemini/#capabilities
4.Planos futuros e como usar o Gemini
O Gemini será integrado a vários produtos e serviços do Google no futuro, criando muitos pontos de contato onde os usuários podem interagir diretamente.
Serviços Google (suporte sequencial)
O Gemini será integrado à pesquisa e publicidade do Google, melhorando a precisão e relevância dos resultados da pesquisa para melhorar a experiência do usuário. Também é esperado que seja usado para personalizar e otimizar conteúdo publicitário. Ele também será disponibilizado em Chrome, Duet AI, Google Maps, etc.
Google Pixel
No mais recente modelo da série Google Pixel, Pixel 8 Pro, o Gemini Nano é projetado para funcionar no dispositivo, proporcionando uma nova experiência ao usuário. Por exemplo, reconhecimento de voz, organização automática de fotos, apoio eficiente à comunicação, etc., tornam-se possíveis.
Google Bard
Integrando o Gemini Pro ao Bard, os usuários poderão utilizar uma IA de conversação mais avançada para editar textos, brainstorming , planejamento, etc. Isso ajuda os usuários a trabalhar de maneira mais criativa e eficiente. Além disso, espera-se que a expansão para vários tipos de dados multimodais, novas regiões e idiomas seja adicionada nos próximos meses. Em 2024, o Bard Advanced, que integra o Gemini Ultra e oferece a experiência de IA mais avançada, também está planejado para ser lançado.
A versão em inglês do Bard foi lançada em mais de 170 países e regiões a partir de 6 de dezembro de 2023.
API para desenvolvedores (lançada em 13 de dezembro de 2023)
Através do Gemini API oferecido pelo Google AI Studio e Vertex AI, os desenvolvedores podem integrar o Gemini Pro em suas próprias aplicações e serviços. Isso permite que os desenvolvedores ofereçam recursos mais ricos e inteligentes aos seus usuários.
5.Conclusão
Com o advento do Gemini do Google, a utilização da IA generativa evoluirá para a próxima fase centrada no multimodal. Espera-se que esteja disponível no Brasil em breve, então fique atento.
Referência: https://japan.googleblog.com/2023/12/gemini.html
Google, Chrome, Google Pixel e Google Maps são marcas comerciais da Google LLC.