Gemma 3: Multimodalidade na Próxima Geração de Modelos de IA Abertos

Na semana passada, a Google anunciou o lançamento do Gemma 3, a mais recente versão de sua família de modelos abertos que foi baixada mais de 100 milhões de vezes desde seu lançamento inicial. Esta nova iteração representa um avanço significativo nas capacidades de IA, baseando-se em versões anteriores com vários recursos altamente solicitados. Os modelos Gemma 3 estão disponíveis em quatro tamanhos (1B, 4B, 12B e 27B) e vêm tanto em versões pré-treinadas que podem ser ajustadas para casos de uso específicos quanto em variantes instruídas para uso geral.

Entre os aprimoramentos mais notáveis no Gemma 3 está seu suporte à multimodalidade, que permite ao modelo processar entradas visuais juntamente com texto. Esta funcionalidade é alimentada por um codificador de visão integrado baseado em SigLIP, permitindo que o Gemma analise imagens, responda a perguntas sobre conteúdo visual, compare imagens, identifique objetos e até interprete texto dentro de imagens. O modelo pode lidar com imagens de alta resolução e não quadradas através de um novo algoritmo de janela adaptativa que segmenta as imagens de entrada de forma eficaz. Além disso, o Gemma 3 expandiu sua janela de contexto para acomodar até 128.000 tokens e melhorou suas capacidades multilíngues para suportar mais de 140 idiomas.

O desenvolvimento do Gemma 3 envolveu metodologias de treinamento sofisticadas, incluindo uma combinação de destilação, aprendizado por reforço e fusão de modelos. O processo de pré-treinamento utilizou TPUs do Google com o Framework JAX e incorporou quantidades variáveis de tokens de treinamento com base no tamanho do modelo: 2 trilhões para o modelo 1B, 4 trilhões para o modelo 4B, 12 trilhões para o modelo 12B e 14 trilhões de tokens para o modelo 27B. Os refinamentos pós-treinamento incluíram destilação de modelos de instrução maiores, aprendizado por reforço a partir de feedback humano (RLHF), aprendizado por reforço a partir de feedback de máquina (RLMF) para raciocínio matemático aprimorado, e aprendizado por reforço a partir de feedback de execução (RLEF) para melhorar as capacidades de codificação. Essas abordagens abrangentes posicionaram o Gemma 3 como o principal modelo compacto aberto no LMArena com uma pontuação de 1338.

O ecossistema Gemma expandiu-se ainda mais com a introdução do ShieldGemma 2, um classificador de segurança de imagem 4B construído com a tecnologia Gemma 3. Este modelo especializado gera rótulos em categorias-chave de segurança, permitindo moderação eficaz para imagens sintéticas criadas por modelos de geração e imagens naturais que podem servir como entradas para Modelos de Visão-Linguagem como o Gemma 3.

Desenvolvedores e pesquisadores que desejam explorar as capacidades do Gemma 3 podem começar imediatamente através de várias vias: experimentando diretamente via Google AI Studio, baixando os pesos do modelo do Hugging Face e Kaggle, ou integrando os modelos usando várias ferramentas de desenvolvimento, incluindo Hugging Face Transformers, Ollama, a nova biblioteca Gemma JAX, MaxText, LiteRT, Gemma.cpp, llama.cpp e Unsloth. As opções de implantação são igualmente diversas, abrangendo Google GenAI API, Vertex AI, Cloud Run, Cloud TPU e plataformas Cloud GPU.

Post Views: 10

Gemma 3: Diversidade de Modalidades na Nova Geração de Modelos de IA Abertos

Na semana passada, a Google revelou o lançamento do Gemma 3, a versão mais recente de sua linha de modelos abertos, que já foi baixada mais de 100 milhões de vezes desde seu lançamento inicial. Essa nova versão representa um progresso significativo nas capacidades de IA, aproveitando as melhorias de versões anteriores e incorporando diversos recursos muito solicitados. Os modelos Gemma 3 estão disponíveis em quatro tamanhos (1B, 4B, 12B e 27B) e incluem tanto versões pré-treinadas, que podem ser ajustadas para aplicações específicas, quanto variantes instruídas para uso geral.

Entre os aprimoramentos mais relevantes do Gemma 3 está a sua capacidade de multimodalidade, que permite ao modelo processar entradas visuais junto com texto. Essa funcionalidade é suportada por um codificador de visão integrado baseado no SigLIP, que possibilita ao Gemma analisar imagens, responder a perguntas sobre conteúdo visual, comparar imagens, identificar objetos e até interpretar texto presente em imagens. O modelo é capaz de lidar com imagens de alta resolução e não quadradas graças a um novo algoritmo de janela adaptativa que segmenta as imagens de entrada de maneira eficaz. Além disso, o Gemma 3 ampliou sua janela de contexto para suportar até 128.000 tokens e aprimorou suas capacidades multilíngues, agora suportando mais de 140 idiomas.

O desenvolvimento do Gemma 3 envolveu metodologias de treinamento avançadas, incluindo uma combinação de destilação, aprendizado por reforço e fusão de modelos. O processo de pré-treinamento utilizou TPUs do Google com o Framework JAX e incorporou diferentes quantidades de tokens de treinamento com base no tamanho do modelo: 2 trilhões para o modelo 1B, 4 trilhões para o modelo 4B, 12 trilhões para o modelo 12B e 14 trilhões de tokens para o modelo 27B. Os refinamentos pós-treinamento incluíram a destilação de modelos de instrução maiores, aprendizado por reforço a partir de feedback humano (RLHF), aprendizado por reforço a partir de feedback de máquina (RLMF) para raciocínio matemático melhorado, e aprendizado por reforço a partir de feedback de execução (RLEF) para aprimorar as habilidades de codificação. Essas abordagens abrangentes colocaram o Gemma 3 como o principal modelo compacto aberto no LMArena, com uma pontuação de 1338.

O ecossistema Gemma também se expandiu com a introdução do ShieldGemma 2, um classificador de segurança de imagem 4B desenvolvido com a tecnologia Gemma 3. Este modelo especializado gera rótulos em categorias-chave de segurança, permitindo uma moderação eficaz para imagens sintéticas criadas por modelos de geração e imagens naturais que podem ser usadas como entradas para Modelos de Visão-Linguagem como o Gemma 3.

Desenvolvedores e pesquisadores interessados em explorar as funcionalidades do Gemma 3 podem começar imediatamente de várias maneiras: experimentando diretamente pelo Google AI Studio, baixando os pesos do modelo do Hugging Face e Kaggle, ou integrando os modelos usando diversas ferramentas de desenvolvimento, incluindo Hugging Face Transformers, Ollama, a nova biblioteca Gemma JAX, MaxText, LiteRT, Gemma.cpp, llama.cpp e Unsloth. As opções de implantação são igualmente variadas, abrangendo Google GenAI API, Vertex AI, Cloud Run, Cloud TPU e plataformas Cloud GPU.

Post Views: 10

Tags

Compartilhe esse Post

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore