Ampla abertura: NVIDIA acelera a inferência no Meta Llama 3
top of page

Ampla abertura: NVIDIA acelera a inferência no Meta Llama 3

A NVIDIA anuncia otimizações em todas as suas plataformas para acelerar o Meta Llama 3, a mais recente geração do grande modelo de linguagem (LLM). O modelo aberto combinado com computação acelerada pela NVIDIA equipa desenvolvedores, pesquisadores e empresas para inovar de forma responsável em uma ampla variedade de aplicações.

Treinado na IA da NVIDIA

Os engenheiros da Meta treinaram o Llama 3 em clusters de computadores com 24.576 GPUs NVIDIA H100 Tensor Core, conectados com redes RoCE e NVIDIA Quantum-2 InfiniBand. Com o apoio da NVIDIA, a Meta ajustou sua rede, software e arquiteturas de modelo para seu LLM de ponta.

Para avançar ainda mais o estado da arte em IA generativa, a Meta recentemente descreveu planos para escalar sua infraestrutura para 350.000 GPUs H100.

Colocando o Llama 3 para trabalhar

Versões do Llama 3, aceleradas em GPUs NVIDIA, estão disponíveis para uso na nuvem, centro de dados, borda e PC.

A partir de um navegador, os desenvolvedores podem experimentar o Llama 3 em ai.nvidia.com. Ele é empacotado como um microsserviço NVIDIA NIM com uma interface de programação de aplicações padrão que pode ser implantada em qualquer lugar.

Empresas podem ajustar o Llama 3 com seus dados usando o NVIDIA NeMo, um framework de código aberto para LLMs que faz parte da plataforma NVIDIA AI Enterprise, segura e suportada. Modelos personalizados podem ser otimizados para inferência com o TensorRT-LLM da NVIDIA e implantados com o Triton Inference Server da NVIDIA.

Levando o Llama 3 para dispositivos e PCs

O Llama 3 também é executado no NVIDIA Jetson Orin para robótica e dispositivos de computação de borda, criando agentes interativos como os do Jetson AI Lab.

Além disso, as GPUs NVIDIA RTX e GeForce RTX para estações de trabalho e PCs aceleram a inferência no Llama 3. Esses sistemas oferecem aos desenvolvedores um alvo de mais de 100 milhões de sistemas acelerados pela NVIDIA em todo o mundo.

Obtenha desempenho ótimo com o Llama 3

As melhores práticas na implantação de um LLM para um chatbot envolvem um equilíbrio entre baixa latência, boa velocidade de leitura e uso ótimo de GPU para reduzir custos.

Um serviço desse tipo precisa entregar tokens — o equivalente aproximado de palavras para um LLM — a cerca de duas vezes a velocidade de leitura de um usuário, que é cerca de 10 tokens/segundo.

Aplicando essas métricas, uma única GPU NVIDIA H200 Tensor Core gerou cerca de 3.000 tokens/segundo — o suficiente para atender cerca de 300 usuários simultâneos — em um teste inicial usando a versão do Llama 3 com 70 bilhões de parâmetros.

Isso significa que um único servidor NVIDIA HGX com oito GPUs H200 poderia entregar 24.000 tokens/segundo, otimizando ainda mais os custos ao suportar mais de 2.400 usuários ao mesmo tempo.

Para dispositivos de borda, a versão do Llama 3 com oito bilhões de parâmetros gerou até 40 tokens/segundo no Jetson AGX Orin e 15 tokens/segundo no Jetson Orin Nano.

Avançando em modelos comunitários

Uma contribuidora ativa de código aberto, a NVIDIA está comprometida em otimizar o software da comunidade que ajuda os usuários a enfrentar seus desafios mais difíceis. Modelos de código aberto também promovem transparência na IA e permitem que os usuários compartilhem amplamente o trabalho sobre segurança e resiliência da IA.

Saiba mais sobre como a plataforma de inferência AI da NVIDIA, incluindo como NIM, TensorRT-LLM e Triton usam técnicas de ponta, como adaptação de baixa classificação, para acelerar os mais recentes LLMs.

"Estamos entusiasmados em oferecer mais essa tecnologia de IA da NVIDIA para impulsionar a inovação. Com o Meta Llama 3 otimizado para nossas GPUs, estamos capacitando desenvolvedores e empresas a explorar todo o potencial da inteligência artificial em uma variedade de aplicações, desde a nuvem até dispositivos de borda", reforça Marcio Aguiar, diretor da divisão Enterprise da NVIDIA para América Latina.

 

Sobre a NVIDIA

Desde sua fundação em 1993, a NVIDIA (NASDAQ: NVDA) tem sido pioneira em computação acelerada. A invenção da GPU pela empresa em 1999 estimulou o crescimento do mercado de games para PC, redefiniu a computação gráfica, iniciou a era da IA moderna e tem ajudado a digitalização industrial em todos os mercados. A NVIDIA agora é uma empresa de infraestrutura de computação full-stack com soluções em escala de data center que estão revolucionando o setor. Mais informações em: https://www.nvidia.com/pt-br/.

Acesse também:

Facebook: @NVIDIABrasil

Twitter: @NVIDIABrasil

Instagram: @NVIDIABrasil


Posts Relacionados

Ver tudo

Maio mantém alta em oportunidades de emprego

O mercado de trabalho segue aquecido para as contratações neste mês de maio. Segundo um levantamento da Infojobs, HR Tech que desenvolve soluções para RH, desde janeiro, já foram anunciadas mais de 60

bottom of page