Nossos leitores nos patrocinam e ganhamos comissões de afiliados quando você clica e compra em links em nosso site. Divulgação de Afiliados

Microsoft Azure atualizado para clusters de GPU AMD Instinct MI200 para treinamento de IA de ‘grande escala’, oferece 20% de melhoria de desempenho em relação às GPUs NVIDIA A100

Ontem, Microsoft Azure divulgado o plano de usar as GPUs AMD Instinct MI200 Instinct para expandir o aprendizado de máquina de IA na nuvem amplamente usada em uma escala maior. A AMD revelou a série de GPUs MI200 no evento Accelerated Datacenter exclusivo da empresa no final de 2021. Os aceleradores AMD MI200 utilizam a arquitetura CDNA 2, oferecendo 58 bilhões de transistores com memória de alta largura de banda de 128 GB em um layout dual-die.

O Microsoft Azure usará as GPUs AMD Instinct MI200 para realizar treinamento extensivo de IA na plataforma baseada em nuvem

Forrest Norrod, vice-presidente sênior e gerente geral de data center e soluções incorporadas da AMD, garante que os chips de última geração são quase cinco vezes mais eficientes do que a GPU A100 de nível superior da NVIDIA. Este cálculo diz respeito às medidas do FP64 que a empresa considerou “altamente precisas”. Nas cargas de trabalho do FP16, a diferença foi reduzida principalmente nas cargas de trabalho padrão, embora a AMD tenha declarado que os chips eram até 20% mais instantâneos do que o atual NVIDIA A100, onde a empresa continua sendo a líder em GPU de data center.

O Azure será a primeira nuvem pública a implantar clusters das principais GPUs MI200 da AMD para treinamento de IA em larga escala. Já começamos a testar esses clusters usando algumas de nossas próprias cargas de trabalho de IA com ótimo desempenho.

— Kevin Scott, diretor técnico da Microsoft

Não se sabe quando as instâncias do Azure que utilizam GPUs AMD Instinct MI200 estarão amplamente disponíveis ou se a série será usada em situações de carga de trabalho internas.

A Microsoft está trabalhando com a AMD para aprimorar as GPUs da empresa para cargas de trabalho de aprendizado de máquina sob a estrutura de aprendizado de máquina de código aberto, PyTorch.

Também estamos aprofundando nossos investimentos na estrutura PyTorch de código aberto, trabalhando com a equipe principal do PyTorch e a AMD para otimizar o desempenho e a experiência do desenvolvedor para clientes que executam o PyTorch no Azure e para garantir que os projetos PyTorch dos desenvolvedores funcionem muito bem no AMD hardware.

A recente parceria da Microsoft com a Meta AI foi o desenvolvimento do PyTorch para ajudar a impulsionar a infraestrutura das cargas de trabalho do framework. A Meta AI revelou que a empresa planeja utilizar cargas de trabalho de aprendizado de máquina de última geração em um cluster reservado no Microsoft Azure que recrutaria 5.400 GPUs A100 da NVIDIA.

Essa colocação estratégica da NVIDIA permitiu que a empresa ganhasse US$ 3,75 bilhões no último trimestre, superando o mercado de jogos da empresa, que terminou em US$ 3,62 bilhões – o primeiro da empresa.

Espera-se que as GPUs Intel Ponte Vecchio sejam lançadas no final do ano, juntamente com os processadores escaláveis ​​Sapphire Rapids Xeon do fabricante, que será a primeira vez que a Intel competirá com as GPUs H100 da NVIDIA e Instinct MI200 da AMD para o mercado de serviços em nuvem. A empresa também introduziu os aceleradores de IA de próxima geração para treinamento e inferências e relatou desempenho superior às GPUs A100 da NVIDIA.

Fonte de notícias: O registro