Apoiar a economia do criador com vídeo gerado por IA exigirá mais GPUs do que todas as grandes empresas de tecnologia operam.
- A possibilidade de geração de texto para vídeo entusiasma o mercado de Cripto , e os tokens de IA aumentaram quando a OpenAI revelou pela primeira vez uma demonstração do Sora
- Mas para tornar isso popular, o poder da computação será impressionante. Serão necessárias mais GPUs H100 para servidor do que a Nvidia produz em um ano, ou o que seus maiores clientes executam em seus data centers coletivamente.
Quantas unidades de processamento gráfico (GPUs) serão necessárias para tornar a geração de texto para vídeo popular? Centenas de milhares – e mais do que os atualmente usados pela Microsoft, Meta e Google juntos.
A primeira demonstração do gerador de texto para vídeo da OpenAI, Sora, surpreendeu o mundo, e esse interesse renovado em tokens de Inteligência Artificial (IA), com muitos surgindo após a demonstração.
Nas semanas que se seguiram, surgiram muitos projetos de Cripto de IA, também prometendo gerar texto para vídeo e texto para imagem, e a categoria de tokens de IA agora tem um valor de mercado de US$ 25 bilhões , de acordo com dados da CoinGecko.
Por trás da promessa de vídeos gerados por IA estão exércitos de Unidades de Processamento Gráfico (GPUs), os processadores de empresas como Nvidia e AMD, que tornam possível a revolução da IA graças à sua capacidade de computar grandes volumes de dados.
Mas quantas GPUs serão necessárias para tornar o vídeo gerado por IA uma coisa popular? Mais do que as grandes empresas de tecnologia tinham em seu arsenal em 2023.
Um exército de 720.000 GPUs Nvidia H100
Um relatório de pesquisa recente da Factorial Funds estima que 720.000 GPUs Nvidia H100 de ponta são necessárias para apoiar a comunidade de criadores do TikTok e do YouTube.
Sora, escreve Factorial Funds, requer até 10.500 GPUs poderosas por um mês para treinar e pode gerar apenas cerca de 5 minutos de vídeo por hora por GPU para inferência.
omo demonstra o gráfico acima, o treinamento requer significativamente mais poder de computação do que o GPT4 ou a geração de imagens estáticas.
Com a adoção generalizada, a inferência superará o treinamento no uso da computação. Isso significa que à medida que mais pessoas e empresas começarem a usar modelos de IA como o Sora para gerar vídeos, o poder do computador necessário para criar novos vídeos (inferência) se tornará maior do que o poder necessário para treinar inicialmente o modelo de IA.
Para colocar as coisas em perspectiva, a Nvidia vendeu 550.000 GPUs H100 em 2023.
Dados do Statista mostram que os doze maiores clientes que usam GPUs H100 da Nvidia possuem coletivamente 650.000 placas, e os dois maiores – Meta e Microsoft – têm 300.000 entre eles.
Supondo um custo de US$ 30.000 por cartão, seriam necessários US$ 21,6 bilhões para tornar mainstream o sonho de Sora de texto para vídeo gerado por IA, que representa quase todo o valor de mercado dos tokens de IA no momento.
Isso se você puder adquirir fisicamente todas as GPUs para fazer isso.
Nvidia T é o único jogo da cidade
Embora Nvidia seja sinônimo de revolução da IA, é importante lembrar que não é o único jogo da cidade.
Sua eterna rival de chips, a AMD, fabrica produtos concorrentes, e os investidores também recompensaram generosamente a empresa, elevando suas ações da faixa de US$ 2 no outono de 2012 para mais de US$ 175 hoje.
Existem também outras maneiras de terceirizar o poder de computação para farms de GPU. Render (RNDR) oferece computação GPU distribuída, assim como Akash Network (AKT). Mas a maioria das GPUs nessas redes são GPUs de jogos de varejo, que são significativamente menos poderosas do que o H100 de servidor da Nvidia ou o da concorrência da AMD.
Independentemente disso, a promessa de texto para vídeo, que Sora e outros protocolos prometem, exigirá um aumento hercúleo de hardware. Embora seja uma premissa intrigante e possa revolucionar o fluxo de trabalho criativo de Hollywood, T espere que se torne popular tão cedo.