Até pouco tempo atrás, “HappyHorse” era o nome de uma empresa holandesa que fabricava bichos de pelúcia. Então, um novo modelo de geração de imagens apareceu em sites de benchmarking. As pessoas notaram.
Mais tarde, a Alibaba “reivindicou a paternidade” do modelo, proclamando que ele teve origem dentro do império de Jack Ma.
Alguns disseram que lançar o modelo desta forma ajudou a Alibaba a evitar a burocracia. Outros disseram que isso alimentou o hype de um desafiante “azarão”, talvez de forma semelhante à maneira como o Bitcoin de Satoshi abalou o mundo há pouco mais de uma década (ou seriam duas décadas?). Houve quem sugerisse que, ao não vincular um nome de peso ao HappyHorse de imediato, o modelo poderia ser julgado apenas por seus próprios méritos.
Quanto aos méritos, vamos falar sobre por que as pessoas estão gostando do HappyHorse como modelo. Os sites de avaliação revelam que os usuários tendem a preferir os resultados de imagem deste modelo em comparação a outros em confrontos diretos. O HappyHorse tem um bom “Elo”.
Mas o que é um Elo? Bem, pronuncia-se “ê-lo” e vem do mundo do xadrez. O nome vem de um húngaro que criou um sistema para ranquear jogadores. Foi usado na década de 1960 pela Federação de Xadrez dos Estados Unidos, tornou-se um marcador bem conhecido e agora é útil para a IA.
Na geração de vídeo com o sistema Elo, as pessoas comparam dois clipes sem identificação e escolhem o melhor. O modelo vencedor ganha pontos, o perdedor perde alguns.
E o HappyHorse está passando o rodo. Analisando os resultados disponíveis em alguns desses sites, aqui estão alguns pontos fortes específicos que os usuários estão notando nos vídeos do HappyHorse:
- Iluminação cinematográfica e gradação de cores (color grading);
- Movimentos mais naturais (menos daquela “rigidez de IA”);
- Melhor consistência entre as cenas (mesmo personagem, mesma cena);
- Texturas e rostos fotorrealistas;
- Bom realismo geral;
- Movimento fluido.
É muita coisa positiva para um modelo de geração de vídeo que está atraindo todos os olhares enquanto 2026 avança.
HappyHorse e Sora
Algumas pessoas gostam de comparar o HappyHorse a modelos de geração de vídeo como o Sora, que a OpenAI aparentemente vai desativar em breve.
Ao perguntar ao ChatGPT, ele sugeriu que, embora o Sora como produto seja descontinuado, a tecnologia subjacente ainda existirá. Isso é óbvio: a notícia principal é que, de fato, o Sora como plataforma não estará em nenhum ranking, nem competindo por qualidade por quadro ou, em última análise, competindo por nada.
Portanto, notar que o HappyHorse está agora acima do Sora na maioria dos rankings se tornará irrelevante. Mas, neste exato momento, o modelo da Alibaba está acumulando essas pontuações favoráveis em competição direta.
As especificações são incertas
Existe uma lista de especificações do HappyHorse na internet, com a ressalva de que a página originalmente parecia ter sido escrita por IA. Em uma pesquisa mais aprofundada, verificou-se que essas especificações existem em sites de análise, mas não são verificadas de forma independente (supostamente deveriam estar no Hugging Face, mas só são encontradas no próprio site do HappyHorse).
Então, é meio que uma situação de “diz-que-me-diz”. Aqui está a lista:
- 15 bilhões de parâmetros;
- Transformer unificado de 40 camadas;
- Destilação DMD-2 de 8 etapas, áudio sincronizado;
- Capacidade de lip-sync (sincronia labial) multilíngue;
- Aproximadamente 38 segundos para um clipe de 5 segundos em 1080p em uma H100.
Isso parece real para você? É bom ver com cautela.
A China está vencendo a geração de vídeo?
Dada a corrida desenfreada de IA entre os EUA e a China, repleta de restrições de exportação e tudo mais, provavelmente é relevante perguntar: a China está vencendo na geração de vídeos agora?
“No ano passado, o Sora capturou a atenção mundial com sequências longas e em estilo de filme. Mas, por trás da superfície das demos virais, as equipes chinesas têm feito iterações em uma velocidade que está remodelando o cenário competitivo. Modelos como o Kling 2.6 estão demonstrando melhorias significativas na consistência física, estabilidade de personagens, coerência multiclipes, manipulação de cenas densas e lógica de movimento do mundo real — capacidades que importam muito mais em publicidade, e-commerce, educação, conteúdo de formato curto e fluxos de trabalho corporativos.”
Poderíamos muito bem dizer, a esta altura, que “modelos como o HappyHorse” estão fazendo o mesmo. Ahmad faz sua própria ressalva, mas retorna ao tema principal:
“O Sora e o Runway Gen-4.5 ainda mantêm vantagens em narrativa cinematográfica, controle de estilo artístico e composição de alto nível. Mas, à medida que a indústria transita para uma era de ‘vídeo como infraestrutura’, os vencedores serão determinados menos por vitrines cinematográficas e mais por custo, estabilidade, velocidade, acessibilidade e velocidade de iteração. Os próximos seis meses podem trazer outra onda de avanços — mas uma realidade já está clara: os modelos chineses de geração de vídeo estão vencendo silenciosamente a corrida onde mais importa — o mundo real.”
Isso é uma acusação contundente, ou pelo menos um desafio, para quem quer que esteja competindo com os chineses aqui. Porque, em quase todos os sentidos, imagina-se que o mundo real é o que importa.
Seja qual for o nome
Esta nova ferramenta viral de geração de vídeo também mantém viva uma tendência vista em muitos modelos novos, por exemplo, “Mythos”, “Muse”, “Claude” e, como um exemplo ainda melhor, “Spud”.
Esses nomes de modelos, para mim, parecem profundamente pouco sérios. Não estou sugerindo que deveríamos nomear os modelos como XRZ356 ou algo assim, mas “HappyHorse” (Cavalo Feliz) parece uma escolha estranha. Ou talvez algo se perca na tradução.
Como quer que você o chame, no entanto, o novo modelo da Alibaba parece pronto para ocupar a lacuna causada pela reviravolta brusca da OpenAI em sua oferta de produtos de geração de vídeo. Fiquem ligados.
*Reportagem publicada originalmente em Forbes.com