Inférence LLM 1,6× plus rapide — et 13 % de qualité en plus : nos recherches ASVD + LoRA
Nous avons mené 8 expériences de compression de GPT-2 Large avec ASVD et récupération LoRA. Résultat : 1,6× d'accélération à l'inférence tout en surpassant le modèle d'origine de 13 %. Voici ce que nous avons appris et pourquoi ça change les choses pour le déploiement IA en entreprise.
