LLaMA-Factory : Fine-tuning unifié pour plus de 100 LLM et VLM
LLaMA-Factory : Fine-tuning unifié pour plus de 100 LLM et VLM
Le paysage des grands modèles de langage (LLM) et des modèles de vision et de langage (VLM) évolue à un rythme sans précédent. À mesure que ces modèles gagnent en complexité et en capacités, le besoin de solutions de fine-tuning efficaces et accessibles devient primordial. C'est là qu'intervient LLaMA-Factory, un projet open source acclamé qui redéfinit la manière dont les développeurs et les chercheurs abordent la personnalisation des modèles.
Qu'est-ce que LLaMA-Factory ?
LLaMA-Factory est un framework complet et unifié de fine-tuning, conçu pour simplifier l'adaptation de plus de 100 LLM et VLM différents. Publié sous forme de papier à l'ACL 2024 et fort de plus de 53 000 étoiles sur GitHub, il offre une boîte à outils robuste pour mouler efficacement des modèles pré-entraînés à des tâches ou des ensembles de données spécifiques. Sa force principale réside dans sa capacité à abstraire une grande partie de la complexité sous-jacente, proposant à la fois une interface en ligne de commande (CLI) sans code et une interface utilisateur web (UI) intuitive (LlamaBoard) basée sur Gradio.
Caractéristiques et avantages clés
LLaMA-Factory se distingue par un ensemble riche de fonctionnalités adaptées aux divers besoins du développement en IA :
-
Prise en charge étendue des modèles : La plateforme prend en charge une vaste gamme de modèles populaires, notamment LLaMA, LLaVA, Mistral, Mixtral-MoE, Qwen, Gemma, ChatGLM, Phi, et bien d'autres. Cette large compatibilité garantit que les utilisateurs peuvent travailler avec leurs modèles préférés ou les plus adaptés.
-
Approches d'entraînement unifiées : De la pré-formation continue et du fine-tuning supervisé (SFT) aux méthodes avancées d'apprentissage par renforcement à partir du feedback humain (RLHF) comme PPO, DPO, KTO et ORPO, LLaMA-Factory intègre de multiples paradigmes d'entraînement. Cette flexibilité permet une personnalisation et une optimisation des performances approfondies.
-
Mise à l'échelle efficace des ressources : Gérer les contraintes de mémoire et de calcul grâce à des techniques sophistiquées comme le full-tuning 16 bits, le freeze-tuning et les méthodes de PEFT (Parameter-Efficient Fine-Tuning) telles que LoRA et diverses optimisations QLoRA 2/3/4/5/6/8 bits via AQLM/AWQ/GPTQ/LLM.int8/HQQ/EETQ. Cela rend le fine-tuning de grands modèles accessible même sur du matériel plus modeste.
-
Algorithmes avancés et astuces pratiques : Le framework intègre des algorithmes de pointe tels que GaLore, BAdam, APOLLO, DoRA, LongLoRA et PiSSA, ainsi que des optimisations pratiques telles que FlashAttention-2, Unsloth, Liger Kernel et NEFTune, garantissant des performances et une efficacité de haut niveau.
-
Gestion polyvalente des tâches : LLaMA-Factory ne se limite pas à la simple génération de texte. Il prend en charge un large éventail de tâches, notamment le dialogue multi-tours, l'utilisation d'outils, la compréhension d'images, l'ancrage visuel et la reconnaissance audio, ce qui le rend idéal pour les applications d'IA multimodales.
-
Interfaces conviviales : Que vous préfériez le scripting ou une interface graphique, LLaMA-Factory répond à vos besoins. Le
llamafactory-cli
fournit de puissantes commandes de terminal, tandis que l'UI web basée sur Gradio offre une expérience visuelle et interactive pour l'entraînement, l'évaluation et l'inférence. -
Inférence accélérée : Déployez facilement vos modèles fine-tunés à l'aide de workers vLLM ou SGLang intégrés, permettant une inférence plus rapide et plus concurrente via des API de style OpenAI et des UI Gradio.
-
Surveillance complète des expériences : Suivez attentivement vos expériences grâce à la prise en charge d'outils de surveillance populaires tels que LlamaBoard, TensorBoard, Wandb, MLflow et SwanLab.
-
Validation industrielle : Son adoption par des acteurs majeurs comme Amazon, NVIDIA et Aliyun en dit long sur la fiabilité de LLaMA-Factory et son utilité pratique dans des scénarios réels.
Démarrer avec LLaMA-Factory
Démarrer avec LLaMA-Factory est simple. Les utilisateurs peuvent l'installer directement à partir de la source, utiliser des images Docker pré-construites pour un déploiement rapide, ou même l'exécuter dans des environnements cloud gratuits comme Google Colab et PAI-DSW. Le projet fournit une documentation claire et des guides de démarrage rapide, montrant comment effectuer le fine-tuning LoRA, l'inférence et la fusion de modèles avec seulement quelques commandes.
llamafactory-cli train examples/train_lora/llama3_lora_sft.yaml
llamafactory-cli chat examples/inference/llama3_lora_sft.yaml
llamafactory-cli export examples/merge_lora/llama3_lora_sft.yaml
Pour ceux qui préfèrent une interface graphique, il suffit d'exécuter llamafactory-cli webui
pour lancer l'intuitif LLaMA Board.
Conclusion
LLaMA-Factory donne les moyens à la communauté de l'IA en démocratisant l'accès au fine-tuning sophistiqué des grands modèles. Son mélange de fonctionnalités complètes, de conception conviviale et de performances robustes en fait un outil indispensable pour quiconque souhaite libérer tout le potentiel des LLM et VLM. Que vous soyez un professionnel chevronné de l'IA ou que vous débutiez, LLaMA-Factory offre une voie puissante, efficace et accessible pour construire des modèles d'IA personnalisés et hautement performants.