Modèles d'IA multimédia | AIBit-Découvrez des projets open source

6 juin 2026

Lance : le modèle unifié 3B de ByteDance pour la compréhension, la génération et l'édition d'images et de vidéos

Lance de ByteDance est un modèle multimodal unifié de 3B paramètres qui gère la compréhension, la génération et l'édition d'images/vidéos avec des benchmarks compétitifs.

10 mars 2026

Générateur d'affiches AI Mondo : Designs de maître en une ligne

Transformez n'importe quelle idée en affiches professionnelles, couvertures de livres et artworks d'albums avec une seule phrase. Qiaomu Mondo Poster Design exploite plus de 33 styles d'artistes légendaires pour générer automatiquement des visuels époustouflants pour WeChat, Xiaohongshu, Spotify, et plus. Aucune compétence Photoshop requise – décrivez simplement votre vision et obtenez des chefs-d'œuvre style Mondo en quelques secondes. Prend en charge les ratios personnalisés, comparaisons de styles et prompts améliorés par IA pour des graphiques médias sociaux parfaits.
9 mars 2026

Edit Banana : L'IA convertit les images en DrawIO modifiables

Découvrez Edit Banana, l'outil open-source révolutionnaire qui transforme les diagrammes statiques, diagrammes de flux et PDF en fichiers DrawIO entièrement modifiables et PPTX. Alimenté par la segmentation SAM 3 affinée et des LLM multimodaux, il préserve la mise en page, les couleurs, le texte et les connexions avec une précision stupéfiante. Essayez la démo en ligne instantanément ou exécutez localement avec Python. Parfait pour les ingénieurs, chercheurs et designers fatigués de recréer manuellement les diagrammes. Rejoignez plus de 3,4k étoiles GitHub qui utilisent déjà ce booster de productivité.
4 mars 2026

Jimeng AI Free API : Générateur d'images/vidéos gratuit

Découvrez Jimeng AI Free API - un puissant service open-source offrant un accès gratuit aux modèles AI avancés de Jimeng pour la génération d'images et de vidéos. Prend en charge plus de 10 modèles (4.5/4.1/3.0 Pro), API compatible OpenAI, tableau de bord web avec bibliothèque média, et déploiement Docker en un clic. Obtenez 66 crédits gratuits quotidiens via rotation de jetons, génération d'images 2K, détection intelligente de ratio d'aspect, et logique de retry automatique. Parfait pour les développeurs construisant des applications AI sans frais d'API.
31 janv. 2026

Qwen3‑ASR d'Alibaba Cloud est la toute dernière version à offrir une reconnaissance vocale multilingue de pointe au monde open‑source. Disponible en 52 langues et 22 dialectes chinois, les deux variantes 1.7B/0.6B excellent sur les benchmarks et rivalisent avec les API commerciales. Le dépôt fournit un kit d'inférence complet compatible avec Transformers ou le backend haute‑performance vLLM, un timestamping automatique via Qwen3‑ForcedAligner, ainsi qu'une démo Gradio prête à l'emploi. Que vous soyez chercheur, développeur ou passionné, ce guide vous conduit à travers le téléchargement, l'installation, l'évaluation et le déploiement de Qwen3‑ASR en Docker ou directement sur GPU, vous permettant de transcrire rapidement parole, musique et chansons.

Points forts : support multilingue, inference en streaming, alignement forcé, scripts de démarrage rapide, déploiements Docker, et intégration API compatible OpenAI.
25 janv. 2026

HeartMuLa : Modèles de génération musicale open‑source 2026

Découvrez HeartMuLa – une famille de modèles fondamentaux de musique open‑source qui génèrent une musique de haute qualité à partir de paroles et de tags. Apprenez à installer, exécuter des démonstrations rapides et personnaliser la bibliothèque avec une prise en charge multi‑GPU ou un chargement paresseux. Idéal pour les chercheurs, musiciens et développeurs désireux de fusionner l'IA et la créativité.
25 janv. 2026

Qwen3‑TTS : Streaming TTS rapide et open‑source

Découvrez Qwen3‑TTS d'Alibaba, un cadre de synthèse vocale open‑source à faible latence qui prend en charge une couverture linguistique complète, le clonage vocal et la conception via des commandes en langage naturel. Ce guide vous fait parcourir les modèles, l’architecture, l’installation rapide et les exemples de code réels. Que vous développiez des chatbots, des livres audio ou des assistants vocaux multilingues, Qwen3‑TTS propose une solution flexible et adaptée aux cloud, soutenue par Hugging Face et ModelScope. Plongez dans le dépôt, apprenez à générer des voix personnalisées, à cloner des orateurs et à affiner le système sur vos données. L’article met également en avant les métriques de performance, les résultats d’évaluation et des conseils pratiques pour le déploiement sur équipements locaux et périphériques.
21 janv. 2026

ChansonGeneration – Modèle Musique Open‑Source LeVo (NeurIPS 2025)

Découvrez SongGeneration, la version open‑source de LeVo, un générateur de musique neuronale de pointe capable de produire des morceaux complets avec voix et accompagnement en quelques secondes. Avec plusieurs points de contrôle pré‑entraînés, une interface Gradio, un support Docker et des guides d'installation complets, les développeurs et les passionnés peuvent plonger directement dans la génération de pistes haute fidélité ou expérimenter des paroles multilingues. Cet article vous guide à travers la structure du dépôt, les fonctionnalités clés, la mise en place de l'environnement, le lancement des inférences et l'utilisation d'invitations pratiques ainsi que des règles de mise en forme des paroles. Que vous construisiez une application musicale ou soyez simplement curieux de la composition pilotée par l'IA, SongGeneration propose une plateforme prête à l'emploi aussi puissante qu'accessible.
19 janv. 2026

Pocket‑TTS : Bibliothèque de synthèse vocale légère à usage CPU uniquement

Découvrez Pocket‑TTS, une solution TTS ultra‑compacte et CPU‑friendly qui élimine les dépendances GPU et les appels API Web. Apprenez à l’installer en un seul clic pip ou uv, à cloner des voix depuis des fichiers wav, à lancer un serveur HTTP local pour la diffusion audio instantanée, et à l’intégrer dans vos projets Python ou notebooks Colab. Avec des modèles de 100 M paramètres tournant sur 2 cœurs, Pocket‑TTS offre une latence d’environ 200 ms et une vitesse 6 fois supérieure à la normale sur les CPU modernes. Ce guide couvre l’installation, la gestion des voix, l’usage de la CLI et les bonnes pratiques, le rendant idéal pour les développeurs et les passionnés souhaitant intégrer une TTS dans de petits appareils ou des environnements edge.
16 janv. 2026

Sopro – TTS léger avec clonage vocal zéro‑shot

Découvrez Sopro, un modèle TTS anglais léger construit sur des convolutions dilatées de type WaveNet. Avec seulement 169 M de paramètres, il offre une synthèse rapide et en streaming ainsi qu'un clonage vocal zéro‑shot à partir de seulement quelques secondes d'audio. Apprenez à l'installer, à l'exécuter depuis l'interface en ligne de commande ou à l'intégrer dans Python, et explorez l'interface web demo. Parfait pour les développeurs qui recherchent un TTS rapide et flexible sans le lourd surcoût des Transformers.