AI 媒体模型 | AIBit-探索开源项目

2026年6月6日

Lance：字节跳动推出的3B统一模型，支持图像与视频理解、生成与编辑

字节跳动的Lance是一个3B参数的统一多模态模型，能够处理图像/视频理解、生成与编辑，在多项基准测试中表现优异。

2026年3月10日

AI Mondo 海报生成器：一行代码大师设计

一句话将任何想法转化为专业海报、书籍封面和专辑艺术。Qiaomu Mondo 海报设计利用 33+ 传奇艺术家风格，自动生成适用于微信、小红书、Spotify 等平台的惊艳视觉效果。无需 Photoshop 技能——只需描述你的愿景，几秒钟内即可获得 Mondo 风格大师作品。支持自定义比例、风格对比和 AI 增强提示，打造完美的社交媒体图形。
2026年3月9日

Edit Banana：AI 将图像转换为可编辑 DrawIO

发现 Edit Banana，这个改变游戏规则的开源工具，将静态图表、流程图和 PDF 转化为完全可编辑的 DrawIO 文件和 PPTX。由微调的 SAM 3 分割和多模态大语言模型驱动，以惊人的准确度保留布局、颜色、文本和连接。立即试用在线演示，或用 Python 本地运行。完美适合厌倦手动重绘图表的工程师、研究人员和设计师。加入已达 3.4k+ GitHub 星标的的生产力提升者。
2026年3月4日

Jimeng AI 免费 API：免费图像/视频生成器

探索 Jimeng AI 免费 API - 一个强大的开源服务，提供免费访问 Jimeng 高级 AI 模型用于图像和视频生成。支持 10+ 模型（4.5/4.1/3.0 Pro）、兼容 OpenAI 的 API、带媒体库的 Web 仪表板，以及一键 Docker 部署。通过令牌轮换获得 66 个每日免费积分、2K 图像生成、智能宽高比检测和自动重试逻辑。完美适用于构建无 API 成本的 AI 应用的开发者。
2026年1月31日

Qwen3‑ASR：阿里巴巴开源 52 语言 ASR 模型

阿里云最新发布的 Qwen3‑ASR 将最先进的多语言语音识别技术带入开源社区。支持 52 种语言和 22 种中文方言，1.7B/0.6B 两个模型在基准测试中表现优异，足以与商业 API 一较高下。本仓库配备完整的推理工具包，兼容 Transformers 或高性能 vLLM 后端，支持 Qwen3‑ForcedAligner 自动时间戳，并提供即跑的 Gradio 演示。无论你是研究员、开发者还是业余爱好者，本指南将引导你完成下载、配置、基准测试以及在 Docker 或直接在 GPU 上部署 Qwen3‑ASR，让你轻松开始转录语音、音乐和歌曲。主要亮点： - 多语言支持 - 流式推理 - 强制对齐 - 快速启动脚本 - Docker 部署 - 与 OpenAI 兼容的 API 集成
2026年1月25日

HeartMuLa：开源音乐生成模型 2026

探索 HeartMuLa – 一系列开源音乐基础模型，可根据歌词和标签生成高质量音乐。了解如何安装、运行快速演示以及通过多 GPU 支持或延迟加载定制库。非常适合渴望将 AI 与创意结合的研究者、音乐家和开发者。
2026年1月25日

Qwen3‑ＴTS：快速、开源流式 TTS

探索阿里巴巴的 Qwen3‑TTS，这是一款开源、低延迟的语音合成框架，支持完整语言覆盖、语音克隆与自然语言控制的语音设计。本指南将带您了解模型、架构、快速启动安装以及真实代码示例。无论您是在构建聊天机器人、有声读物还是多语言语音助手，Qwen3‑TTS 都提供灵活、云友好的解决方案，整合了 Hugging Face 与 ModelScope。深入仓库，学习如何生成定制语音、克隆说话者并针对您的数据进行微调。文章还重点展示了性能指标、评估结果，以及针对本地和边缘设备的实用部署建议。
2026年1月21日

SongGeneration — LeVo 开源音乐模型（NeurIPS 2025）

发现 SongGeneration，LeVo 的开源版本，是一款前沿的神经网络音乐生成器，能够在几秒钟内生成带人声与伴奏的完整歌曲。凭借多个预训练检查点、Gradio UI、Docker 支持以及完整的安装指南，开发者和爱好者可以直接开始生成高保真轨道或尝试多语言歌词。本文将帮助你了解仓库结构、核心功能、环境配置、运行推理以及使用便捷的提示与歌词格式化规则。不论你是正在构建音乐应用，还是对 AI 驱动的创作感到好奇，SongGeneration 都提供了一个即用即享、功能强大、易于上手的平台。
2026年1月19日

Pocket‑TTS：轻量级CPU专用文本转语音库

探索 Pocket‑TTS：一款极度紧凑、CPU 友好的 TTS 解决方案，消除了对 GPU 和网络 API 的依赖。学习如何用一次 pip 或 uv 命令安装，使用 wav 文件克隆语音，启动本地 HTTP 服务器实现即时音频流，并将其集成到 Python 项目或 Colab 笔记本。配备 100M 参数模型，运行于 2 核 CPU，可实现约 200 ms 的延迟和 6 倍实时速度。该指南涵盖了安装、语音管理、命令行使用和最佳实践，适合希望在小型设备或边缘环境中嵌入 TTS 的开发者和爱好者。
2026年1月16日

Sopro – 轻量级文本转语音与零样本语音克隆

了解 Sopro——基于 WaveNet 风格扩张卷积的轻量级英语 TTS 模型。仅拥有 169 M 参数，即可实现快速流式合成，并能仅凭几秒音频完成零样本语音克隆。了解如何在 CLI 中安装、运行或在 Python 中嵌入，并探索演示 Web UI。非常适合寻求快速、灵活 TTS 的开发者，避免繁重 Transformer 的开销。