标记为的帖子: Open Source
Content related to Open Source
Lark-CLI:AI Agent 专用的官方 Lark/飞书 CLI
发掘 lark-cli,Lark/飞书平台的官方开源 CLI。专为人与 AI Agent 打造,提供 12 个业务领域 200+ 命令,包括日历、消息、文档、表格、邮件和任务。配备 20 个结构化 AI Agent 技能、Agent 原生设计和零配置集成,3 分钟即可上手。采用三层架构(快捷命令 → API 命令 → 原始 API)、企业级安全和 MIT 许可。完美适用于自动化 Lark 工作流的开发者。
SentrySearch:使用 AI 进行语义视频搜索
发现 SentrySearch,这是一个开源工具,使用 Google 的 Gemini Embedding API 或本地 Qwen3-VL 模型,将数小时的视频片段转化为可搜索的片段。只需输入 '红色的卡车闯停车标志',即可获得完美裁剪的视频片段。完美适用于 Tesla 行车记录仪分析、安全监控视频或任何 MP4/MOV 文件。支持本地 GPU 加速、Tesla 元数据叠加,以及自动静态帧跳过来节省成本和时间。
Claude Code Python 移植版:开源重写
探索 Claude Code 的独立 Python 移植版 – 使用 oh-my-codex (OmX) 从零重写的版本。这个教育项目将原始 TypeScript 代码库转变为 Python 优先工作区,包含 CLI 工具、全面测试和详细移植清单。运行 `python3 -m src.main summary` 以探索进度,或深入阅读关于 AI 重新实现和 copyleft 侵蚀的伦理文章。非常适合研究 AI 代理工作流、工具集成和伦理开源实践的开发者。
自动 YouTube Shorts 流水线:从话题到已发布视频
使用此全自动流水线,将任意话题在几分钟内转化为已发布的 YouTube Short。从热门话题发现(Reddit、Google Trends、TikTok)到 AI 生成脚本(Claude)、视觉效果(Gemini Imagen)、旁白(ElevenLabs)、内置字幕、音乐降噪,以及直接 YouTube 上传。v2.1.0 功能包括断点续传、重试逻辑、78 项测试,每视频仅需 $0.11。完美适合扩展短视频内容的创作者。
微软的Rust培训:适合所有水平的7本书
微软的RustTraining GitHub仓库提供7本综合书籍,专为转向Rust的C/C++、C#、Python开发者量身定制,还深入探讨异步、模式、类型驱动正确性和工程实践。每本书15-16章,包含Mermaid图表、可编辑playground、练习和全文搜索,这是从初学者桥接到专家技巧的终极结构化Rust学习路径。克隆并本地服务以实现离线访问和即时搜索。
Helios:14B 实时视频生成,19.5 FPS
发现 Helios,来自 PKU-YuanGroup 的突破性 14B 参数视频生成模型,在单张 H100 GPU 上以 19.5 FPS 生成分钟级高品质视频。无需反漂移技巧,无加速黑客——纯架构创新。支持 T2V、I2V、V2V 和交互生成,开箱即用支持 Diffusers、SGLang、vLLM-Omni 和 Ascend NPU。使用组卸载在本地 ~6GB 显存运行。完整训练代码和三种模型变体(Base、Mid、Distilled)现已可用。
Recordly:开源屏幕录制工具,内置专业编辑
Recordly 通过内置专业编辑工具革新屏幕录制。捕获您的屏幕或窗口,然后立即使用自动缩放、平滑光标效果、动态网络摄像头叠加、时间线裁剪和样式帧进行编辑。导出精美的 MP4 或 GIF,适用于教程、演示和社交剪辑。跨平台支持 macOS、Windows 和 Linux,使所有开发者和内容创作者都能轻松使用。发现为什么 3.1k 星标不会错!
VoiceChanger:开源实时语音转换
了解 VoiceChanger 如何让你实时使用尖端 AI 模型(如 Beatrice 和 RVC)来变换语音。本开源项目提供跨平台 GUI、Docker 支持、网络模式以及 AMD Linux 和 Google Colab 的教程。无论你是游戏开发者、主播还是爱好者,学习如何在数分钟内安装、配置并升级软件,探索实时语音操控的激动人心世界。
EasyOCR:一款快速、多语言 OCR 库,适用于 Python
EasyOCR 带来 80+ 语言支持,直接嵌入您的 Python 项目。只需快速 pip 安装、轻量级模型下载以及直观的 API,即可在数秒内从图像中提取文本。本指南涵盖从基础使用和自定义语言集到 Docker 部署和 Hugging Face Space 集成的一切内容。无论您是在构建照片管理工具还是数据录入流水线,EasyOCR 都能为您提供所需的速度与准确性。
VibeVoice:Microsoft 的开源语音 AI 套件
探索 VibeVoice,Microsoft 的前沿开源工具包,为开发者与研究人员提供长时段 ASR、多说话人 TTS 与实时流式处理。了解如何利用其 60 分钟 ASR 流程、90 分钟 TTS 以及轻量级实时模型,并探索与 Hugging Face Transformers 的集成,实现无缝部署。