Apple Silicon - オープンソースプロジェクト

MacBook 上の 397B MoE：4.4 t/s Flash-MoE エンジン

April 03, 2026

タグ:

Apple Silicon LLM inference Mixture of Experts Metal Compute Model Quantization

Flash-MoE は、48GB RAM の MacBook Pro M3 Max で Qwen3.5-397B-A17B（3970億パラメータ）を 4.4+ トークン/秒で実行します。純粋な C/Metal 推論により、209GB モデルを SSD からストリーミングし、ツール呼び出しを含むプロダクション品質の出力を提供します。主要イノベーション：FMA 最適化デ量子化カーネル（+12% 速度）、OS ページキャッシュエキスパートストリーミング、遅延 GPU 計算、手動調整 Metal シェーダー。58 実験が文書化され、完全な技術論文付き。

詳細を読むオリジナル

実用的なオープンソースプロジェクト

TurboQuant+: LLM 向け 6.4 倍 KV キャッシュ圧縮

March 29, 2026

タグ:

Apple Silicon Llama.cpp LLM inference KV cache compression TurboQuant

TurboQuant+ は ICLR 2026 の画期的な KV キャッシュ圧縮を実装し、q8_0 に近い品質と速度で 4.6-6.4 倍圧縮を実現。turbo2/turbo3/turbo4 フォーマット、注意ゲート付き Sparse V デコーディング（+22.8% デコード速度）、llama.cpp Metal フル統合を特徴とします。M5 Max で Qwen 3.5 35B-A3B を 93.9% NIAH 検索と q8_0 prefill 速度 1.02 倍で実行。511+ テスト付き完全 Python プロトタイプと Apple Silicon、NVIDIA、AMD でのコミュニティ検証。

詳細を読むオリジナル

実用的なオープンソースプロジェクト

oMLX: SSDキャッシュ付きMacメニューバーLLMサーバー

March 10, 2026

タグ:

Apple Silicon MLX oMLX LLM Server Mac AI

oMLXを発見してください。Apple Silicon Mac向け究極のローカルLLMサーバー。メニューバーからLLM、VLM、エンベディングを実行。連続バッチ処理、階層型KVキャッシュ（RAM + SSD）、マルチモデルサービングを備えています。管理ダッシュボード、OpenAI API互換性、Claude Code最適化、Hugging Faceからのワンクリックモデルダウンロードを搭載。DMG、Homebrew、ソース経由でインストール – クラウドコストなしでプロダクション級ローカルAIを求める開発者に最適。

詳細を読むオリジナル

実用的なオープンソースプロジェクト

Apple Neural Engine上でトランスフォーマーをトレーニング - ANE GitHub

March 03, 2026

タグ:

Apple Silicon Apple Neural Engine Transformer Training ANE ML Optimization

ANE Trainingを発見：AppleのNeural Engineをリバースエンジニアリングし、M4ハードウェア上でフルトランスフォーマートレーニング（前方+後方パス）を直接実行する画期的なオープンソースプロジェクト。純粋なANE計算で9.3ms/ステップ、1.78 TFLOPSの持続性能を達成 - Metalなし、GPUなし。詳細ベンチマーク、MILプログラム生成、IOSurface最適化、チャネルファーストレイアウトを含む。ハードウェアの限界を押し広げるApple Silicon ML研究者に最適。

詳細を読むオリジナル

実用的なオープンソースプロジェクト

Appleのコンテナ化：macOSでLinuxコンテナを動かす

June 11, 2025

タグ:

macOS Containerization Linux Containers Apple Silicon Swift

macOS上でLinuxコンテナをシームレスに実行できる、Apple製オープンソースのSwiftパッケージ「Containerization」が登場しました。このプロジェクトは、AppleシリコンのVirtualization.frameworkを活用し、効率的なコンテナ管理、OCIイメージの取り扱い、そして軽量な仮想マシンを提供します。開発者がこのツールをどのように活用してワークフローを効率化し、リモートレジストリと連携し、さらにはRosetta 2を使ってx86_64コンテナを実行できるのかを解説します。数秒未満の起動時間や柔軟なカーネル構成など、現代の開発環境向けに設計されたこの革新的なソリューションの機能、要件、そしてビルドプロセスについて深く掘り下げます。

詳細を読むオリジナル

カテゴリ

タグ付けされた投稿: Apple Silicon

MacBook 上の 397B MoE：4.4 t/s Flash-MoE エンジン

TurboQuant+: LLM 向け 6.4 倍 KV キャッシュ圧縮

oMLX: SSDキャッシュ付きMacメニューバーLLMサーバー

Apple Neural Engine上でトランスフォーマーをトレーニング - ANE GitHub

Appleのコンテナ化：macOSでLinuxコンテナを動かす