タグ付けされた投稿: Apple Silicon

Content related to Apple Silicon

MacBook 上の 397B MoE:4.4 t/s Flash-MoE エンジン

April 03, 2026

Flash-MoE は、48GB RAM の MacBook Pro M3 Max で Qwen3.5-397B-A17B(3970億パラメータ)を 4.4+ トークン/秒で実行します。純粋な C/Metal 推論により、209GB モデルを SSD からストリーミングし、ツール呼び出しを含むプロダクション品質の出力を提供します。主要イノベーション:FMA 最適化デ量子化カーネル(+12% 速度)、OS ページキャッシュエキスパートストリーミング、遅延 GPU 計算、手動調整 Metal シェーダー。58 実験が文書化され、完全な技術論文付き。

TurboQuant+: LLM 向け 6.4 倍 KV キャッシュ圧縮

March 29, 2026

TurboQuant+ は ICLR 2026 の画期的な KV キャッシュ圧縮を実装し、q8_0 に近い品質と速度で 4.6-6.4 倍圧縮を実現。turbo2/turbo3/turbo4 フォーマット、注意ゲート付き Sparse V デコーディング(+22.8% デコード速度)、llama.cpp Metal フル統合を特徴とします。M5 Max で Qwen 3.5 35B-A3B を 93.9% NIAH 検索と q8_0 prefill 速度 1.02 倍で実行。511+ テスト付き完全 Python プロトタイプと Apple Silicon、NVIDIA、AMD でのコミュニティ検証。

oMLX: SSDキャッシュ付きMacメニューバーLLMサーバー

March 10, 2026

oMLXを発見してください。Apple Silicon Mac向け究極のローカルLLMサーバー。メニューバーからLLM、VLM、エンベディングを実行。連続バッチ処理、階層型KVキャッシュ(RAM + SSD)、マルチモデルサービングを備えています。管理ダッシュボード、OpenAI API互換性、Claude Code最適化、Hugging Faceからのワンクリックモデルダウンロードを搭載。DMG、Homebrew、ソース経由でインストール – クラウドコストなしでプロダクション級ローカルAIを求める開発者に最適。

Apple Neural Engine上でトランスフォーマーをトレーニング - ANE GitHub

March 03, 2026

ANE Trainingを発見:AppleのNeural Engineをリバースエンジニアリングし、M4ハードウェア上でフルトランスフォーマートレーニング(前方+後方パス)を直接実行する画期的なオープンソースプロジェクト。純粋なANE計算で9.3ms/ステップ、1.78 TFLOPSの持続性能を達成 - Metalなし、GPUなし。詳細ベンチマーク、MILプログラム生成、IOSurface最適化、チャネルファーストレイアウトを含む。ハードウェアの限界を押し広げるApple Silicon ML研究者に最適。

Appleのコンテナ化:macOSでLinuxコンテナを動かす

June 11, 2025

macOS上でLinuxコンテナをシームレスに実行できる、Apple製オープンソースのSwiftパッケージ「Containerization」が登場しました。このプロジェクトは、AppleシリコンのVirtualization.frameworkを活用し、効率的なコンテナ管理、OCIイメージの取り扱い、そして軽量な仮想マシンを提供します。開発者がこのツールをどのように活用してワークフローを効率化し、リモートレジストリと連携し、さらにはRosetta 2を使ってx86_64コンテナを実行できるのかを解説します。数秒未満の起動時間や柔軟なカーネル構成など、現代の開発環境向けに設計されたこの革新的なソリューションの機能、要件、そしてビルドプロセスについて深く掘り下げます。