ChatGPTスタイルのAIをMacで無料で実行する方法

OpenAIの最新gpt-oss-20bモデルを使えば、MacでChatGPTスタイルのAIを、サブスクリプションやインターネット接続、その他の制約なしで実行できます。使い方は以上です。

OpenAIは8月5日、数年ぶりとなるオープンウェイトの大規模言語モデルをリリースしました。これにより、MacユーザーはChatGPTスタイルのツールをオフラインで実行できるようになりました。適切な設定を行えば、多くのApple Silicon搭載Macで、サブスクリプションやインターネット接続なしで高度なAI処理を実行できるようになります。

強力なAIモデルをMacで実行するには、かつてはクラウドサービスに料金を支払ったり、複雑なサーバーソフトウェアを操作する必要がありました。しかし、新しいgpt-oss-20bとgpt-oss-120bモデルはそれを一変させます。

モデルには、LM Studio や Ollama などの一般的なローカル AI ツールで動作するダウンロード可能な重みが用意されています。

gpt-oss.com にアクセスすれば、ダウンロードする前にブラウザでモデルを試すことができます。このサイトでは各モデルの無料デモが提供されており、ライティング、コーディング、一般的な質問への対応方法を確認できます。

実行するために必要なもの

少なくともM2チップと16GBのRAMを推奨します。RAMは多ければ多いほど良いでしょう。M1プロセッサを搭載している場合は、MaxまたはUltraをお勧めします。Mac Studioは冷却性能が高いため、この用途に最適です。

Hugging Face を使用した推論レベルとローカル実行命令のオプションを備えた GPT モデルのプレイグラウンドデモが表示されているラップトップスクリーン。

ダウンロードする前にブラウザでモデルを試すことができます

このモデルは、M3チップを搭載したMacBook Airでは少し苦戦しました。予想通り、発熱もしました。

Macでゲームをするのと同じようなものだと考えてください。できますが、負荷が高くなります。

始めるには、次のいずれかのツールが必要です。

LM Studio — ビジュアルインターフェースを備えた無料アプリ
Ollama — モデル管理機能を備えたコマンドラインツール
MLX — Appleの機械学習フレームワーク。両アプリで高速化に使用されている。

これらのアプリは、モデルのダウンロード、セットアップ、互換性チェックを処理します。

Ollamaの使用

Ollama は、最小限のセットアップでコマンドラインからローカル AI モデルを実行できる軽量ツールです。

ollama.com の指示に従って Ollama をインストールします。
ターミナルを開いて実行し、ollama run gpt-oss-20bモデルをダウンロードして起動します。
Ollama が、適切な量子化バージョンのダウンロードを含むセットアップを処理します。
読み込みが完了すると、すぐにチャットを開始できるプロンプトが表示されます。

ChatGPTと同じように動作しますが、インターネット接続を必要とせず、Mac上ですべて動作します。テストではダウンロードは約12GBでしたので、Wi-Fiの速度によってダウンロードにかかる時間は異なります。

M3チップと16GBのRAMを搭載したMacBook Airでモデルは動作しましたが、質問への回答はクラウド上のGPT-4oと比べて明らかに時間がかかりました。とはいえ、回答はインターネット接続なしでも届きました。

パフォーマンスと制限

200億パラメータのモデルは既に4ビット形式に圧縮されており、16GBのRAMを搭載したMacでも様々なタスクをスムーズに実行できます。

テキストの作成と要約
質問に答える
コードの生成とデバッグ
構造化関数呼び出し

複雑なタスクではクラウドベースのGPT-4oよりも速度が遅いですが、ほとんどの個人作業や開発作業には十分な応答性があります。120bの大容量モデルは60～80GBのメモリを必要とするため、ハイエンドワークステーションや研究環境でのみ実用的です。

AI をローカルで実行する理由は何ですか?

ローカル推論では、デバイスからデータが一切出ないため、データのプライバシーが確保されます。また、継続的なAPI料金やサブスクリプション料金を回避し、ネットワーク呼び出しが不要になるためレイテンシも削減されます。

モデルはApache 2.0ライセンスの下でリリースされているため、カスタムワークフローに合わせて微調整できます。この柔軟性により、特定のプロジェクトに合わせてAIの挙動を調整できます。

ブラックホールに関するテキスト会話が表示されているラップトップ。事象の地平線、シュワルツシルト半径、ブラックホールに落ちた場合の影響などが説明されています。

このモデルにはいくつかの制限がある

Gpt-oss-20bは、インターネット接続なしでMac上で完全に動作するAIモデルが必要な場合に最適な選択肢です。プライベートで無料で使用でき、一度セットアップすれば信頼性も抜群です。ただし、速度と洗練度はトレードオフです。

テストでは、GPT-4よりも応答に時間がかかり、複雑な回答には多少の修正が必要になることもありました。しかし、カジュアルな文章作成、基本的なコーディング、調査には問題なく機能します。

パフォーマンスよりもオフライン状態を重視する場合、gpt-oss-20bは現在実行できる最良の選択肢の一つです。高速で高精度な結果を得るには、クラウドベースのモデルの方が依然として適しています。

最高の体験のためのヒント

モデルの量子化バージョンを使用して、16ビット浮動小数点から8ビットまたは4ビット整数に精度を下げます。モデルの量子化とは、16ビット浮動小数点から8ビットまたは約4ビット整数に精度を下げることを意味します。

これにより、メモリ使用量を大幅に削減しながら、精度を元の値に近づけることができます。OpenAIのgpt-ossモデルはMXFP4と呼ばれる4ビットフォーマットを使用しており、20ビットモデルを約16GBのRAMを搭載したMacで実行できます。

MacのRAMが16GB未満の場合は、30億～70億パラメータの範囲の小型モデルをご利用ください。セッションを開始する前に、メモリを大量に消費するアプリを閉じ、MLXまたはMetalアクセラレーション（利用可能な場合）を有効にしてパフォーマンスを向上させましょう。

適切な設定をすれば、MacでAIモデルをオフラインで実行できます。サブスクリプションやインターネット接続がなくても、データを安全に保護できます。あらゆるタスクでハイエンドのクラウドモデルに取って代わることはできませんが、プライバシーとコントロールが重要な場合には、オフラインでも使える優れたツールです。