数千万円〜数億円レベルのＡＩインフラで何人くらいが同時に接続して使えるのか

企業が数千万円〜数億円規模のGPUインフラを自社で構築し、社員に「Rakuten AI 3.0」のような超巨大モデル（700B級・4-bit量子化）を業務で使わせる場合、同時にサクサク動かせる人数（同時接続数）は、結論から言うと「常時チャットを入力し続けている状態」で、およそ30人〜150人程度が限界の目安になるという。

「数億円もかけたのにそれだけ？」と思ってしまうが、これにはAI（LLM）特有の「計算の仕組み」が関係している。

インフラ規模（投資額）ごとの具体的な同時接続数と、なぜそうなるのかの理由は‥‥

１．投資規模別の「同時接続数」と「カバーできる社員数」の目安
「同時接続数」とは、まさに同じ1秒間に「送信」ボタンを押してAIに計算させている人数のことで、社員全員が同時にボタンを押すわけではないため、実際にこのインフラでカバーできる「全社員数（アカウント数）」は、同時接続数の10倍〜20倍になる。

① 【数千万円規模】（例：NVIDIA H100 × 8枚のサーバー1台）
• 同時接続数（秒間リクエスト数）： 約30人〜40人
• カバーできる全社員数： 約400人〜800人の中堅企業・部門利用レベル
• 特徴： 700B級（700B＝7000億パラメータ）のモデルを動かすための「最低限の構成」で、これ以下の人数でも、全員が同時に長文の要約などを実行すると、回答の生成速度が目に見えて遅くなる。

② 【1億〜2億円規模】（例：H100 × 8枚のサーバーを3〜4台並列化）
• 同時接続数（秒間リクエスト数）： 約100人〜150人
• カバーできる全社員数： 約1,500人〜3,000人の大企業レベル
• 特徴： サーバーを複数台並列（テンソル並列・パイプライン並列）で動かし、リクエストを分散（ロードバランシング）させることで、実用的な速度を維持しながら多くの社員で共有できるようになる。

２．なぜ数億円かけても「同時に何千人も」使えないのか？
Webシステムや社内掲示板であれば、数億円のサーバーがあれば何万人もの同時アクセスに耐えられる。しかし、生成AI（特に700Bという巨大モデル）の推論は、まったく異なる理由でGPUを激しく消耗する。

理由①：文字を1文字出すたびに「400GBのデータを丸ごと読み直す」から（メモリ帯域の壁）
AIは、文字を「こんにちは」と1文字ずつ出力するたびに、モデルの全データ（400GB）をGPUの脳みそ（コア）に超高速で読み込ませて計算している。どれだけ強力なGPU（H100など）でも、この「データをメモリから読み込むスピード（メモリ帯域）」に物理的な限界があるため、同時に処理できる人数（バッチサイズ）が数十人単位に制限されてしまうのだった。

理由②：「KVキャッシュ」がGPUのメモリを食い尽くすから
AIは、チャットの「これまでの会話の流れ（文脈）」を記憶しながら次の文字を考える。この記憶データを「KVキャッシュ」と呼び、これが接続人数分、さらに会話が長くなればなるほど、GPUのメモリを膨大に消費する。つまり、「たくさん喋る社員が同時にたくさんアクセスする」と、GPUのメモリがすぐにパンクしてしまうのだ。

現実の企業はどうやってこの問題を解決しているか？

もし3万人、5万人の全社規模で「Rakuten AI 3.0」のような巨大モデルをローカル（オンプレミス）で使わせようとすると、ハードウェアだけで数十億円〜百億円規模の投資が必要になり、現実的ではない。

そのため、多くの企業は以下のハイブリッドな運用を行っている。

① 機密情報を扱う特定のコア業務（役員会、法務、R&Dなど）だけ： 自社の数千万円のローカルサーバーで安全に動かす（最大数百人規模）。

② 一般社員の日常業務（メール作成、一般的な調べ物など）：
楽天やOpenAIがクラウドで提供している「API」（異なるアプリケーションやシステム同士をAPI（Application Programming Interface）でつなぎ、データや機能を共有・拡張する仕組み）を利用する。これなら相手の巨大なデータセンターを間借りするため、何万人同時に使っても自社でインフラを抱える必要がなくなる。

自社でインフラを抱える場合は、「数千万円で、日常的にアクティブに使うメンバー数十人を同時にさばける脳みそを1つ買う」という感覚が、現在のAIインフラのリアルな規模感となる。