数千万円〜数億円レベルのAIインフラで何人くらいが同時に接続して使えるのか


企業が数千万円〜数億円規模のGPUインフラを自社で構築し、社員に「Rakuten AI 3.0」のような超巨大モデル(700B級・4-bit量子化)を業務で使わせる場合、同時にサクサク動かせる人数(同時接続数)は、結論から言うと「常時チャットを入力し続けている状態」で、およそ30人〜150人程度が限界の目安になるという。

数億円もかけたのにそれだけ?」と思ってしまうが、これにはAI(LLM)特有の「計算の仕組み」が関係している。

インフラ規模(投資額)ごとの具体的な同時接続数と、なぜそうなるのかの理由は‥‥

1. 投資規模別の「同時接続数」と「カバーできる社員数」の目安
「同時接続数」とは、まさに同じ1秒間に「送信」ボタンを押してAIに計算させている人数のことで、社員全員が同時にボタンを押すわけではないため、実際にこのインフラでカバーできる「全社員数(アカウント数)」は、同時接続数の10倍〜20倍になる。

① 【数千万円規模】(例:NVIDIA H100 × 8枚のサーバー1台)
• 同時接続数(秒間リクエスト数): 約30人〜40人
• カバーできる全社員数: 約400人〜800人の中堅企業・部門利用レベル
• 特徴: 700B級(700B=7000億パラメータ)のモデルを動かすための「最低限の構成」で、これ以下の人数でも、全員が同時に長文の要約などを実行すると、回答の生成速度が目に見えて遅くなる。

② 【1億〜2億円規模】(例:H100 × 8枚のサーバーを3〜4台並列化)
• 同時接続数(秒間リクエスト数): 約100人〜150人
• カバーできる全社員数: 約1,500人〜3,000人の大企業レベル
• 特徴: サーバーを複数台並列(テンソル並列・パイプライン並列)で動かし、リクエストを分散(ロードバランシング)させることで、実用的な速度を維持しながら多くの社員で共有できるようになる。

2.なぜ数億円かけても「同時に何千人も」使えないのか?
Webシステムや社内掲示板であれば、数億円のサーバーがあれば何万人もの同時アクセスに耐えられる。しかし、生成AI(特に700Bという巨大モデル)の推論は、まったく異なる理由でGPUを激しく消耗する。

理由①:文字を1文字出すたびに「400GBのデータを丸ごと読み直す」から(メモリ帯域の壁)
AIは、文字を「こんにちは」と1文字ずつ出力するたびに、モデルの全データ(400GB)をGPUの脳みそ(コア)に超高速で読み込ませて計算している。 どれだけ強力なGPU(H100など)でも、この「データをメモリから読み込むスピード(メモリ帯域)」に物理的な限界があるため、同時に処理できる人数(バッチサイズ)が数十人単位に制限されてしまうのだった。

理由②:「KVキャッシュ」がGPUのメモリを食い尽くすから
AIは、チャットの「これまでの会話の流れ(文脈)」を記憶しながら次の文字を考える。この記憶データを「KVキャッシュ」と呼び、これが接続人数分、さらに会話が長くなればなるほど、GPUのメモリを膨大に消費する。 つまり、「たくさん喋る社員が同時にたくさんアクセスする」と、GPUのメモリがすぐにパンクしてしまうのだ。

現実の企業はどうやってこの問題を解決しているか?

もし3万人、5万人の全社規模で「Rakuten AI 3.0」のような巨大モデルをローカル(オンプレミス)で使わせようとすると、ハードウェアだけで数十億円〜百億円規模の投資が必要になり、現実的ではない。

そのため、多くの企業は以下のハイブリッドな運用を行っている。

① 機密情報を扱う特定のコア業務(役員会、法務、R&Dなど)だけ: 自社の数千万円のローカルサーバーで安全に動かす(最大数百人規模)。

② 一般社員の日常業務(メール作成、一般的な調べ物など):
楽天やOpenAIがクラウドで提供している「API」(異なるアプリケーションやシステム同士をAPI(Application Programming Interface)でつなぎ、データや機能を共有・拡張する仕組み)を利用する。これなら相手の巨大なデータセンターを間借りするため、何万人同時に使っても自社でインフラを抱える必要がなくなる。

自社でインフラを抱える場合は、「数千万円で、日常的にアクティブに使うメンバー数十人を同時にさばける脳みそを1つ買う」という感覚が、現在のAIインフラのリアルな規模感となる。