スロットリングとレートリミットの違い

2026年2月17日

APIを触っていると、ある日突然「429 Too Many Requests」などのエラーが出て困った経験はありませんか？

しかも調べてみると「スロットリング」「レートリミット」という似た言葉が出てきて、余計に混乱しがちです。

実はこの2つ、概念としては違いがあるものの、現場ではわりと雑に同じ意味で使われているケースもあります。特にクラウドサービスの設定画面では、「スロットリング」と書かれていても中身はレートリミットに近い動きをしていることが普通にあります。

この記事では、理解できるように噛み砕きつつ、

スロットリングとレートリミットの一般的な違い
実装によって意味がズレる理由
エラーになる場合・ならない場合の違い（トークンバケットなど）

をセットで整理していきます。

スロットリングとレートリミットは「似ているけどズレる」

最初に結論をざっくり言うと、スロットリングとレートリミットはこういう関係です。

レートリミット：一定時間あたりの回数制限（ルールで決める）
スロットリング：混雑や負荷に応じて流量を調整する（状況で調整する）

ただし、ここが重要なポイントです。

現場ではこの2つを厳密に区別せず、同じ意味で使っているサービスもかなり多いです。

つまり「理論上は違うけど、実装では混ざっている」ことがあるんですね。

なぜ混ざるのか（例：クラウドサービス）

たとえばAWSのAPI Gatewayには「スロットリング設定」という項目があります。

名前はスロットリングですが、実際の動きは「1秒あたり○リクエストまで」といったレートリミット的な挙動です。

こういうケースがあるので、

スロットリングとレートリミットの違いは一般的な概念の整理であり、サービスによって呼び方がズレることがある

という前提を持っておくと、かなり混乱しにくくなります。

それぞれの考え方をもう少し丁寧に

レートリミットとは（回数制限の仕組み）

レートリミットは、一定時間あたりのリクエスト数を制限する仕組みです。

例としてはこんな感じです。

1分間に60回まで
1秒あたり10回まで
1時間に1000回まで

これは「ルールで決めた上限を超えたら制限する」仕組みです。

システムが空いていようが混んでいようが、制限値を超えたら止める、というのが基本形です。

レートリミットがある理由

レートリミットが導入される理由はシンプルで、主に次のような目的があります。

過剰アクセス（意図しない連打）を防ぐ
悪意あるアクセス（DoS的な攻撃）を防ぐ
無料ユーザーと有料ユーザーで公平性を保つ
API提供側のコスト増大を抑える

特に外部向けAPIでは、ほぼ必須の仕組みになっています。

スロットリングとは（状況に応じた流量調整）

スロットリングは、システムの状態を見ながら処理を制御する仕組みです。

イメージとしては「混んできたらブレーキを踏む」ようなものです。

例えば、次のような状況がトリガーになります。

CPU使用率が高い
DBの接続が限界に近い
同時処理が増えすぎてレスポンスが悪化している

このとき、リクエストを全部処理しようとするとシステムが耐えきれず落ちるので、あえて速度を落としたり、一部を拒否したりします。

つまりスロットリングは、サービス全体を落とさないための安全装置として働きます。

ただし「スロットリング」という言葉は実装で意味がズレる

ここが今回の重要ポイントです。

現場では「スロットリング」という言葉が、次の2パターンで使われることがあります。

負荷状況に応じて調整する（本来の意味）
1秒あたり○回までの制限をかける（実質レートリミット）

後者は「レートリミットじゃん」と思うのですが、UIやドキュメントではスロットリングと呼ばれていることがあります。

このため、実務では言葉だけで判断せず、

どういう単位で制限しているのか
リクエストが超過したときに何が起きるのか

を確認するのが大事です。

エラー動作のバリエーション：超えたら即エラーとは限らない

初心者が一番つまずきやすいのがここです。

「レートリミット＝超えたら即429エラー」と思われがちですが、最近は必ずしもそうではありません。

制限のかけ方（アルゴリズム）によって挙動が変わります。

パターン1：超過したら拒否する（即エラー）

これは一番分かりやすい挙動です。

上限を超えたリクエストは拒否する
HTTP 429を返す
「Retry-After」ヘッダで待つ秒数を返すこともある

外部APIでよく見る典型パターンですね。

パターン2：待たせる（遅延応答する）

最近増えているのがこちらです。

上限を超えたら即エラーにするのではなく、処理の順番待ちをさせる方式です。

つまり、ユーザーから見ると「エラーではないけど遅い」状態になります。

これはシステム側でキューを持ち、リクエストを溜めて順番に処理するような設計でよく使われます。

パターン3：トークンバケット方式（バーストを許容する）

ここでよく出てくるのがトークンバケット方式です。

トークンバケット方式は、例えるなら「ポイント制の入場券」のような仕組みです。

バケット（箱）にトークンが貯まる
リクエストするたびにトークンを消費する
トークンは一定速度で補充される
トークンが残っていれば短時間に連続アクセス（バースト）できる

たとえば、

普段は1秒に10個トークンが増える
最大100個まで貯められる

という設定なら、普段アクセスしていなければトークンが貯まり、急に100回連続で叩いても耐えられる、という動きになります。

つまり「平均的には制限するけど、一時的な集中は許す」仕組みです。

この方式の場合、超過時に即エラーになるとは限らず、

トークンが補充されるまで待たされる
少し遅延して返ってくる

といった挙動になることがあります。

パターン4：リーキーバケット方式（一定速度で流す）

リーキーバケット方式もよく使われます。

こちらはイメージとしては「穴の空いたバケツ」です。

リクエストはバケツに溜まる
バケツの穴から一定速度で流れていく（一定速度で処理される）
バケツが溢れたら拒否される

つまり、急に大量アクセスが来ても処理速度を一定に保てるので、システムが安定しやすいのが特徴です。

この方式も、状況によっては「すぐエラーになる」より「待たされる」挙動になります。

実務でのポイント：現場で役立つ考え方

「用語の定義」より「挙動」を見た方が安全

実務で一番ありがちな落とし穴はこれです。

「このサービスはスロットリングって書いてあるから、負荷に応じて調整されるんだろう」

と思っていたら、実際には単純なレートリミットだった。

あるいは逆に、

「レートリミットだから超えたら即エラーだろう」

と思っていたら、裏で待たされてタイムアウトが増えるタイプだった。

なので実務では、用語の定義よりも次を確認するのが確実です。

制限の単位（秒あたり？分あたり？）
超過時のレスポンス（429？遅延？キュー？）
バースト（短期集中）が許されるか
リトライすれば回復するか

言葉に振り回されず「仕様と実測を見る」のが一番強いです。

クライアント側で意識すべき実装

APIを叩く側（クライアント側）では、次の実装がかなり重要です。

1. リトライは「一定間隔」ではなく「指数バックオフ」

例えば失敗したからといって、0.5秒おきに連打すると逆効果です。

制限をさらに悪化させます。

そこで使われるのが指数バックオフです。

1回目：1秒待つ
2回目：2秒待つ
3回目：4秒待つ
4回目：8秒待つ

というように、待ち時間を増やしていく方法です。

この方式はレートリミットでもスロットリングでも有効で、API提供側にも優しい動きになります。

2. バッチ処理は分割する

データ移行や一括処理をするとき、つい大量のAPIリクエストを一気に投げたくなりますが、これは制限に引っかかりやすいです。

1000件まとめて処理する
ではなく、100件ずつに分ける
さらに一定間隔を空ける

こうするだけで、安定性が一気に上がります。

3. キュー設計で「平準化」する

本格的なシステムでは、アクセスを平準化するためにキューを挟む設計もよく使われます。

ユーザー操作 → 即API呼び出し
ではなく、キューに積む
ワーカーが一定速度で処理する

この設計にすると、急なアクセス増でもシステムが崩れにくくなります。

サーバー側での設計ポイント

API提供側、つまりサーバー側で考えるなら、次の観点が大切です。

サービス全体を落としたくない（守りたい）
でもユーザー体験はできるだけ壊したくない

このバランスを取るために、単純な拒否だけでなく、

バースト許容（トークンバケット）
キューイング（待たせる）
優先度制御（有料ユーザーを優先する）

などが使われます。

ここまでくると、もはや「レートリミットかスロットリングか」という言葉遊びより、設計の目的と仕組みが重要になります。

一問一答：現場でよくある疑問

スロットリングとレートリミットは同義なの？: 概念としては違いますが、サービスや現場によって同義で使われることも多いです。特にクラウドの設定項目では「スロットリング」と書かれていても、実際にはレートリミット的な制限のことがあります。
レートリミットに引っかかったら必ず429になる？: 必ずではありません。超過したら拒否する設計もありますが、トークンバケット方式やリーキーバケット方式では「待たされる」「遅延応答になる」ケースもあります。
スロットリングはどんなときに発生しやすい？: アクセスが急増したとき、DBが重くなったとき、CPUが逼迫したときなど、システム負荷が高まったタイミングで発生しやすいです。エラーではなくレスポンス遅延として現れることもあります。
対策として一番重要なのは？: クライアント側なら「指数バックオフ付きのリトライ」を入れることが効果的です。また、バッチ処理は一気に投げず分割し、一定速度で流すようにするのが安全です。