ホテルや旅館で AI を本格運用すると、月額コストは思ったより膨らみます。
1 施設で月 5,000〜10,000 件の問い合わせを AI に通すと、何も最適化しない場合の AI コストは 月 ¥10 万を超える ことがあります。
ここで効くのが prompt caching です。
2026 年 5 月時点で、Anthropic / OpenAI / Google の 主要 3 社すべてが対応 しています。
正しく使えば、AI コストは 1/10 以下 に下がります。
この記事で分かること
- prompt caching とは何か
- 各社の cached input 価格(2026 年 5 月時点)
- キャッシュすべきもの / してはいけないもの
- 100 室ホテルの試算で月 ¥21,600 → 月 ¥7,000
prompt caching とは(一行で)
毎回送る共通プロンプト(マニュアル・FAQ・施設情報)を AI 側に キャッシュさせ、次回以降は割引価格で参照する仕組み。
「同じ質問が来るたびに同じマニュアルを毎回送り直す」のをやめる、というだけです。
各社の cached input 価格(2026 年 5 月時点)
| ベンダー | モデル | 通常 input | cached input | 割引率 |
|---|---|---|---|---|
| Anthropic | Claude Sonnet 4.6 | $3 / 1M | $0.30 / 1M | 90% off |
| OpenAI | gpt-realtime | $32 / 1M (audio) | $0.40 / 1M | 約 99% off |
| Gemini 2.5 Flash | $0.075 / 1M | $0.019 / 1M | 75% off |
特に OpenAI の音声系では 80×(約 99%)の割引 が効くため、prompt caching の有無で月額が 桁違い に変わります。
ホテル現場での典型的なキャッシュ対象
キャッシュすべき(毎回同じ)
- 施設のマニュアル PDF
- FAQ 集
- 利用規約・チェックインルール
- スタッフへの応対指針
- AI のキャラクター設定プロンプト
キャッシュしてはいけない(毎回違う)
- 個別ゲストの予約情報
- 過去の会話履歴
- リアルタイムの在庫情報
Point
「毎回同じ静的なテキストだけ キャッシュする」が原則。動的データを混ぜると効果が消える。
試算: 100 室ホテルのマニュアル AI
前提:
- 月間問い合わせ 8,000 件
- 1 件あたり 入力 5,000 token(うちマニュアル 4,500 token + 個別質問 500 token)
- 出力 200 token
prompt caching なし
| 項目 | 計算 | 金額 |
|---|---|---|
| Input | 5,000 × 8,000 token × $3 / 1M | $120 |
| Output | 200 × 8,000 token × $15 / 1M | $24 |
| 合計 | 月 $144(約 ¥21,600) |
prompt caching あり
| 項目 | 計算 | 金額 |
|---|---|---|
| Cached input(マニュアル 4,500) | 36,000,000 token × $0.30 / 1M | $10.8 |
| 通常 input(個別質問 500) | 4,000,000 token × $3 / 1M | $12 |
| Output | 1,600,000 token × $15 / 1M | $24 |
| 合計 | 月 $46.8(約 ¥7,000) |
約 67% のコスト削減。
月 ¥21,600 → 月 ¥7,000 です。
音声系(Realtime API)の場合
OpenAI Realtime API の場合、cached input は $0.40 / 1M(通常の 1/80)。
同じ計算で実施すると、月額が 90% 以上削減 されることもあります。
詳細は別記事「OpenAI Realtime API でホテル電話受付を 1 分 5 円にする方法」も合わせてご覧ください。
実装で押さえる 3 つのポイント
ポイント 01. キャッシュキーを明示する
各社の API でキャッシュさせるには、プロンプトの 先頭 にキャッシュ対象を置き、ヘッダ or プロンプト構造でキャッシュキーを指定します。
Anthropic の場合は cache_control: { type: "ephemeral" } をメッセージブロックに付けます。
ポイント 02. キャッシュ有効期間(TTL)を考慮する
- Anthropic: 5 分間(書き込み時に少し追加料金)
- OpenAI: 5〜10 分
- Google: モデルによる
宿泊現場では問い合わせが連続することが多いので、TTL 5 分でも十分に元が取れます。
ポイント 03. マニュアル更新時にキャッシュは無効化される
マニュアル PDF を更新すると、キャッシュキーが変わるので新規キャッシュ書き込みが発生します。
「マニュアル更新の翌日だけ、AI コストが少し上がる」ことを想定しておきます。
Point
caching は「設定して終わり」ではなく、TTL とマニュアル更新ライフサイクルを意識して運用する。
まとめ
2026 年現在、AI 運用コストは 「プロンプトを工夫しなければ膨らみ、prompt caching を入れれば 1/10 以下」 という構造です。
ホテル AI 導入の 検討初期から prompt caching を前提に設計する ことが、運用継続の鍵です。
ReFlow ができること
ReFlow の manual-bot-ai は、内部で 3 社の prompt caching を活用 しています。
月額固定料金にすべての API コストが含まれているため、運用後に追加課金が発生しません。
