限流_API 网关(API Gateway)-阿里云帮助中心

备案控制台

输入文档关键字查找

API限流策略专为大模型服务及高并发调用场景设计，采用基于调用Token量的动态控制机制，取代传统请求数或请求体积的限流方式。该策略可针对消费者身份、请求Header参数、Query参数、客户端IP等多维度配置限流规则，根据单次API调用消耗的Token总量进行实时计费和流量管控。这种以Token消耗为核心的限流模式能精准匹配大模型计算资源消耗特性，有效防止系统过载、接口滥用及恶意调用，同时保障核心业务在复杂场景下的稳定运行。

策略说明

防止资源过载：通过设置灵活的限流策略（如按消费者、header、query参数、cookie或客户端IP），可以有效限制高频调用或恶意请求，避免因资源过载导致系统崩溃或性能下降。同时，建议配合缓存策略以提升系统性能。
动态调整流量：支持多种限流范围（如每秒、每分钟、每小时、每天），可以根据业务需求灵活调整限流规则，确保系统在高并发场景下仍能稳定运行。
多种匹配规则支持：限流策略支持多种匹配规则，能够满足高优先级的复杂业务场景需求。
防止恶意攻击：通过对特定消费者、header、query参数或cookie进行限流，可以有效限制爬虫或自动化工具的访问频率，保护数据安全。

适用场景

高并发场景：电商大促期间，按用户单位时间调用Token总量限流，防止恶意高频调用，保障服务稳定及活动公平。
AI 服务调用：对大模型 API 的调用进行限流，避免因突发流量导致服务质量下降或系统崩溃。
多租户系统：在开放平台或多租户架构中，为不同租户分配独立的限流配额，确保公平性和资源隔离。
恶意攻击防护：防范针对 AI 接口的爬虫攻击、DDoS 攻击或接口滥用行为，保护系统安全。

操作步骤

打开AI网关控制台实例页面，在顶部菜单栏选择目标实例所在地域，并单击目标实例ID。
在左侧导航栏，单击Model API，然后单击目标API名称进入API详情页面。

单击策略与插件，然后打开限流开关并配置相关参数。

配置项	说明
限流	开启或关闭限流开关，默认关闭。
限流策略	限流策略包含5种判断条件：按请求header：例如，限制header中带有`beta`标识的请求，每分钟限流100tokens。按请求query参数：例如，限制query参数中`user_id=1`请求，每分钟限流100tokens。按请求cookie：例如，限制cookie中带有目标标识的请求，每分钟限流100tokens。按消费者：例如，任意消费者每分钟限流1000tokens。重要配置按消费者限流，需要先开启消费者认证。按客户端IP：例如，限制每个客户端IP每分钟限流100tokens。每种判断条件支持四种限流规则：精确匹配、前缀匹配、正则匹配和任意匹配，优先级：精确匹配 > 前缀匹配 > 正则匹配 > 任意匹配。说明如果配置了多条规则，则命中任一规则即被拦截。限流范围包含每秒、每分钟、每小时、每天。说明限流的标准包括：按大模型的传入传出token大小。

确认配置信息并单击保存。

上一篇：策略与插件下一篇：缓存

该文章对您有帮助吗？