使用 langchain 速率限制器(仅限 Python)
如果您在应用程序或评估器中使用 langchain Python 聊天模型,您可以为您的模型添加速率限制器,这将增加客户端对发送到模型提供商 API 请求频率的控制,以避免速率限制错误。
通过指数退避重试
处理速率限制错误的一种非常常见的方法是使用指数退避重试。使用指数退避重试意味着重复重试失败的请求,并在每次重试之间增加(指数式)等待时间。这会一直持续到请求成功或达到最大请求次数。使用 langchain
如果您正在使用 langchain 组件,您可以使用 .with_retry(...) / .withRetry() 方法向所有模型调用添加重试。
langchain Python 和 JS API 参考。
不使用 langchain
如果您不使用 langchain,您可以使用其他库,例如 tenacity (Python) 或 backoff (Python) 来实现带有指数退避的重试,或者您可以从头开始实现。请参阅 OpenAI 文档 中如何执行此操作的一些示例。
限制 max_concurrency
限制您对应用程序和评估器的并发调用次数是另一种减少模型调用频率并从而避免速率限制错误的方法。max_concurrency 可以直接在 evaluate() / aevaluate() 函数上设置。这通过有效地将数据集分布在不同线程上,从而并行化评估。
以编程方式连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。