Qdrant 的 FastEmbed 是一个轻量、快速的 Python 库,用于生成嵌入。
- 量化模型权重
- ONNX Runtime,无 PyTorch 依赖
- CPU 优先设计
- 用于大型数据集编码的数据并行。
依赖项
要将 FastEmbed 与 LangChain 结合使用,请安装fastembed Python 包。
导入
实例化 FastEmbed
参数
-
model_name: str(默认值:“BAAI/bge-small-en-v1.5”)要使用的 FastEmbedding 模型名称。您可以在此处找到支持的模型列表。
-
max_length: int(默认值:512)最大令牌数。值大于 512 时行为未知。
-
cache_dir: Optional[str](默认值:None)缓存目录的路径。默认为父目录中的
local_cache。 -
threads: Optional[int](默认值:None)单个 onnxruntime 会话可使用的线程数。
-
doc_embed_type: Literal["default", "passage"](默认值:“default”)“default”:使用 FastEmbed 的默认嵌入方法。
“passage”:在嵌入之前给文本加上“passage”前缀。
-
batch_size: int(默认值:256)编码的批处理大小。值越高将占用更多内存,但速度更快。
-
parallel: Optional[int](默认值:None)如果
>1,将使用数据并行编码,建议用于大型数据集的离线编码。如果0,使用所有可用核心。如果None,不使用数据并行处理,而是使用默认的 onnxruntime 线程。
用法
生成文档嵌入
生成查询嵌入
以编程方式连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。