Apache Spark 是一个用于大规模数据处理的统一分析引擎。它提供 Scala、Java、Python 和 R 的高级 API,以及一个支持用于数据分析的通用计算图的优化引擎。它还支持一套丰富的高级工具,包括用于 SQL 和 DataFrames 的Spark SQL、用于 pandas 工作负载的pandas API on Spark、用于机器学习的MLlib、用于图处理的GraphX和用于流处理的Structured Streaming。
文档加载器
PySpark
它从PySpark DataFrame 加载数据。 请参阅使用示例。工具/工具包
Spark SQL 工具包
用于与Spark SQL 交互的工具包。 请参阅使用示例。Spark SQL 独立工具
您可以使用 Spark SQL 工具包中的独立工具InfoSparkSQLTool:用于获取 Spark SQL 元数据的工具ListSparkSQLTool:用于获取表名的工具QueryCheckerTool:此工具使用 LLM 检查查询是否正确QuerySparkSQLTool:用于查询 Spark SQL 的工具
以编程方式连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。