Spark

简述Spark分哪几个部分（模块）？分别有什么作用（做什么，自己用过哪些，做过什么）？

参考答案：

Spark是一个分布式计算框架，主要由以下几个模块组成：

Spark Core：这是Spark的核心功能实现部分。它负责SparkContext的初始化（Driver Application通过SparkContext提交）、部署模式、存储体系、任务提交与执行、计算引擎等功能。Spark Core将数据抽象为RDD（Resilient Distributed Dataset，弹性分布式数据集），使得用户可以像处理本地数据一样对分布式数据进行操作。同时，Spark Core提供了比MapReduce更丰富的API，使分布式编程更加简单。
Spark SQL：这个模块提供了SQL处理能力，使得熟悉关系型数据库操作的工程师可以方便地进行交互查询。Spark SQL还为熟悉Hadoop的用户提供了Hive SQL处理能力。通过Spark SQL，用户可以使用SQL语句对RDD或DataFrame进行查询和分析。
Spark Streaming：Spark Streaming提供了流式计算处理能力，支持从各种数据源（如Kafka、Flume、TCP套接字等）实时接收数据，并进行处理和分析。这使得Spark能够处理大规模、实时的数据流，并支持复杂的计算逻辑。

除了上述核心模块外，Spark还有其他一些辅助模块，如Spark MLlib（用于机器学习的库）、Spark GraphX（用于图计算的库）等，这些模块为特定的应用场景提供了强大的支持。

在使用方面，个人或团队可能会根据自己的需求选择使用Spark的不同模块。例如，如果需要进行大规模的数据分析或机器学习模型的训练，可能会使用Spark Core和Spark MLlib；如果需要进行实时数据流的处理，可能会使用Spark Streaming。通过组合使用这些模块，可以实现各种复杂的数据处理和分析任务。

至于具体做过的项目或经验，这因人而异。不同的用户可能会在不同的场景下使用Spark进行数据处理和分析。例如，有的用户可能使用Spark进行日志分析、推荐系统的开发、实时广告投放等。这些实际应用场景都充分展示了Spark的强大功能和灵活性。