Spark

简述DAGScheduler如何划分？

参考答案：

DAGScheduler是Spark中较高层次的调度器，它实现了面向Stage的调度。在Spark中，每个操作都会生成一个RDD，这些RDD之间通过边相连，最终形成一个有向无环图（DAG）。DAGScheduler的作用是将这个DAG划分成不同的Stage，以便进行任务的调度和执行。

在划分Stage时，DAGScheduler会根据RDD之间的依赖关系进行判断。窄依赖意味着分区依赖关系确定，因此分区的转换处理可以在同一个线程中完成，这样的依赖关系通常会被划分到同一个Stage中。而宽依赖则涉及到Shuffle操作，由于Shuffle的存在，父RDD必须完成Shuffle处理之后，子RDD的计算才能开始。因此，宽依赖成为Stage划分的依据。

具体来说，DAGScheduler会从后往前遍历DAG，每当遇到宽依赖时，就会切割出新的Stage。每个Stage都由一组可以并行计算的Task组成。这样，DAG就被划分成了多个Stage，每个Stage都包含了可以并行执行的一组Task。

此外，DAGScheduler还需要记录哪些RDD被存入磁盘等物化动作，并寻求Task的最优化调度，例如在Stage内部考虑数据的本地性等。同时，它还需要监视因为Shuffle跨节点输出可能导致的失败，并在发现Stage失败时重新提交该Stage。

总的来说，DAGScheduler通过根据RDD之间的依赖关系划分Stage，为Spark任务的调度和执行提供了重要的支持。