更新时间:2017-09-01 来源:黑马程序员云计算大数据培训学院 浏览量:
有两种数据需要被进行checkpoint:
1.元数据checkpoint—-将定义了流式计算逻辑的信息,报错到容错的存储系统上,比如HDFS
当运行Spark—Streaming应用程序的Driver进程所在的节点失败时,该信息可以用于进行恢复。
元数据信息包括了:
1.1:配置信息—创建Spark-Streaming应用程序的配置信息,比如SparkConf
1.2:DStream的操作信息—-定义了Spark-Stream应用程序的计算逻辑的DStream操作信息
1.3:未处理的batch信息—-哪些job正在排队,还没处理的batch信息。
2.数据checkpoint—将实时计算过程中产生的RDD的数据保存到可靠的存储系统中
对于一些将多个batch的数据进行聚合的,有状态的transformation操作,这是非常有用的,
在这种tranformation操作中,生成的RDD是依赖与之前的batch的,这会导致随着时间的推移,Rdd的依赖
链条越来越长,要避免由于依赖链条越来越长,导致一起变得越来越长的失败恢复时间,有状态的transformation
操作执行过程中间产生的RDD,会定期的被checkpoint盗可靠的存储系统上,比如HDFS,从而削减RDD的依赖链条,进而缩短失败恢复时,
RDD的回复时间