首页技术文章正文

云计算大数据培训之Spark-Streaming的基本原理以及预写日志机制和checkpoint(2)

更新时间:2017-09-01 来源:黑马程序员云计算大数据培训学院 浏览量:

有两种数据需要被进行checkpoint:

1.元数据checkpoint—-将定义了流式计算逻辑的信息,报错到容错的存储系统上,比如HDFS 
当运行Spark—Streaming应用程序的Driver进程所在的节点失败时,该信息可以用于进行恢复。 
元数据信息包括了: 
1.1:配置信息—创建Spark-Streaming应用程序的配置信息,比如SparkConf 
1.2:DStream的操作信息—-定义了Spark-Stream应用程序的计算逻辑的DStream操作信息 
1.3:未处理的batch信息—-哪些job正在排队,还没处理的batch信息。

2.数据checkpoint—将实时计算过程中产生的RDD的数据保存到可靠的存储系统中 
对于一些将多个batch的数据进行聚合的,有状态的transformation操作,这是非常有用的, 
在这种tranformation操作中,生成的RDD是依赖与之前的batch的,这会导致随着时间的推移,Rdd的依赖 
链条越来越长,要避免由于依赖链条越来越长,导致一起变得越来越长的失败恢复时间,有状态的transformation 
操作执行过程中间产生的RDD,会定期的被checkpoint盗可靠的存储系统上,比如HDFS,从而削减RDD的依赖链条,进而缩短失败恢复时, 
RDD的回复时间



本文版权归黑马程序员云计算大数据培训学院所有,欢迎转载,转载请注明作者出处。谢谢!
作者:黑马程序员云计算大数据培训学院
首发:http://cloud.itheima.com/ 
分享到:
在线咨询 我要报名
和我们在线交谈!