大家有用Flink跑批处理吗? Flink 和spark 批处理能力(性能 资源使用 优化程度等多维度情况)
有做过评估的 、开发的经验能否分享下:
1)用 table api开发,Flink SQL spark SQL
2)dataset or datastream api 开发
毕竟两套引擎两套代码,太麻烦了。
大家有用Flink跑批处理吗? Flink 和spark 批处理能力(性能 资源使用 优化程度等多维度情况)
有做过评估的 、开发的经验能否分享下:
1)用 table api开发,Flink SQL spark SQL
2)dataset or datastream api 开发
毕竟两套引擎两套代码,太麻烦了。
跑批还是用spark吧,flink反压那块会产生太多阻塞
你好,我认为目前做批处理还是spark合适点。目前flink跑任务如果不开ck假如因为资源网络问题导致某个taskmanager挂了,整个作业就失败了。而spark跑任务executor挂了会另起一个节点接着跑。另外我觉得spark的rdd/dataframe更灵活点,比如调用缓存api更便捷点。flink虽然有算子chain合并优化序列化和网络io,但是在flinksql方式有些却不适合(datastream模式还好),比如读取某个源的表5个并行度,去关联维表,记得默认是source和join算子chain在一起。如果不单独设置join并行度而数据量比较大的情况下,这个时候并行度设置更大合适点。flinksql目前似乎无法单独设置某个运行算子的并行度,这让用户使用起来不太好扩展。