针对 Flink 批处理能力现状怎么样？（与 spark 对比）

问答 ⋅ Jack.Wang ⋅ 最后回复由小小只鸟 4097 阅读

大家有用Flink跑批处理吗？ Flink 和spark 批处理能力（性能资源使用优化程度等多维度情况）
有做过评估的、开发的经验能否分享下：
1）用 table api开发，Flink SQL spark SQL
2）dataset or datastream api 开发
毕竟两套引擎两套代码，太麻烦了。

成为第一个点赞的人吧

回复数量: 3

青牛海汼部落创始人，80后程序员一枚，曾就职于金山，喜欢倒腾技术做产品

跑批还是用spark吧，flink反压那块会产生太多阻塞
Jack.Wang

1)flink datastream api 批处理走batch mode，针对反压stage，可以细粒度操控并行度、slot group 、opertor chain 大概就能解决掉吧。
-- 最近看到 flink 1.15 新增的一个特性——批处理自适应调度器：可以根据数据量的大小，自动推导并行度。
2）flinksql 批处理，针对反压stage, 如果部署在k8s上，利用弹性扩缩容特性，主动给更多资源呢？
@青牛

小小只鸟 Contributor of apache Flink

你好，我认为目前做批处理还是spark合适点。目前flink跑任务如果不开ck假如因为资源网络问题导致某个taskmanager挂了，整个作业就失败了。而spark跑任务executor挂了会另起一个节点接着跑。另外我觉得spark的rdd/dataframe更灵活点，比如调用缓存api更便捷点。flink虽然有算子chain合并优化序列化和网络io，但是在flinksql方式有些却不适合(datastream模式还好)，比如读取某个源的表5个并行度，去关联维表，记得默认是source和join算子chain在一起。如果不单独设置join并行度而数据量比较大的情况下，这个时候并行度设置更大合适点。flinksql目前似乎无法单独设置某个运行算子的并行度，这让用户使用起来不太好扩展。

请注意单词拼写，以及中英文排版，参考此页
支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`, 更多语法请见这里 Markdown 语法
支持表情，可用Emoji的自动补全, 在输入的时候只需要 ":" 就可以自动提示了 :metal: :point_right: 表情列表 :star: :sparkles:
上传图片, 支持拖拽和剪切板黏贴上传, 格式限制 - jpg, png, gif，教程
发布框支持本地存储功能，会在内容变更时保存，「提交」按钮点击时清空

Ctrl+Enter