张浩主题列表_海汼部落 | IT学习->实战为王

牛仕

张浩

第 4323 位会员

0 关注者

11 评论

9 话题

GitHub
WeChat
城市

flink 消费 kafka 数据如何保证同一分区的顺序一致性？

问题1 ：前提数据中间有写入oracle的情况
过了大概一个小时才处理之前发送的消息
问题2：
先消费了后发送的消息

老师，您说分区间保持one to one
是什么意思，该如何设置呢
flink 在处理数据流中两条数据时，第一条数据处理完成，会有延迟一段时间再去处理下一条数据。请问采用什么方式避免这种情况？

@青牛第一条数据处理完成后，写入到oracle了。大概过了一分钟才会开始处理第二条数据，很快就写入oracle。计算过程花费的时间其实很短。
flink keyby 之后，不同的 key 分到了同一个子任务中。如果我要基于 keyState 的值进行累加，该如何处理这种情况呢？

@野牛那我再多次几次，可能是巧合
flink:keyedprocessfuction 添加 state 后,报 Recovery is suppressed by FixedDelayRestartBackoffTimeStrategy/failureRateRestart？

@青牛我理解的是用托管状态代替原始状态，所以类中直接用托管状态了。报了空指针后，我填加了判断托管状态为空时赋值为0的条件，但不能取到我上传的数据值，而是0。当我上传数据后，不是应该输出我上传的数据吗。如果我要给类中变量赋值的话，我需要怎么赋值呢？
flink 读 kafka 数据源后，算子并行度不一致，导致不能输出？

@青牛问题已解决，原因是flink版本问题，我从1.9.3升级到了1.11.2就可以了。真是没想到会是这样
flink 读 kafka 数据源后，算子并行度不一致，导致不能输出？

@青牛

把槽加大后，Available Task Slots 变成6个，因为我最大并行度为2，这是可以理解的。但是任务还是卡在并行度不一致的地方。
flink 读 kafka 数据源后，算子并行度不一致，导致不能输出？

@青牛

我没有设置槽共享，也没有设置组名，都是默认配置
flink key by 后的 process 不执行？

@青牛我的本地有8个核，我把并行度改为4，槽应该够用吧
flink key by 后的 process 不执行？

@青牛我是用的几个测试数据，应该一个并行度就可以跑的。然后我改变并行度后，还是卡在keyby那里。我打印出下keyBy之前的输出，1> ScanWrapInfo{billCode='210128', jobCode='LHAR_UKK_URT_TL-210128', scanCode='12345', scanSiteCode='HHH', scanSiteId=11, scanSite='BALIDAO', scanTypeName='03', scanSiteTypeId='30', weight=4.3, volume=24000.0, preOrNextStationId=12000, preOrNextStation='URT', scanDate=Mon Sep 13 16:12:26 CST 2021}，这个是对象的表示形式吧，按照它的一个属性 jobCode来分组是不是可以的？
SPARK SQL CONTAINS 方法问题？

是的，何老师，刚刚30班罗峰告诉我可以用instr()代替contains，这样也能得到我想要的结果