场景: Structured Streaming + kafka + maxwell, 处理mysql-binlog的实时流数据.
通过代码kafka_df = spark.readStream \
.format("kafka") \
.option("kafka.bootstrap.servers", "spark-kafka:9092") \
.option("subscribe", "streaming").load
得到结构为 [key#7, value#8, topic#9, partition#10, offset#11L, timestamp#12, timestampType#13] 的dataframe, 但是我想要的数据时value, value是一个json串
我谷歌百度硬是搜不到相关的python写法, 现在想要达到的目的就是把json提升到第一级, 然后通过推断得到字段然后用watermarking做一下数据处理就完事了.
但是我是个新手, 不知道如何用python过滤, 还望有大佬能帮忙解答一下