用sparkstreaming消费kafka的数据,怎么将数据写入到hdfs的输入流,采用追加的方式写入?具体能用哪个方法?能否上个code demo?请教大神
追加写入那就每个partation写不同的文件
具体用的是哪个方法呢?
@青牛 实际的需求是一直实时地消费kafka的数据,放入到每天的目录下,但是会做一个数据判断,追加到该天的数据目录下。现在发现写入hdfs的效率很低,每秒大概插入了7-8条数据,太慢了。把每条数据转成字节流,hdfs的输入流写入hdfs。有没什么好的建议,提升一下效率。大神指点一下。
`单行代码`
关注海汼部落技术社区