青牛主题列表_海汼部落 | IT学习->实战为王

创始人

青牛

第 12 位会员

451 关注者

2256 评论

308 话题

WeChat
Website
公司
城市

信息被删除或无权限查看
能否利用 ogg+kafka+spark 实现数据的准实时更新，源端和目标端都是 oracle？

spark换成spark streaming就可以了
spark 处理数据的数据结构是什么？

你这个需求可以直接用spark sql
为什么 HIVE 里显示有 3 张表，而 PYSPARK 里只显示一张表咧？

没显示的表能用pyspark select出来数据吗
saprk 关于分区是什么时候进行的问题？

spark是基于图计算的，也就是说画图的时候不论你怎么写都是在设计，只有在执行阶段才会去真正的运行数据处理，回到你说的问题textFile是逻辑上的分区不是真正意义的数据分区，但是shuffle以后进行了真正意义的运行了那时候才是真正的数据分区
airflow 定义 task 调度 spark 离线任务（YARN），有没有办法获取 spark 任务的执行状态？

这是两个进程之间的交互，仔细理解一下你会发现spark-submit的时候是把作业提交给了集群，集群没有给提供对外控制作业的接口，所以你只能看着它们自动执行，如果想自己控制你可以看看基于yarn的自定义开发
请问我这 pycharm 下的 spark 运行老是打印这行警告日志，咋去掉啊，我到 log4j 都改了还没用？

我记得在论坛中回答过一遍了咋又发一遍？
spark 程序在 sc.stop 之后的代码在哪里执行的？怎么执行的？

相当于java的system.exit(0)
spark 中 spark.reducer.maxSizeInFlight 多大合适？

如果作业可用的内存资源较为充足的话，可以适当增加这个参数的大小（比如96m），从而减少拉取数据的次数，也就可以减少网络传输的次数，进而提升性能。但是具体要看你要拉取得数据量多大
如何在 hive 与 pig 中选择？

企业现在都是hive pig的话自己学学就行了
spark collect ()，当数据量比较大时，卡死怎么解决？

spark本来就很吃内存你单机的机器多少可用内存？有没有计算过这个矩阵乘法的规模？
kafka 同一个消费组里多个消费者使用 consumer.assign (topicPartitions);会造成数据重复吗？

不会 kafka保证的了一条消费只能消费一次
kafka 消费者怎样每次只消费 30 条？

自己在消费端写一个计数器就行了
信息被删除或无权限查看
spark 在运行过程中 gc 时间太长怎么处理？

1、看下数据分布是否均匀处理慢是一个节点数据太多吗
2、core设置大不一定运行的快调小点试试