环境变量问题
- 在 shell 模式没有问题,但是.scala 文件引用包为啥就出错?
- sparksql 读取数据库是如何分布式执行的?
- 在 sparkstreaming 中 foreach 算子中开启线程?
- spark.shuffle.file.buffer 属于 spark 内存里面的哪一部分?
- 请问 pySpark 中怎么序列化一个对象集合为 RDD?
-
信息被删除或无权限查看
- 市面上流行的 R + Hadoop 方案如何解决 R 的内存瓶颈问题?
- 自从 flink 成熟之后,spark 是否慢慢成为鸡肋?
- Spark/Tez 这些并行计算框架为何不用有环图做执行计划?
- Hive 集群开通日志审计功能的方法以及需要 license 吗?
- 大数据场景下的查询优化 vs 数据库场景下的查询优化?
- 利用 spark ml 库如何实现对 rdd 中每一个 partition 都训练一个 lr 模型?
- 为什么在 hadoop wordcount reducer 中使用的 sum++ 得出的结果全为 1?
- mahout 可以不用 hadoop 实现 kmeans 聚类吗?
- storm python 无法产生日志?