- Hadoop 默认 map 数是 2,块大小 128M,当文件 为 512M 是会有几个 map,有几个 map 并行?
- 怎样用 kmeans 对类似 00101001110011001...这样的一连串序列进行聚类?
- Linux 平台完全分布模式下 Hadoop 实例 wordcount 在 eclipse 编写运行权限问题?
- spark 伪分布式模式的性能怎么样? 能否替换传统数据处理里的某些场景?
- spark 中 mllib 是如何将某些机器算法做到分布式并行计算的?
- Spark 中的 CNN 如何实现分布式计算的?
- spark streaming 任务如何切分,是按照 duration 切分么?
- Spark SQL 如何管理 select 权限,貌似任何用户都可以查询任何一张表?
- Fuzzy C-means 与 Gaussian Mixture Model 聚类的区别?修改
- 为什么 hadoop 的 shuffle 阶段需要对数据进行排序?
- spark 当中,被 cache 的 RDD 的引用是否可以存到 HashMap 里?