pyspark的本质是local运算的 我不太清楚你说的矩阵并行是自己写的 还是调用python现成的 自己写的话应该不会有问题 调用现成的有问题 因为会在每个节点上本地上运行 并没有并行
- 为什么 pyspark 做 np.array 的迭代计算每个 task 运行速度与分配的 core 成反比?
- 目前 Hadoop 的前景怎么样?
- 请问一下,Hadoop 是从哪个版本开始对 S3 对象存储支持的?
- Python 里怎么样做双重 for 循环比较快呢?
- FLINK 中 AggregateFunction 里面的四个方法中的 merge 方法是做什么用的?
- 正则表达式中能否进行大小判断 ?
- 大数据工程师日常都做什么工作呢?
- 你们的 spark 任务一般跑多久?
- kafka connect 做 ETL,会造成数据丢失或重复吗?如果是的话,该怎么解决?
- java 里面,'\24'表示什么意思?求大佬解答?
- 用 zookpeer 的时候出现了这种情况怎么解决?
- 从 BI 数据仓库转做大数据中数据仓库需要学那些东西?还需要写 java 吗?
- JVM 中的这些宏怎么理解?
- Java 的一个问题,关于子类对象调用父类的返回值为 this 的方法,this 指向问题?
- 一个对象不再使用,有必要手动置为 null 吗?