请问使用云平台Spark的默认配置可以支持百万级大数据的处理吗?数据集的原始记录大概250万条左右,中间经过连接操作可能达到500万条以上。如果不能的话,至少要选择多少核心+多少内存呀?
能,但是很慢,你至少需要30核 60G内存
`单行代码`
关注海汼部落技术社区