spark在在运行过程中core设置为400 但是执行到400整数倍的时候 任务就会卡一会儿 查看 发现gc时间比较长;任务是使用sql直接对dataframe进行操作;任务时间1.3h gc时间达到37min 从web ui中查看的;已经在使用的udf函数中 尽量避免了new对象和对象拷贝
1、看下数据分布是否均匀 处理慢是一个节点数据太多吗 2、core设置大不一定运行的快 调小点试试
`单行代码`
关注海汼部落技术社区