求助一下各位。
背景:
原始数据中的每行是个样本,每条样本包含一些关键字,mr作业目标是计算特定的一些关键字在所有样本中的覆盖率(即关键字出现次数 / 样本总数),线下使用cat map sort reduce 测试的结果无异常,但提交作业到hadoop集群后结果很奇怪,有两点异常 :
1 计算结果中,很多关键字丢失
2 覆盖率的值只出现0.0和1.0,没有其它的值
补充:
已经注意了Python2要使用float / float这一点,但还是有如上两点问题
求助一下各位。
背景:
原始数据中的每行是个样本,每条样本包含一些关键字,mr作业目标是计算特定的一些关键字在所有样本中的覆盖率(即关键字出现次数 / 样本总数),线下使用cat map sort reduce 测试的结果无异常,但提交作业到hadoop集群后结果很奇怪,有两点异常 :
1 计算结果中,很多关键字丢失
2 覆盖率的值只出现0.0和1.0,没有其它的值
补充:
已经注意了Python2要使用float / float这一点,但还是有如上两点问题
集群环境和你的测试环境一样吗 集群上的python版本是哪个
1、关键字丢失 你用的什么方法匹配?正则表达式吗
2、覆盖率的值只出现0.0和1.0,没有其它的值 统计的频数是int类型吗 计算的时候用int转float