我理解的是数据清洗出来为啥要统计呢? 可以说下业务场景吗
我理解的是数据清洗出来为啥要统计呢? 可以说下业务场景吗
你是说数据清洗过程中为什么还要统计吗?
这个过程中你要知道脏数据的情况是什么样的,比如每个字段的非法数据是多少,整体处理了多少条数据等等。比如你的日志是客户端上报产生的,那客户端版本更新是有周期的,这个过程是在持续的完成全部用户的新字段覆盖,比如双12淘宝客户端更新这个版本可能就包含新字段,还有做为数据开发人员要知道数据上报是否符合对这个数据字段的原本定义,因为你做为数据开发人员要起到数据的监督作用。比如数据ETL之后相比昨天的突然大幅的增多或者减少,像这种情况一般都是有异常的。
@青牛 那天有人问我“你们清洗过不需要继续统计啥的么?” 我听得很懵逼,数据清洗之后不是得到想要的数据了吗?比如hive数据清洗,那他说的统计是啥意思?他说用脚本统计,我一时不理解
@ling775000 人家那意思就是统计数据规模和字段详情吧,这个是需要统计的,然后同比环比进行对比