- ODS层数据到DWD层数据经过与字典表的innerjoin的关联,就比如最简单的国家英文名转到国家中文名,可以用字典关联后替换掉,也可以用UDF中生成的jar包来进行变化。字典表如果大的时候连接通过MapReduce似乎效率并不高,字典表小的时候通过semijoin的方式好像效率也很高,但是这两种连接方式的效率与UDF函数jar包实现的比较,哪种方式性能上更加优异,在实际应用中该如何选择?
- 如果要应用UDF函数,我想能否在原始数据到ODS层的MapReduce中就进行判断和替换?还是最好在ODS到DWD层时候使用?并不是很理解UDF函数在什么时候用比较好?