@ling775000 既然用到sql那你必须知道是什么字段,如果字段变化太多可以用hive的map类型做映射
@ling775000 不算,一般都用图表、柱形图的形式显示运算完成的数据
不可以,Scala 里面的隐式转换用的是装饰模式,可以给函类型或值赋予任何附加的功能。比JAVA的强转可强大多了。
来源固定就写成代码或者枚举类,不固定想以后灵活配置可放到文件或者表里
找一下每个渠道传过来的数据的特征
复杂的做法是收集用户的行为给用户做画像,然后建模训练 简单点的基于userCF或itemCF算法的推荐。介绍你一本不错的讲推荐系统的书《推荐系统实践》
@BigTester 我也不太清楚你用是的那个BI工具,只要支持就可以了
我们这边用的是centos5.7比较新,hadoop用的是apache 2.7。3自己编译的,如果你非想用CDH的那就下个2.X最新版的就行。你可以搞这篇笔记去准备自己的集群环境http://hainiubl.com/topics/176
有很多现成的报表工具,比如hue或者easyreport,可以生成报表和图表
@Xibaibai 你理解错了,我的意思是mysql中只存结果,比如最终的统计值,大的数据集还是不要存在mysql中
不需要,因为节点之间的数据传输和ssh没有关系了,那个版本都好装,你不会编译就找别人编译好的,会就自己编译一个再装,给你一个hadoop源码编译教程参考一下http://hainiubl.com/topics/82
可以使用sqoop或者把表export成文件再上传到hdfs上,flume也能做方式很多,最方便的是直接导出文件的形式上传因为这样你不用安装其他的任何工具
看日志你需要启动yarn的proxyserver服务 如果是看mr任务的日志你还需要启动historyserver服务
@水墨之风 目前来看,我还是建议把算好的数据放到mysql中的方式,目前的大数据解决方案对大量的数据查询速度都达不到从关系数据库中直接查询的速度。
如果数据量小的话可以,数据量大的话那用户等待时间长,就体验太差了。用户的忍耐度有一个3秒定论。当然如果是企业内部使用的话,即使用spark去查太大的数据量。也会有较长的等待时间,自己内部员工使用还凑合,不过要是你领导使用的话那他就不干了。:joy: