老师所教的获取日志的方式有两个,以小时为单位
第一个脚本实现:contab 2:00通过mv access.log文件到work目录下,上传到hdfs中,将文件夹命名为1:00。触发用crontab来实现。
第二个flume实现:contab 2:00通过cp access.log 文件到work目录下,flume监控到work目录下发生变化,将文件夹命名为2:00,上传到hdfs中。直接触发用flume,间接触发还是crontab
问题1:flume上传到hdfs的过程中,文件夹的日期名能否修改,比如上面第二方案hdfs文件名2:00修改到1:00(不知道怎么在flume配置文件里改,自己太菜)
问题2:公司集群是采用何种方式,是如何实现的
问题3:多个节点都有所需的数据源,contab在多个节点管理很麻烦,flume如何定时获取数据源,如果不行,怎么实现