ling775000 主题列表_海汼部落 | IT学习->实战为王

ling775000

第 1168 位会员

0 关注者

34 评论

37 话题

请问 Linux 里全选的快捷键是什么呢？

@青牛您说的视图选择是？
请问 BI 开发工程师是做什么的？

@青牛那BI工程师跟数据分析师一样吗？
请问 BI 开发工程师是做什么的？

那BI工程师跟数据分析师一样吗？
请问现在找大数据工作用啥软件呢？

@青牛我是说找工作的软件，除了前程无忧，拉钩，还有啥呢？
信息被删除或无权限查看
超大数据量（上 T 级纯数据千亿以上条）使用 Solr 引擎是否可行？

建议使用hbase+solr 做hbase二级缓存，存储放在hbase里，查询索引建在solr里，能实现海量数据高并发快速查询。
大数据开发和大数据分析有什么区别呢？

@青牛那如果大数据平台开发的人，他不写ETL这种跑报表数据的，他还能干啥呢？写代码？如果集群框架啥的都搭建起来了，我想不出除了ETL跑数据之外，大数据开发的还能写什么代码。
请问 sparkstreaming 对接 kafka 的两种方式有什么大的区别作用呢？

@青牛为啥我百度看到的是Receiver与Direct的方式？
请问 1T 左右的数量用 MapReduce 跑 job 数设置为多少合适呢？

@青牛恩恩理解了，原来我理解的是reduce总数，不是并行度，我还想问个问题就是每个map任务到reduce任务，执行时间大概是多久呢？比如一个传统的Wordcount，并行度中之一的map到reduce端执行的时间。
请问 1T 左右的数量用 MapReduce 跑 job 数设置为多少合适呢？

@青牛还是说我理解的只是patition的总数，也就是reduce的总数，而你说的20就够了，是指reduce task的并行度？
请问 1T 左右的数量用 MapReduce 跑 job 数设置为多少合适呢？

@青牛那我对reduce数的理解就shuffle的时候数据进行patient分区，决定reduce数，意味着有多少个key种类就有多少个reduce数，这么理解，对吗？
请问 1T 左右的数量用 MapReduce 跑 job 数设置为多少合适呢？

@青牛可是上上条你说的reduce数，均匀的话20个就够了，对此我有个疑问就是这个reduce数不是shuffle的数据数据进行patient分区，决定reduce数吗？意味着有多少key种类就有多少个分区吧？那2T左右的数据，设置20个就够了怎么理解呢？
kettle 是做什么的呢？平时工作中

@歌唱祖国那效率和sqoop hive等数据仓库清洗手段来讲，哪个快呢？是不是数据量小用kettle，数据量大就跑程序？
请问 1T 左右的数量用 MapReduce 跑 job 数设置为多少合适呢？

@青牛跑MapReduce的时候不是有可以设置job数量的地方的吗？
信息被删除或无权限查看