海汼部落
  • 首页
  • 课程
  • 实战
  • 云平台
  • 部落
  • 公告
  • 分享
  • 问答
    登 录 注册

ling775000

第 1168 位会员

0 关注者
34 评论
37 话题

  • Ta 发布的话题
  • Ta 发表的回复
  • Ta 关注的用户
  • Ta 赞过的话题
  1. 个人中心
  2. Ta 发表的回复(34)
  • 请问 Linux 里全选的快捷键是什么呢?

    @青牛 您说的视图选择是?

  • 请问 BI 开发工程师是做什么的?

    @青牛 那BI工程师跟数据分析师一样吗?

  • 请问 BI 开发工程师是做什么的?

    那BI工程师跟数据分析师一样吗?

  • 请问现在找大数据工作用啥软件呢?

    @青牛 我是说找工作的软件,除了前程无忧,拉钩,还有啥呢?

  • 信息被删除或无权限查看
  • 超大数据量(上 T 级纯数据千亿以上条)使用 Solr 引擎是否可行?

    建议使用hbase+solr 做hbase二级缓存,存储放在hbase里,查询索引建在solr里,能实现海量数据高并发快速查询。

  • 大数据开发和大数据分析有什么区别呢?

    @青牛 那如果大数据平台开发的人,他不写ETL这种跑报表数据的,他还能干啥呢? 写代码?如果集群框架啥的都搭建起来了,我想不出除了ETL跑数据之外,大数据开发的还能写什么代码。

  • 请问 sparkstreaming 对接 kafka 的两种方式有什么大的区别作用呢?

    @青牛 为啥我百度看到的是Receiver与Direct的方式?

  • 请问 1T 左右的数量 用 MapReduce 跑 job 数设置为多少合适呢?

    @青牛 恩恩 理解了,原来我理解的是reduce总数,不是并行度,我还想问个问题就是每个map任务到reduce任务,执行时间大概是多久呢?比如一个传统的Wordcount,并行度中之一的map到reduce端执行的时间。

  • 请问 1T 左右的数量 用 MapReduce 跑 job 数设置为多少合适呢?

    @青牛 还是说我理解的只是patition的总数,也就是reduce的总数,而你说的20就够了,是指reduce task的并行度?

  • 请问 1T 左右的数量 用 MapReduce 跑 job 数设置为多少合适呢?

    @青牛 那我对reduce数的理解就shuffle的时候数据进行patient分区,决定reduce数,意味着有多少个key种类就有多少个reduce数,这么理解,对吗?

  • 请问 1T 左右的数量 用 MapReduce 跑 job 数设置为多少合适呢?

    @青牛 可是上上条你说的reduce数,均匀的话20个就够了,对此我有个疑问就是这个reduce数不是shuffle的数据数据进行patient分区,决定reduce数吗?意味着有多少key种类就有多少个分区吧? 那2T左右的数据,设置20个就够了怎么理解呢?

  • kettle 是做什么的呢?平时工作中

    @歌唱祖国 那效率和sqoop hive等数据仓库清洗手段来讲,哪个快呢?是不是数据量小用kettle,数据量大就跑程序?

  • 请问 1T 左右的数量 用 MapReduce 跑 job 数设置为多少合适呢?

    @青牛 跑MapReduce的时候不是有可以设置job数量的地方的吗?

  • 信息被删除或无权限查看
  • «
  • 1
  • 2
  • 3
  • »

为技术学习者提供一个动手实战、分享创造、结识伙伴、协同互助的平台。    

  京公网安备 11011402010672号        京ICP备17041118号-2