海汼部落
  • 首页
  • 课程
  • 实战
  • 云平台
  • 部落
  • 公告
  • 分享
  • 问答
    登 录 注册
创始人

青牛

第 12 位会员

449 关注者
2253 评论
308 话题

  • WeChat
  • Website
  • 公司
  • 城市
  • Ta 发布的话题
  • Ta 发表的回复
  • Ta 关注的用户
  • Ta 赞过的话题
  1. 个人中心
  2. Ta 发表的回复(2253)
  • 为什么 HIVE 里显示有 3 张表,而 PYSPARK 里只显示一张表咧?

    没显示的表能用pyspark select出来数据吗

  • saprk 关于分区是什么时候进行的问题?

    spark是基于图计算的,也就是说画图的时候不论你怎么写都是在设计,只有在执行阶段才会去真正的运行数据处理,回到你说的问题textFile是逻辑上的分区 不是真正意义的数据分区,但是shuffle以后进行了真正意义的运行了 那时候才是真正的数据分区

  • airflow 定义 task 调度 spark 离线任务(YARN),有没有办法获取 spark 任务的执行状态?

    这是两个进程之间的交互,仔细理解一下你会发现spark-submit的时候是把作业提交给了集群,集群没有给提供对外控制作业的接口,所以你只能看着它们自动执行,如果想自己控制 你可以看看基于yarn的自定义开发

  • 请问我这 pycharm 下的 spark 运行老是打印这行警告日志,咋去掉啊,我到 log4j 都改了还没用?

    我记得在论坛中回答过一遍了 咋又发一遍?

  • spark 程序 在 sc.stop 之后的代码在哪里执行的?怎么执行的?

    相当于java的system.exit(0)

  • spark 中 spark.reducer.maxSizeInFlight 多大合适?

    如果作业可用的内存资源较为充足的话,可以适当增加这个参数的大小(比如96m),从而减少拉取数据的次数,也就可以减少网络传输的次数,进而提升性能。但是具体要看你要拉取得数据量多大

  • 如何在 hive 与 pig 中选择?

    企业现在都是hive pig的话自己学学就行了

  • spark collect (),当数据量比较大时,卡死怎么解决?

    spark本来就很吃内存 你单机的机器多少可用内存?有没有计算过这个矩阵乘法的规模?

  • kafka 同一个消费组里 多个消费者 使用 consumer.assign (topicPartitions);会造成数据重复吗?

    不会 kafka保证的了一条消费只能消费一次

  • kafka 消费者怎样每次只消费 30 条?

    自己在消费端写一个计数器就行了

  • 信息被删除或无权限查看
  • spark 在运行过程中 gc 时间太长 怎么处理?

    1、看下数据分布是否均匀 处理慢是一个节点数据太多吗
    2、core设置大不一定运行的快 调小点试试

  • 信息被删除或无权限查看
  • 停止 spark 时原有 worker 没有成功停止,再启动时又新增了 worker,有什么影响吗?

    直接kill掉 再重启就可以了

  • spark 框架构建时这算不算错误,警告级别,不影响正常运行吧?

    警告级别和info级别都不会影响正常运行 警告只是说你的用法可以不太合适 以后要改进

  • «
  • 1
  • 2
  • ...
  • 86
  • 87
  • 88
  • 89
  • 90
  • 91
  • 92
  • ...
  • 146
  • 147
  • »

为技术学习者提供一个动手实战、分享创造、结识伙伴、协同互助的平台。    

  京公网安备 11011402010672号        京ICP备17041118号-2