海汼部落
  • 首页
  • 课程
  • 实战
  • 云平台
  • 部落
  • 公告
  • 分享
  • 问答
    登 录 注册
创始人

青牛

第 12 位会员

451 关注者
2256 评论
308 话题

  • WeChat
  • Website
  • 公司
  • 城市
  • Ta 发布的话题
  • Ta 发表的回复
  • Ta 关注的用户
  • Ta 赞过的话题
  1. 个人中心
  2. Ta 发表的回复(2256)
  • numpy 的数据类型为 np.object 时,矩阵运算时支持那些加速机制吗?

    object数据如果是数值型 直接转矩阵就行了 如果是字符串那就没法并行了

  • 信息被删除或无权限查看
  • Python 的游戏模块只有 pygame 吗?

    PyOpenGL 很多

  • SparkSQL 使用两表查询,表 2 获取表 1 查询的 id 范围范围,测试查询时间有几秒,该如何优化?

    不要in 把in改为join

  • spark Dataset<Row>如何分页获取或者以行位单位遍历获取?

    不全取得话你每次翻页都要提交一个spark job到集群吗

  • spark 如何计算自己占用内存的大小?

    统计方法,根据自己内部的数据结构统计内存的使用和分配 动态调整参数

  • 如何用 scala 实现 dataframe 添加自增序号列,并且将序号列放在第一列?

    把报错的信息贴一下把

  • spark-sql -f aa.sql 执行 sql 文件为什么文件开头报错就直接退出来了,不能全部执行?

    文件里面咋写的?

  • sparksqlselect.join.group 是会对应生成什么样的 rdd.再划分 stage 的?

    能更详细点描述吗 比如举个例子

  • Spark DataFrame 筛选数据问题?

    建议你看下python的正则表达式,
    比如
    In [1]: import re

    In [2]: str1='java=1000,python=9090'

    In [3]: info=re.findall(r'\d+',str1)#找到所有匹配的字符串,并把它们放到一个列表中

    In [4]: info
    Out[4]: ['1000', '9090']

  • spark 数据倾斜疑惑:shuffle.partitions 与 不同 key 个数 之间关系?

    partitions是按key进行partition的,一般不会把相同的key放到多个partition中 除非你自己定义了partition的策略,如果partition数量过大,其实是不会在那么多的partition上运行的,所以一般情况是针对key的量级比较大的情况 自定义partition策略

  • SparkSql 读取 JSON 格式的数据,做两张表左外连接?

    sql没问题。其中一个表没有数据是业务上允许没有数据吗?如果必须有数据那就得加另外的规则判断了

  • 信息被删除或无权限查看
  • spring boot 集成阿里云的 kafka 消息服务,无法读取 jks 文件?

    部署到哪里?部署的地方没有jks证书文件吗 还是jar包中没有把文件打到包里面

  • kafka 如何删除 topic?

    还需要 生产者和消费者彻底停掉并在zk中删除对应的文件结构

  • «
  • 1
  • 2
  • ...
  • 88
  • 89
  • 90
  • 91
  • 92
  • 93
  • 94
  • ...
  • 146
  • 147
  • »

为技术学习者提供一个动手实战、分享创造、结识伙伴、协同互助的平台。    

  京公网安备 11011402010672号        京ICP备17041118号-2