· 搜索结果 | 海汼部落 | IT学习->实战为王

zouziyan

第 9297 位会员 ⋅ 2024-03-21 ⋅ 0 关注者 ⋅ 0 篇话题 ⋅ 0 条回帖 ⋅ 篇文章

123nn

第 9309 位会员 ⋅ 2024-03-23 ⋅ 0 关注者 ⋅ 0 篇话题 ⋅ 0 条回帖 ⋅ 篇文章

Xhy

牛人

第 8067 位会员 ⋅ 2023-10-31 ⋅ 2 关注者 ⋅ 0 篇话题 ⋅ 0 条回帖 ⋅ 篇文章

黄钟吕

第 9062 位会员 ⋅ 2024-02-29 ⋅ 0 关注者 ⋅ 0 篇话题 ⋅ 2 条回帖 ⋅ 篇文章

DER | 请一句话介绍你自己，大部分情况下会在你的头像和名字旁边显示，字数要大...

第 4719 位会员 ⋅ 2021-09-27 ⋅ 126 关注者 ⋅ 57 篇话题 ⋅ 1 条回帖 ⋅ 篇文章

spark 加载 opencv 报错？ by 菜鸟程序狗

https://hainiubl.com/topics/14223? 2018-10-31 ⋅ 3876 ⋅ 0 ⋅ 1

代码 System.loadLibrary(Core.NATIVE_LIBRARY_NAME); SparkSession spark = SparkSession .builder() .appName("VideoStreamProcessor") .getOrCreate(); new Mat(); 为什么会报Exception in thread...

Elasticsearch 集群异常？ by Xibaibai

https://hainiubl.com/topics/26403? 2018-11-03 ⋅ 2888 ⋅ 0 ⋅ 3

最近Es集群一直在发告警邮件: 1. Processor load is too high on xxx 2. Disk I/O is overloaded on xxxx 我对公司业务代码还不太熟悉，不知道应该怎么找出来到底是哪个请求的问题。。。有没有大神有好的办法。。。QAQ

大数据存储中小文件怎么存储？ by ruiqi

https://hainiubl.com/topics/26438? 2018-11-07 ⋅ 3299 ⋅ 1 ⋅ 4

我们需要存储中小文件，单个文件大小是在512kb.并且提供后面下载使用。个人看了不少开源实现方案。 1. hdfs 不适合存储小文件，但是我们的图像可以聚合成大文件中间增加了一部聚合操作，如果后期存在图像无法根据业务聚合在一起。容易出现文件小的问题。 2. 看了fa...

使用 jdbc 连接 hive 出错 hadoop is not allowed to impersonate hadoop？？？？ by shishuai19910217

https://hainiubl.com/topics/26440? 2018-11-08 ⋅ 4328 ⋅ 0 ⋅ 2

1. hadoop 的core-site文件我加上 <property> <name>hadoop.proxyuser.hadoop.hosts</name> <value>*</value> </property> <property> <name>hadoop.proxyuser.hadoop.groups</name> <value>*</value> </property> 2.HiveServer2 也起来...

org.opencv.core.Mat.n_Mat () J 错误？ by 菜鸟程序狗

https://hainiubl.com/topics/26460? 2018-11-15 ⋅ 7541 ⋅ 0 ⋅ 1

代码 System.loadLibrary(Core.NATIVE_LIBRARY_NAME); new Mat(); 我在centos6下已经加载了链接库so文件，用spark实例化opencv里的mat类时，总是报Exception in thread "main" java.lang.UnsatisfiedLinkError: org.opencv.core.Mat.n_Mat()J？？

hive 怎样批量创建表？ by shishuai19910217

https://hainiubl.com/topics/26478? 2018-11-21 ⋅ 5420 ⋅ 0 ⋅ 4

// hiveJdbcTemplate.execute(sql.toString()); //conn = jdbcDataSource.getConnection(); //conn.setAutoCommit(false); //statement = conn.createStatement(); for(String sql : sqlList){ // 业务不同创建的表就不同 //statement.exec...

Java 调用 mvn 报错？ by 菜鸟程序狗

https://hainiubl.com/topics/26482? 2018-11-21 ⋅ 3453 ⋅ 0 ⋅ 1

Java调用mvn总是报错 Exception in thread "main" java.io.IOException: Cannot run program "mvn": CreateProcess error=2, 系统找不到指定的文件。 at java.lang.ProcessBuilder.start(ProcessBuilder.java:1048) at java.lang.Runtime.exec(Runtime.java:620)...

搭建完集群如何单元练习？ by nothing

https://hainiubl.com/topics/26483? 2018-11-21 ⋅ 2725 ⋅ 0 ⋅ 1

大神好: 我在linux搭建好hadoop集群和spark集群，安装了jdk和scala，现在该如何做大数据的scala练习呢？一直很困扰，如何做spark大数据的练习呢？交互式的。非常感谢！！麻烦做一下细致的讲解哦，谢谢哈

Spark2.x 之 SparkSql 读取 MySQL 数据中 Decimal 类型如何读取？ by 歌唱祖国

https://hainiubl.com/topics/26491? 2018-11-24 ⋅ 5564 ⋅ 0 ⋅ 1

如题，Spark2.x之SparkSql读取MySQL数据中Decimal类型如何读取？我在读取MySQL数据时有个字段是Decimal字段，SparkSql，getAs[BigDecimal]出现报错，具体报错信息如下： ``` java.lang.ClassCastException: java.math.BigDecimal cannot be cast to scala.math.BigD...

hive 嵌套查询问题? by sparksun007

https://hainiubl.com/topics/26499? 2018-11-27 ⋅ 5742 ⋅ 1 ⋅ 4

合并a.month,a.day,sum(a.pv)/count(a.*)报错TOK_ALLCOLREF is not supported in current context： Select a.month,a.day,sum(a.pv)/count(a.*) from (Select month,day, remote_addr,count(1) as pv from ods_weblog_detail group by remote_addr,month,day) as a;...

如何配置 hue 的 Web ui 用 https 协议访问，还有 50070 等端口对应的 Web ui 的访问用 https 协议访问？ by 歌唱祖国

https://hainiubl.com/topics/26503? 2018-11-28 ⋅ 4707 ⋅ 0 ⋅ 4

老师，在企业中很常见需要将一些大数据的web ui发布到公网上，可以使得公司的员工可以不需要在内网环境访问到大数据组件的portal。请问如何配置hue的web ui用https协议访问，还有50070等端口对应的web ui的访问用https协议访问？

spark shuffle 在原始的 Hash Shuffle 机制中怎么生存 bucket？ by shishuai19910217

https://hainiubl.com/topics/26510? 2018-11-29 ⋅ 3498 ⋅ 0 ⋅ 3

网上说shuffleMapTask 创建会根据Reducer的数量创建出相应的bucket (每个shuffleMapTask都会为每个reducetask 创建一个bucket文件) 也就是说最终的小文件数量是 M*R 我想问一下一定是有M*R个文件吗？？？（不考虑consolidation机制，不考虑其他因素）我自己...

大数据场景下的查询优化 vs 数据库场景下的查询优化? by 张凌天

https://hainiubl.com/topics/35949? 2018-12-24 ⋅ 2433 ⋅ 0 ⋅ 1

数据库场景下的查询优化器和大数据场景下【Mapreduce、Spark】的查询优化器的优化手段上有什么相同点和不同点？自己也看了一些论文，希望能一起讨论讨论。具体场景：批处理，执行一批sql查询

Spark/Tez 这些并行计算框架为何不用有环图做执行计划？ by 张凌天

https://hainiubl.com/topics/35950? 2018-12-24 ⋅ 2264 ⋅ 0 ⋅ 1

如果使用有环图，是否就可以支持类似于条件分支和循环一样的变换，从而提高执行计划的表达能力呢？

市面上流行的 R + Hadoop 方案如何解决 R 的内存瓶颈问题？ by 张凌天

https://hainiubl.com/topics/35951? 2018-12-24 ⋅ 2435 ⋅ 0 ⋅ 1

好比 RHIPE，RHadoop 等，它们做到了吗？

自从 flink 成熟之后，spark 是否慢慢成为鸡肋？ by 卢本伟牛X

https://hainiubl.com/topics/35952? 2018-12-24 ⋅ 2761 ⋅ 0 ⋅ 1

spark 虽然可以完成的功能较多，但是每一个功能都做的不太好，每个功能组件都有更好更成熟的Hadoop生态圈组件替代。如下： spark 批处理：flink，mapreduce.相对来说spark批处理的优势还是比较大的！ spark sql:hive,flink sql可以替代。 spark streaming:flin...

Hive 集群开通日志审计功能的方法以及需要 license 吗？ by 卢本伟牛X

https://hainiubl.com/topics/35953? 2018-12-24 ⋅ 2657 ⋅ 0 ⋅ 1

请问各位老师

流式计算与批量计算有什么区别？ by 卢本伟牛X

https://hainiubl.com/topics/35954? 2018-12-24 ⋅ 5090 ⋅ 0 ⋅ 1

大数据中大多数用到的是流式计算与批量计算相比各自的适用场景有什么区别和联系呢？

storm python 无法产生日志? by 韦晓阳

https://hainiubl.com/topics/35955? 2018-12-24 ⋅ 2828 ⋅ 0 ⋅ 1

storm里调用python，python脚本无法产生日志？ 1、往txt、csv写入日志因为权限和stdin、stdout问题，不生效。 2、往redis写日志，不方便查看，还需要定时清理，感觉效率太低了怎么让python把日志写worker.log文件里面?

mahout 可以不用 hadoop 实现 kmeans 聚类吗？ by 生亦何欢

https://hainiubl.com/topics/35956? 2018-12-24 ⋅ 2328 ⋅ 0 ⋅ 1

请问mahout 可以不用hadoop 实现kmeans聚类吗？

为什么在 hadoop wordcount reducer 中使用的 sum++ 得出的结果全为 1？ by 生亦何欢

https://hainiubl.com/topics/35957? 2018-12-24 ⋅ 2498 ⋅ 0 ⋅ 1

for(IntWritable val:values){ sum+=val.get()； } context.write(key,new IntWritable(sum)) 我唯一的不同是使用了sum++，考虑到map输出的值都是1,所以每一次迭代都只是sum加一。但是最后统计结果每个单词出现的次数全为1，我把代码改回 sum+=val.get(...

利用 spark ml 库如何实现对 rdd 中每一个 partition 都训练一个 lr 模型？ by 生亦何欢

https://hainiubl.com/topics/35958? 2018-12-24 ⋅ 2559 ⋅ 0 ⋅ 1

利用spark ml库如何实现对rdd中每一个partition都训练一个lr模型？

Spark SQL 和 Oracle、MySQL 有什么区别呢？能简单说下么？ by 卢本伟牛X

https://hainiubl.com/topics/35961? 2018-12-26 ⋅ 3624 ⋅ 0 ⋅ 1

区别在哪里

Spark 里 RDD 数据怎么拿到 hashmap 中呢？ by 卢本伟牛X

https://hainiubl.com/topics/35962? 2018-12-26 ⋅ 3869 ⋅ 0 ⋅ 1

val sc = new SparkContext(conf) val rdd01 = sc.textFile("G:/input/a.txt") val rdd02 = rdd01.map(x=>(x.split("\t")(0),x.split("\t")(1).trim.toInt)) var map2 = new mutable.HashMap[String,Int]() rdd02.foreach(println(_)) rdd02.foreach(x=>...

spark 提交任务？ by 卢本伟牛X

https://hainiubl.com/topics/35963? 2018-12-26 ⋅ 2087 ⋅ 0 ⋅ 1

spark jar必须设置了master是local才可以消费到数据，指定yarn就没有处理的数据是为啥

使用 Scala 开发 Spark ，如何提高代码质量？ by 张凌天

https://hainiubl.com/topics/35964? 2018-12-26 ⋅ 2627 ⋅ 0 ⋅ 1

写了2年Spark，不涉及二次开发，主要进行ETL 等操作。感觉代码质量越来越差了因为Scala 实在太方便了，太简洁了，而且任务也压的紧，感觉把什么面向对象，设计模式，都扔在脑后了。更现实一点就是，Scala写一个Spark功能点，一共才几行代码，实在想不通怎么用上...

jdbc 连接 hive 启动 hiveserver2 和 spark 启动 thriftserver 的区别？ by 张凌天

https://hainiubl.com/topics/35965? 2018-12-26 ⋅ 3875 ⋅ 0 ⋅ 1

请问如果是jdbc执行spark sql,已经把hive配置文件放入到spark配置目录的情况下，连接从hive（执行引擎spark）里面启动的hiveserver2和连接从spark中启动的thriftserver的区别，比如用途、查询速度，原理等方面？是不是前者根本就不是走的spark sql？

spark thrift server 如何增大日志留存数量? by 张凌天

https://hainiubl.com/topics/35966? 2018-12-26 ⋅ 2559 ⋅ 0 ⋅ 1

何修改spark的thrift server保存的job的日志数量，或者能否写入文件存储 ![file](http://hainiubl.com/uploads/images/201812/26/3300/dcQFDCIs3w.png)

在 shell 模式没有问题，但是.scala 文件引用包为啥就出错？ by 张凌天

https://hainiubl.com/topics/35967? 2018-12-26 ⋅ 2505 ⋅ 0 ⋅ 1

linux系统，写scala文件，导入包的时候报错。。。但是在shell模式很正常。。。这是什么问题啊？ ![file](http://hainiubl.com/uploads/images/201812/26/3300/HfOKrL4CP4.png)

sparksql 读取数据库是如何分布式执行的？ by 生亦何欢

https://hainiubl.com/topics/35968? 2018-12-26 ⋅ 2576 ⋅ 0 ⋅ 1

如果是MySQL是不是会有多个链接，链接数(分区数)是如何划分的？如果是hive又是什么样的呢？

关于 “” 的搜索结果, 共 2411 条