 有的话可以分享一下吗
mysql某张日志表有一亿多条数据,每天大概三四百万的数据增量,现在要对这张表进行数据统计。在不受限于任何方向的技术方案的情况下进行技术改造,用啥技术能最大提高分析的性能,实时性差异不能超过10分钟
五年运维狗,想从源码层面更了解底层,感觉要精通大数据,需要代码能力,不管是排错还是优化,甚至以后有机会做数据分析应用
报找不到一些类的方法的错,但是我的oozie的share lib更新过了,全新的spark的jar
1 本人研二计算机专业,2020年毕业,女生。想自学hadoop,在校招之前可能没法学到数据挖掘算法,这样可以找大数据开发的职位吗?想去大公司,会不会因为我不会数据挖掘算法就不太接受我。
2 由于导师约束没法实习,应聘大数据开发工程师却没有实习的情况下,该如何准...
为什么MapReduce中context.write()有时候不执行或者没有数据?
org.apache.hadoop.fs.FileSystem
org.apache.hadoop.fs.FileContext
org.apache.hadoop.fs.AbstractFileSystem
这几个类有什么联系啊?
我看hbase貌似在使用HDFS的时候是使用FileSystem的子类,那另外2个类又说是对外暴露接口,到底是怎么对外暴露呢?
需求 :使用flink 从kafka 实时读取数据 然后写入到es里面
想实现 每隔30秒之后 数据积累一定量之后批量写入es 应该怎么做?(不能在读取kafka源的时候加时间限制 因为我需要实时的读到数据还要做其他的操作,必须是读取之后每过30秒入一次es)

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
//连接socket获取输入的数据
DataStreamSource<String> text = env.socketTextStream("127.0.0.1", 4700);
text.map(action->{
ret...
麻烦问一下 spark读取hive表时 是default库是可以的,读取没有问题 读取相同ip的其他库就会出现这个问题 是怎么回事 跪谢了
![Uploading file...]()

这是稍微简化了的一个代码片段,这个函数每次要根据 dayid 调用 getList, 本质上是去 hive 里读取对应的 partition 然后做后续计算. 但是这个函数可能在一个 job 中以相同的 dayid 被调用多次(也可能是其他 dayid). 所以为了让被 cache 的 rdd 被重复使用,我想把 dayid&r...
hadoop的shuffle阶段排序的作用是什么呢?
在spark中的shuffle是不需要进行排序的,同样地在hadoop中不进行排序也能对数据进行分组,如果在业务上不需要排序,那么是否可以去掉hadoop中的排序呢?
python34出现了上述提示,不知道怎么解决啊,还请大佬相助,多谢多谢!

是不能用wps的Excel导入数据吗?
模糊C均值聚类与高斯混合模型都是对K-means算法的延伸,且两者都属于软划分,即每个样例以一定的概率(比例)属于每一类,那这两者究竟有何区别呢?或者说各自的优势在哪里?
Spark SQL如何管理select权限,貌似任何用户都可以查询任何一张表?
spark streaming任务如何切分,是按照duration切分么?
之前有在caffe上做过点CNN,现由于项目需要,想用spark库中的CNN(据说已支持),但有个疑问。之前研究CNN的时候因为神经网络各层之间互联感觉不可能在分布式计算平台实现,所以想问Spark上是怎么实现对这些神经网络算法的分布式计算的呢?O(∩_∩)O谢谢
如某些算法单次计算依赖全局数据,这个应该做不到分布式并行计算?
一个算法能否并行计算的前提是这个:每个工作节点上的rdd都是已经被切分的数据片,可隔离并行计算? 如果是这样,那分布式机器学习算法的范畴是否比较小?应该也存在的解决方式吧?
spark伪分布式模式的性能怎么样? 能否替换传统数据处理里的某些场景?
Linux平台完全分布模式下Hadoop实例wordcount在eclipse编写运行权限问题:
Exception in thread "main" java.io.IOException: 权限不够
at java.io.UnixFileSystem.createFileExclusively(Native Method)
at java.io.File.createTempFile(File.java:1879)
at org.ap...
目的是算有多少个1,一个1代表一个人,但是0-1变化段有阶跃,所以用kmeans算法处理,目的是算有多少个1,希望有人回答一下,感谢~~
HDFS全部文件的元数据是存储在namenode节点的硬盘还是内存?
vs code Python debug代码能debug到源码吗,如何设置?
代码如下

业务为查询库内数据压缩为gz压缩包,然后上传。现在速度很慢,已经尝试优化sql,sql查询速度提升了7倍还是无法满足需求,如何提升gz压缩速度呢?