


log显示
File "/www/cloudera/parcels/CDH-5.16.1-1.cdh5.16.1.p0.3/lib/hue/build/env/lib/python2.7/s...
编辑了一个权限777的文本,但每次点击保存之后,原来的文本没有变,只多了一个“???????”修改后的文件。
因为zookeeper的一个作用是防止hadoop因为一个datanode挂掉而导致整个集群不能正常使用的问题,在海牛视频里面看到zookeeper集群是由nn1,nn2,s1,三个虚拟机组成的集群。而在hdfs环境搭建时,由nn1和nn2担任namenode的角色,所以有个小疑问,如果nn1的namenode节点挂...
Hadoop默认map数是2,块大小128M,当文件 为 512M是会有几个map,有几个map并行?
各位大神好,我最近在自己的虚拟机上搭建hadoop环境,使用的hadoop版本是3.0alpha版本,要求jdk1.8,我在我的pc虚拟机中安装了jdk1.8。而我之前java项目开发,用的版本是1.7,这个低版本会对后续的hadoop有影响吗?
上周五CDH集群运行好好的,各个组件运行良好,今天周一早晨来之后发现挂掉了,启动cm的server一会儿后就挂掉,提示cloudera-scm-server dead but pid file exists,通过cloudera-scm-server.log日志提示:
ERROR ParcelUpdateService:com.cloudera.parcel.components...
比如用tensorflow之类的深度学习库时,都会用到cuda来初始化tensor,如果不设置curand,每次运行初始化的结果都会不同,所以这里要怎么写?
想问一下,我写了mapper程序,然后reduce"cat"这样子写,这样得到的结果分布在很多文件夹中(因为程序就是在不同的零碎文件中查找目标string出现的次数),每个文件中保存了各自文件中string出现的次数,但是我的目标是把所有文件中string出现的次数相加放到一个文件输...
Hadoop下reduce处理量最大是1G如果order by 全局排序的文件超过1G,系统如何处理?
大家把关系数据库海量数据增量抽到Hadoop平台是存储在哪里(比如hdfs hive HBASE等)?关系数据修改后如何刷新Hadoop平台数据的?
大的文件拆分后,怎样用Hadoop进行高效的处理这些小文件?以及怎样让各个节点尽可能的负载均衡?
spark开发词频统计应用,最后数据保存到Hadoop下的data文件里,用Hadoop查看保存的data文件里面有好几个文档,数据究竟在哪个文档里
Spark是一种内存计算引擎,为什么他还要依赖HDFS这种文件系统呢?
在spark集群中需要实现每个元素与其他元素进行计算,比如
rdd = sc.parallelize(Array('a', 'b', 'c', 'd')),
那么需要相互计算的元素对为
(a, b), (a, c), (a, d), (b, c), (b, d), (c, d)
我知道可以先进行cartesian,然后filter一下,但是对于数据量特别大的...

现在问题是分批利用集群处理数据:
按照理论来说,同一个任务流程,每批的处理时间应该相同,但是现在问题是,第1批是时间很快,大概5分钟能处理完,运行一段时间后,到第30多批后,运...
目前遇到一个问题,SparkStreaming消费Kafka数据的时候,当有大量初始化数据,并且这些数据涉及大量任务,那么这初始化的大量任务的执行会阻塞实时从Kafka发送过来的任务(因为当前任务的执行优化的还不够快,所以当初始化发送好几万的任务的时候造成非常明显的阻塞),...
看到一篇文章说,直接kafka到spark到mysql出现了数据重复的问题,然后在spark后再加一个kafka,解决了数据重复问题,为什么呢??

python2.7怎么获取Kafka的topic?
1.kafka其中一条消息异常,导致后面无法消费,这种情况怎么处理,可否像其他消息一样乱序重试,已查阅kafka无重试队列这个概念。
2.kafka消息丢失是怎么回事,acks设置为-1还会有消息丢失吗,问题点在哪里?
3.既要有大吞吐量,又要可靠性,这种情况用哪个消息队...
我想发送消息给kafka,现在用的是spring for kafka框架,在代码里我是用KafkaTemplate发送给kafka的,配置里写的是kafka.bootstrap-servers=192.168.130.73:9092当然可以在多加,我知道zookeeper是默认来管理kafka节点的,我现在不太明白kafkatemplate发送的时候他是自动...
producer和 kafka集群不在同一个局域网内,怎么通过这个producer向这个卡卡集群写入数据
最近公司搭建了CDH生产环境,考虑到数据安全,
1、具体应该做哪方面的工作?
2、有没有类似的文档可以提供呢?
3、启用kerberos认证会不会后面操作代码比较麻烦?
4、基于sentry的角色权限控制加入后代码操作是不是比较麻烦?
5、在CDH平台中如何设置hdfs的静态、...
不管我音乐有没有开始播放,这函数返回值都是0,按理来说,不应该是音乐播放过程中,返回1,音乐放完了,就返回0,这么理解不对吗?
代码如下:
# Unit aaa: Pygame Hello Wall Ball Game version 1
import pygame, sys
pygame.init()
size = width, height = 600, 400
speed = [1, 1]
BLACK = 0, 0, 0
screen = pygame.display.set_mode(size)
pygame.d...
原来的代码可以实现,但是单位电脑安不了,64位1.9.3就没有movie模块,win32的1.9.3就有,而最新的1.9.4或1.9.5都没有,怎么解决,大神们没有在游戏里添加酷炫的视频吗,,不想转化成图片逐帧,
如题,我想要从Excel表中先获取B2单元格的日期,再读取下面的数据。
我目前先读取一次DataFrame获取全表内容指定返回日期
然后再skiprows=5提取下面的DataFrame
有没有什么方法,先提取一次全表的DataFrame,读取日期后,再忽略掉这个DataFrame的前四行,并且...


Tracking UI 处于UNASSIGNED状态
。第一次遇到这种问题,请大神不吝赐教。