青牛主题列表_海汼部落 | IT学习->实战为王

创始人

青牛

第 12 位会员

451 关注者

2256 评论

308 话题

WeChat
Website
公司
城市

大的文件拆分后，怎样用 Hadoop 进行高效的处理这些小文件？以及怎样让各个节点尽可能的负载均衡？

Hadoop会启动多个map来处理小文件，节点的资源分配问题是属于yarn的资源调度范畴详细情况推荐你看看yarn相关方面的书籍
spark 开发词频统计应用，最后数据保存到 Hadoop 下的 data 文件里？

用ls命令看下文档下面的文件发个截图上来
cloudera manager 的 server 提示 cloudera-scm-server dead but pid file exists？请大神解决

这个错误看起来是机器没有联网，访问不到 parcel repository 中的 manifest文件
Hadoop 默认 map 数是 2，块大小 128M，当文件为 512M 是会有几个 map，有几个 map 并行？

map的数目是由splitsize 决定的不是由块大小决定的 splitsize= Math.max(minSize, Math.min(goalSize, blockSize)),通常这个值=blockSize，输入的文件较小，文件字节数之和小于blocksize时，splitsize=输入文件字节数之和
算出来splitsize以后再根据规则计算出map数如果你指定的是splitsize=blocksize 那就是4个了
hadoop 环境搭建及开发的 jdk 版本问题？

虚拟机中的环境和真实电脑上的环境是隔离的所以环境之间互不影响
关于 zookeeper 在 hadoop 运用中的一个疑问？

不会的，你把zk和namenode的功能弄混了
Notepad++ 中如何对 hadoop 文件进行修改保存？

文件名是中文的吗尽量不要在window上面改登上服务器在linux下修改
利用 CDH5.16.1 添加 hue 时提示 hue server 启动不起来？请大神解决

mysql> show tables 看一下表里面有没有desktop_userpreferences 如果没有的话说明hue没安装成功重新装一下把
信息被删除或无权限查看
请问一下 mvn clean package 报错怎么解决？

写的很清楚没有pom文件
请问一下 mvn clean package 报错怎么解决？

执行命令的时候加上 -X参数看看具体信息
请问如何提升 java GZIPOutputStream 压缩速度？

缓冲区设置太大了吧一般是new GZIPInputStream(new FileInputStream(path.toFile()), 65536) 这样就行如果还不行得看一下哪一行代码慢定位一下问题
信息被删除或无权限查看
vs code Python debug 代码能 debug 到源码吗，如何设置？

没用过vscode 但是推荐你用pycharm 这个很好用还是免费版
为什么 Python 中无法输出 2.00？

print "%.2f" % 2.00000