青牛主题列表_海汼部落 | IT学习->实战为王

创始人

青牛

第 12 位会员

449 关注者

2253 评论

308 话题

WeChat
Website
公司
城市

Hadoop 50070 端口没有监听？

@足迹在hdfs-site.xml把这个配置上试试dfs.namenode.http-address
我看你datanode有异常，你是不是复制的虚拟机啊？复制的话要修改datanode的uuid
你可以看一下这篇文章，参考一下里面的配置，这个是带HA的http://hainiubl.com/topics/83
CDH 安装 MySQL 在那台机子上？

那台都行，namenode上也可以，随便找一台，不过企业里面是独立的数据库服务器，不会装数据库装在任何一台集群的服务器上，学习的化无所谓。
CDHManager、hive、oozie或azkaban这些会用到mysql。用于存储元数据和配置。
如果是不用CDHManager安装，单独安装hadoop是不需要mysql的
Hadoop 50070 端口没有监听？

贴一下namenode的日志呗
问下二次排序的使用场景有哪些？

比如让你列出最尽年份，1到12的数据

year month
2017 1
2017 2
2017 3
2016 1
2016 2
2016 3
wordcount 执行不了，查日志提示 maximum-am-resource-percent is insufficient，应该怎么设置？

你每个机器的yarn配置多大啊？
有 sparkSQL 了为啥还要 hive on spark 呢？

sparksql的应用要比hive on spark更灵活一些吧，可以在代码中使用也可以以服务形式使用。hive on spark是计算引擎的升级，毕竟很多不会写程序的想处理大数据还得用hive。那hive on spark会比原来的hive计算速度更快吧，对于开发spark的人来讲无所谓，对于不会开发spark的那就是厉器，为了让只会写SQL的人也能方便使用spark吧。
怎么对 hbase 中的数据进行清洗？

用spark或者mr读hbase底层的hfile文件，生成新的hfile文件，然后再导入到新的hbase表
用hadoop或者spark都可以做
这两篇笔记里有mr的相关内容
http://hainiubl.com/topics/125
http://hainiubl.com/topics/126
这里有spark的hfile操作
http://hainiubl.com/topics/196
spark 处理非结构化数据是怎么处理的？这个非结构化数据是怎么个数据能列举一下吗？

可以先转成结构化数据进行处理，当然也可以直接在非结构化数据上拿取相应的数据，不过比较麻烦，一般都是先ETL成结构化数据，ETL或以用mapreducer、spark或者用hive
非结构化数据一般是原始日志，比如nginx的原始日志
map/reduce master 里的地址是用 mapred-site.xml 里的还是 yarn-site.xml 里的？

@阳光下的猪这个文章有winutil搭建开发环境的
http://hainiubl.com/topics/89
map/reduce master 里的地址是用 mapred-site.xml 里的还是 yarn-site.xml 里的？

@阳光下的猪用winutil开发mr吧，那个插件bug太多
map/reduce master 里的地址是用 mapred-site.xml 里的还是 yarn-site.xml 里的？

map-site.xml里的
用 Linux 中 netcat 命令，客户端和服务端之间无法连接？

你的命令没有问题，用netstat -apn|grep 9999看一下有没有开启端口号

没有就是服务没启动成功。
如果有就telnet localhost 9999看一下，出现这个就没有问题

都不好使就检查一下网络和linux的防火墙。
还有一种可能就是host文件中的localhost配置问题，看一下host文件是否配置localhost
ssm 中 jetty 运行报错?

看看你少啥jar包了，给的信息太少我也无法确定
CDH 5.13.0 datanode 报错，有谁遇到过这个问题吗？

从异常上看，我猜是80以前那个数据块丢了，现在给你换了一下对应关系，如果不影响使用可以忽略。
hbase 怎么查看行？

从你的结果中看\x00\x00\x00\x00就是你的rowkey

year	month
2017	1
2017	2
2017	3
2016	1
2016	2
2016	3