青牛主题列表_海汼部落 | IT学习->实战为王

数据清洗之后还需要统计啥的吗？

@ling775000 人家那意思就是统计数据规模和字段详情吧，这个是需要统计的，然后同比环比进行对比

CDH 意外中断导致 hue 调用 hive 查表时无法查询表，提示表不存在，如何修复该问题？大神请帮帮忙

@歌唱祖国数据是放在hdfs上，元数据是存储在mysql中，没有元数据信息就查不了hdfs上的数据

CDH 意外中断导致 hue 调用 hive 查表时无法查询表，提示表不存在，如何修复该问题？大神请帮帮忙

如果是使用metastore先看看metastore能不能连接上，你给的范围比较大，要一步步诊断

CDH 意外中断导致 hue 调用 hive 查表时无法查询表，提示表不存在，如何修复该问题？大神请帮帮忙

去操作机上启动hiveclient看看能不能查出表

sqoop 连接数据库密码方式？

使用配置可能比较好一点，密码在命令行里放到脚本里可能安全性差一些，如果放到程序里那修改起来可能会不太方便。

HBASE 新增节点上去的话，原先创建的预分区会有啥变化？

新增了regionserver，master就会把其它regionserver上的region分给他，达到集群中regionserver尽可能平衡的状态，你说的预分区是建表的时候有很多的region，比如这个表是6000个region，现在有3个regionserver，那每个regionserver都可能负责这个表的2000个region（可能多一点可能少一点未必是2000整）。那新加了一个regionserver就变成4台regionserver了，那每台regionserver负责这个表的1500个region

HBASE 如何查看一个表有没有做了预分区？

预分表的每个region的startrow和stoprow都计较有规则的，比如都是4位或5位的，自动分的可能前一个region是10位的下一个region是5位的
统计多少个rowkey可以用hbase-shell-1.3.1.jar rowcounter这个工具

hadoop 在执行 wordcount 时，job 卡住不继续执行？

这种情况如果不报异常大多都是集群的yarn资源不够，比如am分配不到资源一直Pending，或者am起来了，但在没有资源运作node任务，可以调大Scheduler资源或者map或reducer使用内存去解决

数据清洗之后还需要统计啥的吗？

这个过程中你要知道脏数据的情况是什么样的，比如每个字段的非法数据是多少，整体处理了多少条数据等等。比如你的日志是客户端上报产生的，那客户端版本更新是有周期的，这个过程是在持续的完成全部用户的新字段覆盖，比如双12淘宝客户端更新这个版本可能就包含新字段，还有做为数据开发人员要知道数据上报是否符合对这个数据字段的原本定义，因为你做为数据开发人员要起到数据的监督作用。比如数据ETL之后相比昨天的突然大幅的增多或者减少，像这种情况一般都是有异常的。

数据清洗之后还需要统计啥的吗？

你是说数据清洗过程中为什么还要统计吗？

wordcount 执行不了，查日志提示 maximum-am-resource-percent is insufficient，应该怎么设置？

@大中你的虚拟机的内存太小了，你可以再把mapred-site.xml里的
yarn.app.mapreduce.am.resource.mb
yarn.app.mapreduce.am.command-opts
mapreduce.map.memory.mb
mapreduce.map.java.opts
mapreduce.reduce.memory.mb
mapreduce.reduce.java.opts
再都设置小一点，别小到让程序跑不起来就行

webservice 取值问题

int totalbytes = request.getContentLength();
byte[] temp = new byte[totalbytes];
DataInputStream in = new DataInputStream(request.getInputStream());
in.readFully(temp); // 根据长度，将消息实体的内容读入字节数组temp中
in.close(); // 关闭数据流
String reqcontent = new String(temp); // 从字节数组中得到表示实体的字符串

Hadoop 部署集群时节点无法启动问题？

@足迹这几个环境变量都要设置的，你的问题就没有找到配置目录

file

java 问题解决

换成64位的JDK试试

spark 读取数据 split 问题?

你不要用map用flatMap。把aa改成list类型，这样返回的就是rdd[String]类型的，然后你rdd.foreach就是获取每一个值了