###1. 把hadoop的tar包分发到每个机器上

./scp_all.sh ./up/hadoop-2.7.3.tar.gz /tmp/ 拷贝到每个机器的tmp目录下
有什么动机和目的
(1)提供较高的容错率,因为数据有备份,通过机架感知策略namenode会尽量将数据的复本放到不同的机架上,所以小规模的宕机不影响数据的存储。
(2)可以使用底成本的硬件搭建一个分布式文件系统,但对于一般...
进入2012年以来,大数据(Big Date)一词越来越多地被提及与使用,它已经出现过在《纽约时报》、《华尔街时报》的专栏封面,人们用他来描述和定义信息爆炸时代产生的海量数据,进入美国白宫网的新闻,在国内一些网络主题的讲座沙龙中,被嗅觉灵敏的银河证券、国军证券、...
###1. yarn(Yet Another Resource Negotiator)的优点
(1).提高集群资源的利用率。
(2).对更多大数据处理工具的支持,从而使hadoop更像一个平台。
(3).在yarn上使用的数据处理工具是安装在客户端,而不是安装在整个集群上,所以数据处理工具更容易升级。
###2. y...
###1. mapreduce的主要目的
分而治之,化大为小。

###2. map和reducer阶段分别解决什么样的问题
map阶段解决的问题,就是把输入变成KV结果用于reducer的输入
##以下内容回帖刷新可见…...
###1. mapreducer shuffle过程回顾

###2. 需要的软件
https://github.com/steveloughran/winutils
winutils-master

###2. 解压eclipse

##以下内容回帖刷新可见………………
###1. counter使用
mapper里设置count

reducer里设置count

##以下内容回帖刷新可见………………
###1. 得到jobsubmitter用于提交任务,使用的是LocalJobRunner

###2. 执行提交工作的提交任务方法
##以下内容回帖刷新可见………………
###1. 排重
利用reducer的输入key是已经是排重过的先天特性进行数据的排重
mapper和reducer实现

job配置
##以下内容回帖刷新可见………………
 我的电脑支持虚拟模式,但是在BIOS里找不到设置虚拟模式的 ,求大神解答

###1. 多目录输出
maxout/max
maxout在输出目录下新建的文件夹
max输出文件的前缀

结果

##以下内容...
###1. semijoin,distributedcache使用
semijoin的意思是在mapper端进行连接适合数据集小(一般为比较小的字典文件)与数据集大的连接。因为数据已经在maper端join了所以不需要运行reducer
使用时在客户端用-Dmapreduce.job.cache.files或者-files通过命令行指定本地...
###1. 多个reducer实现整体排序
先观察数据情况,根据数据的分布去设计partitioner

这组数据中大于100的只有2个,大部分数据还是在小于100的区间,所以就拿100当个分界点
去算0到10...
###1. MR任务工作链设置流程
配置好任务依赖关系并把任务加到工作链中
使用run方法运行

###2. 任务工作链退出方式
由于job.run是个阻塞方法,所以需要在线程中监控任务的执行结果并调用...
###1. 项目工具类
项目的工具类要统一放到util中,命名方式要以Util结尾,这样别人看到类名就知道这是一个通用的工具类

编写通用判断为空工具类

数字营销人员肯定会接触到采用多个设备的客户。根据Criteo Mobile电子商务报告,40%的在线交易涉及多个设备。未能在不同平台上吸引客户的厂商正在使其数字化战略成为市场机会。
传统...
###一、 大数据技术在银行业中应用的前景
20世纪以来,信息技术在金融业中的大量广泛使用,使其累积了体量庞大的数据和信息,金融机构当中存储着数以万计的数据,这种情况迫使金融机构必须要考虑如何将这些数据转换为可以创造实际价值的内容,为企业尽可能多的创造...
“人类正从IT时代走向DT时代,”阿里巴巴集团创始人马云在各种场合都不遗余力地推销自己的观点,信息社会已经进入了大数据(Big Data)时代。大数据的涌现改变着人们的生活与工作方式,也改变着制造业企业的运作模式。
###一、 制造业也处于一个数据爆炸的时代
近年...
###1. ORC文件
一、定义
ORC File,它的全名是Optimized Row Columnar (ORC) file,其实就是对RCFile做了一些优化。据官方文档介绍,这种文件格式可以提供一种高效的方法来存储Hive数据。它的设计目标是来克服Hive其他格式的缺陷。运用ORC File可以提高Hive的读、...
###1. HIVE SELECT 语法
SELECT [ALL | DISTINCT] select_expr, select_expr, ...
FROM table_reference
[WHERE where_condition]
[GROUP BY col_list]
[ORDER BY col_list]
[CLUSTER BY col_list | [DISTRIBUTE BY col_list] [SORT BY col_list] ]
[...
###1. GROUPING SETS
语法
SELECT a, b, SUM( c ) FROM tab1 GROUP BY a, b GROUPING SETS ( (a, b), a, b, () )
等于
SELECT a, b, SUM( c ) FROM tab1 GROUP BY a, b
UNION ALL
SELECT a, null, SUM( c ) FROM tab1 GROUP BY a
UNION ALL
SELECT null, b, SU...
Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。我们公司的数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。
在几次升级Hive的过程中,我们遇到了一些大...
###1. 在eclipse上运行hive
通过sh -x /usr/local/hive/bin/hive查看执行了那个类

发现是执行的hive的cli,在阿里云上搜索hive-cli

继承org.apache.hadoop.hive.ql.udf.generic.GenericUDTF,实现initialize, process, close三个方法。
.上传hbase的压缩包

(2).分发压缩包

(3).解压hbase...
###1. eclipse上安装hbase开发环境
修改pom添加hbase-client

把hbase-site.xml放到resource目录下

包...