· 搜索结果 | 海汼部落 | IT学习->实战为王

zouziyan

第 9297 位会员 ⋅ 2024-03-21 ⋅ 0 关注者 ⋅ 0 篇话题 ⋅ 0 条回帖 ⋅ 篇文章

123nn

第 9309 位会员 ⋅ 2024-03-23 ⋅ 0 关注者 ⋅ 0 篇话题 ⋅ 0 条回帖 ⋅ 篇文章

Xhy

牛人

第 8067 位会员 ⋅ 2023-10-31 ⋅ 2 关注者 ⋅ 0 篇话题 ⋅ 0 条回帖 ⋅ 篇文章

黄钟吕

第 9062 位会员 ⋅ 2024-02-29 ⋅ 0 关注者 ⋅ 0 篇话题 ⋅ 2 条回帖 ⋅ 篇文章

DER | 请一句话介绍你自己，大部分情况下会在你的头像和名字旁边显示，字数要大...

第 4719 位会员 ⋅ 2021-09-27 ⋅ 126 关注者 ⋅ 57 篇话题 ⋅ 1 条回帖 ⋅ 篇文章

Docker 中使用 CentOS7 systemd 报错解决 by 青牛

https://hainiubl.com/topics/1? 2016-12-04 ⋅ 15372 ⋅ 0 ⋅ 0

在docker中使用 CentOS7 官方镜像的时候，使用Systemd 的话会报错： ``` ➜ ~ docker run -it centos:7 /bin/bash [root@ead8524a303e /]# systemctl list-units Failed to get D-Bus connection: Operation not permitted [root@ead8524a303e /]# exit # 加...

hadoop 集群调优实践总结 by 青牛

https://hainiubl.com/topics/2? 2016-12-05 ⋅ 7361 ⋅ 0 ⋅ 1

# 调优概述几乎在很多场景,MapRdeuce或者说分布式架构,都会在IO受限,硬盘或者网络读取数据遇到瓶颈.处理数据瓶颈CPU受限.大量的硬盘读写数据是海量数据分析常见情况. IO受限例子： ``` 索引分组数据倒入导出数据移动和转换 ``` CPU受限例子： ``` 聚...

Hadoop Streaming 介绍及实践 by 青牛

https://hainiubl.com/topics/3? 2016-12-05 ⋅ 5026 ⋅ 1 ⋅ 0

## Hadoop Streaming Hadoop streaming是Hadoop的一个工具，它帮助用户创建和运行一类特殊的map/reduce作业，这些特殊的map/reduce作业是由一些可执行文件或脚本文件充当mapper或者reducer。例如： ``` $HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/share/hadoop/...

Hadoop I/O 详细总结 by 青牛

https://hainiubl.com/topics/4? 2016-12-05 ⋅ 4471 ⋅ 0 ⋅ 0

## 数据完整性及其采用的技术保证数据在传输过程中不损坏，常见的保证数据完整性采用的技术 ### 奇偶校验技术根据被传输的一组二进制代码的数位中"1"的个数是奇数或偶数来进行校验。采用奇数的称为奇校验，反之，称为偶校验。采用何种校验是事先规定好的。...

Hadoop 安装部署实践 by 青牛

https://hainiubl.com/topics/5? 2016-12-05 ⋅ 7086 ⋅ 3 ⋅ 1

##环境准备 ### 支持平台 GNU/Linux是产品开发和运行的平台。 Hadoop已在有4000个节点的GNU/Linux主机组成的集群系统上得到验证。 Win32平台是作为开发平台支持的。由于分布式操作尚未在Win32平台上充分测试，所以还不作为一个生产平台被支持。 ### 所需软件 Linux...

Bash 的高级特性实践总结 by 青牛

https://hainiubl.com/topics/6? 2016-12-05 ⋅ 4523 ⋅ 1 ⋅ 1

## Bash 的高级特性 bash支持很多强大的功能，还可以用脚本编程，这也体现了Linux的一些设计理念。熟练后，你会觉得Linux很简单，很方便，它对你是开放的，没有那么多的限制。比如说重定向和管道，可以让你通过一个小小的操作符控制命令的输出和输入流。另一方便可能它...

VIM 使用全面总结 by 青牛

https://hainiubl.com/topics/7? 2016-12-05 ⋅ 4557 ⋅ 0 ⋅ 0

## 什么是vi／vim Linux绝大部分的配置文件都是纯文本形的，vi是linux下的一个文本编辑器，所有linux发行版都会默认安装。vim是vi的增强版本，功能更强大，比如：高亮显示，高级搜索、多文件编辑、区块复制等等。如果你习惯了windows窗口编辑器，那vim还是有很大挑战...

Shell 脚本快速入门 by 青牛

https://hainiubl.com/topics/8? 2016-12-05 ⋅ 5786 ⋅ 3 ⋅ 0

## 什么是Shell Script 简单说 shell脚本就是使用shell提供的功能编写的一段程序，是一个文本文件，有点像DOS年代的批处理程序。从程序员的角度将就是把 shell命令通过变量、条件判断、循环、数据重定向等等粘合起来保存成一个文本文件，用于解决一个命令不好解决的...

Linux 文件系统全面总结 by 青牛

https://hainiubl.com/topics/9? 2016-12-05 ⋅ 5394 ⋅ 0 ⋅ 0

## Linux文件系统概述硬盘分区后，还要进行文件系统的格式化，才能被操作系统使用。文件系统是一种存储和组织计算机数据的方法。文件系统格式需要操作系统支持，比如 windows使用的文件系统FAT,FAT32,NTFS等,Linux常用的文件系统ext2,ext3,ext4,xfs 等。为什么这样？...

Spark 与 Kafka 整合实现流式计算 by 青牛

https://hainiubl.com/topics/10? 2016-12-05 ⋅ 7438 ⋅ 1 ⋅ 1

Spark Streaming 模块是对于 Spark Core 的一个扩展，目的是为了以高吞吐量，并且容错的方式处理持续性的数据流。目前 Spark Streaming 支持的外部数据源有 Flume、 Kafka、Twitter、ZeroMQ、TCP Socket 等。Kafka 是一个分布式的，高吞吐量，易于扩展地基于主题发布/订...

使用 Flume NG 实现数据采集平台 by 青牛

https://hainiubl.com/topics/11? 2016-12-05 ⋅ 5639 ⋅ 0 ⋅ 0

## 为什么用Flume NG？对Flume NG不了解的朋友可以阅读一下这篇文章[Flume NG入门详解](http://hainiubl.com/topics/12) 。开源的日志采集方案很多： * Scribe : 是Facebook开发的数据收集系统,项目不怎么维护。 * Logstash: 是著名的开源数据栈ELK中的那个L。L...

Flume 入门详解 by 青牛

https://hainiubl.com/topics/12? 2016-12-05 ⋅ 6279 ⋅ 2 ⋅ 1

## 项目背景 Cloudera 开发的分布式日志收集系统 Flume，是 hadoop 周边组件之一。其可以实时的将分布在不同节点、机器上的日志收集到 hdfs 中。Flume 初始的发行版本目前被统称为 Flume OG（original generation），属于 cloudera。但随着 FLume 功能的扩展，Flume OG...

几张图帮你理解 docker 基本原理及快速入门 by 青牛

https://hainiubl.com/topics/13? 2016-12-05 ⋅ 20686 ⋅ 1 ⋅ 1

## 什么是docker Docker 是一个开源项目，诞生于 2013 年初，最初是 dotCloud 公司内部的一个业余项目。它基于 Google 公司推出的 Go 语言实现。项目后来加入了 Linux 基金会，遵从了 Apache 2.0 协议，项目代码在 GitHub 上进行维护。 Docker 自开源后受到广泛的...

使用 Java8 也能写出优雅的 Spark 应用 by 青牛

https://hainiubl.com/topics/14? 2016-12-05 ⋅ 5119 ⋅ 1 ⋅ 3

Spark是目前大数据生态中比较活跃的一个项目，但Spark是scala语言开发，scala语言语法灵活，能够写出优雅的函数式编程的代码。对于一般初学大数据的朋友来说，有可能大部分都是会java语言的，Spark支持scala，java，python api接口，但是如果使用java7或java6编写Spark...

Java8 新特性详解-Stream API by 青牛

https://hainiubl.com/topics/15? 2016-12-05 ⋅ 5904 ⋅ 2 ⋅ 0

## 什么是Stream？ Java 8引入了全新的Stream API,我们看看java8 doc里面的定义： >A sequence of elements supporting sequential and parallel aggregate operations 简单翻译过来就是一个支持串行和并行聚合操作的元素序列。有点抽象，我们简单总结一下这里有...

Java8 新特性详解-Lambda 表达式 by 青牛

https://hainiubl.com/topics/16? 2016-12-05 ⋅ 5473 ⋅ 1 ⋅ 1

## 什么是Lambda表达式 Lambda表达式基于数学中的λ演算得名，lambda表达式也可以叫做匿名函数，是指一类无需定义标识符（函数名）的函数或子程序。匿名函数最早是由LISP语言提出，后续好多语言都支持此特性。JAVA语言是面向对象语言，号称一切皆为对象，对函数式编程...

hadoop 集群调优实践总结 by 青牛

https://hainiubl.com/topics/17? 2016-12-05 ⋅ 10594 ⋅ 3 ⋅ 1

## 调优概述几乎在很多场景,MapRdeuce或者说分布式架构,都会在IO受限,硬盘或者网络读取数据遇到瓶颈.处理数据瓶颈CPU受限.大量的硬盘读写数据是海量数据分析常见情况. IO受限例子： ``` 索引分组数据倒入导出数据移动和转换 ``` CPU受限例子： ```...

Hive 的安装部署 by 青牛

https://hainiubl.com/topics/19? 2016-12-14 ⋅ 6658 ⋅ 1 ⋅ 2

## 安装部署部署hive非常简单只要下载稳定版本，解压开就可以使用，当然也可以通过源码编译部署。hive发展到现在已经有hive-1.x.y和hive-2.x.y版本,hive2版本代码层面改动比较大，有些特性不向前兼容，不在支持hadoop1。 ```Hive-on-MR is deprecated in Hive 2 a...

HDFS 核心组件数据目录元数据介绍 by 青牛

https://hainiubl.com/topics/20? 2016-12-16 ⋅ 7518 ⋅ 2 ⋅ 1

## HDFS元数据 HDFS元数据用树形结构保存了hdfs目录和文件结构，同时保存权限／所有者／容量／副本等信息。不要去修改hdfs元数据目录和文件否则会造成数据丢失。持久化hdfs元数据主要有两类数据 * fsimage 保存整个文件系统在某个时间点的完整状态，简单理解为元...

使用 MapReuce 实现二次排序 by 青牛

https://hainiubl.com/topics/21? 2016-12-18 ⋅ 4736 ⋅ 4 ⋅ 1

## 二次排序基本原理二次排序的需求是将全量数据分组，然后在组内进行排序，比如我们要实现全国每个省各个城市的雾霾指数由高到低的排序。这就是一个二次排序的需求，在省内对各城市排序，所以排序划分数据的时候要按照省去划分，同组数据再按照城市的雾霾指数排序，...

Eclipse 常用快捷键总结 by 青牛

https://hainiubl.com/topics/22? 2016-12-19 ⋅ 4683 ⋅ 3 ⋅ 1

整理一下eclipse最常用的快捷键，使用好快捷键，写代码的效率一定会有提高，你也可以自己去绑定快捷键。 ## 编辑 ``` Ctrl+1 快速修复（最经典的快捷键,可以解决很多问题，比如import类、try catch包围等） Ctrl+Shift+F 格式化当前代码 Ctrl+Shift+M 添加类的...

快速理解 Java 反射机制 by 青牛

https://hainiubl.com/topics/23? 2016-12-24 ⋅ 4868 ⋅ 4 ⋅ 2

## 什么是Java反射 Java反射机制是在运行状态中，对于任意一个类，都能够知道这个类的所有属性和方法；对于任意一个对象，都能够调用它的任意一个方法和属性；这种动态获取的信息以及动态调用对象的方法的功能称为java语言的反射机制。 Java反射（放射）机制：“程...

Hadoop Archives 使用 by 青牛

https://hainiubl.com/topics/24? 2016-12-30 ⋅ 3989 ⋅ 0 ⋅ 0

## 什么是Hadoop archives? Hadoop archives是特殊的档案格式。一个Hadoop archive对应一个文件系统目录。 Hadoop archive的扩展名是*.har。Hadoop archive包含元数据（形式是_index和_masterindx）和数据（part-*）文件。_index文件包含了档案中的文件的文件名和位置...

Hadoop FS Shell 命令手册 by 青牛

https://hainiubl.com/topics/25? 2016-12-30 ⋅ 4335 ⋅ 0 ⋅ 0

## 概述调用文件系统(FS)Shell命令应使用 bin/hadoop fs <args>的形式。所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统，scheme是hdfs，对本地文件系统，scheme是file。其中scheme和authority参数都是可选的，如果未加...

Hadoop 压缩格式 gzip/snappy/lzo/bzip2 比较与总结 by 青牛

https://hainiubl.com/topics/26? 2016-12-31 ⋅ 17435 ⋅ 1 ⋅ 0

Hadoop对于压缩格式的是透明识别,hadoop能够自动为我们将压缩的文件解压。目前在Hadoop中常用的几种压缩格式：lzo，gzip，snappy，bzip2，我们简单做一下对比，方便我们在实际场景中选择不同的压缩格式。支持特性对比：压缩格式|codec类|算法|扩展名|多文件|sp...

Hadoop VLongWritable/VIntWritable 变长编码存储源码解析 by 青牛

https://hainiubl.com/topics/27? 2017-01-02 ⋅ 6075 ⋅ 1 ⋅ 0

Hadoop里面有VLongWritable和VIntWritable，对long和int进行编码存储，它们都是采用zero-compressed encoded的变长编码方式存储数值，有利于减少数据空间占用。算法大概过程是单独拿出一个字节存储数值占用的字节长度，再拿出一些字节存储数值。这样的话一个long类型就...

使用 MapReduce 导入导出 MySQL 表数据 by 青牛

https://hainiubl.com/topics/32? 2017-01-03 ⋅ 7291 ⋅ 2 ⋅ 0

Hadoop 实现了对于关系型数据库导入导出数据的支持，就是利用DBInputFormat 和DBOutputFormat。对于需要操作关系数据的任务是可以直接使用的。接下来我们演示一下： ## 假设需求场景我们在mysql中有两种表，一个是user表，记录用户信息，一个是用户数据表记录用户...

使用 maven 创建 scala 项目问题总结 by 青牛

https://hainiubl.com/topics/39? 2017-01-04 ⋅ 9655 ⋅ 0 ⋅ 0

使用maven创建scala项目，scala-archetype-simple有bug，会遇到一些问题，这里整理记录一下。我的环境是: ``` maven 3.3.9 eclipse 4.6 java 1.8 ``` ## 通过命令行的形式创建 scala项目： ``` mvn archetype:generate -B \ -DarchetypeGroupId=net.a...

常用的 maven 插件总结 by 青牛

https://hainiubl.com/topics/42? 2017-01-05 ⋅ 5137 ⋅ 0 ⋅ 0

我们都知道Maven本质上是一个插件框架，它的核心并不执行任何具体的构建任务，所有这些任务都交给插件来完成。这里总结一些常用插件： ## maven-compile-plugin 这个插件就如同名字所显示的这样，用来编译源代码的 ``` <plugin> <groupId>org.apache.mave...

hadoop + zp 集群搭建 by 漂泊

https://hainiubl.com/topics/43? 2017-01-10 ⋅ 5440 ⋅ 4 ⋅ 0

####在青牛的耐心指导下，把hadoop集群给搭建好了。不得不说青牛的功力很深厚啊。 #此方案的流程： 1、常规JDK安装以及Linux系统配置 2、集群规划以及集群场景 3、ZooKeeper集群搭建 4、Hadoop2.6.0版本HA集群搭建 5、验证ZooKeeper、Hadoop等集群运...

关于 “” 的搜索结果, 共 2411 条

Docker 中使用 CentOS7 systemd 报错解决 by 青牛

hadoop 集群调优实践总结 by 青牛

Hadoop Streaming 介绍及实践 by 青牛

Hadoop I/O 详细总结 by 青牛

Hadoop 安装部署实践 by 青牛

Bash 的高级特性实践总结 by 青牛

VIM 使用全面总结 by 青牛

Shell 脚本快速入门 by 青牛

Linux 文件系统全面总结 by 青牛

Spark 与 Kafka 整合实现流式计算 by 青牛

使用 Flume NG 实现数据采集平台 by 青牛

Flume 入门详解 by 青牛

几张图帮你理解 docker 基本原理及快速入门 by 青牛

使用 Java8 也能写出优雅的 Spark 应用 by 青牛

Java8 新特性详解-Stream API by 青牛

Java8 新特性详解-Lambda 表达式 by 青牛

hadoop 集群调优实践总结 by 青牛

Hive 的安装部署 by 青牛

HDFS 核心组件数据目录元数据介绍 by 青牛

使用 MapReuce 实现二次排序 by 青牛

Eclipse 常用快捷键总结 by 青牛

快速理解 Java 反射机制 by 青牛

Hadoop Archives 使用 by 青牛

Hadoop FS Shell 命令手册 by 青牛

Hadoop 压缩格式 gzip/snappy/lzo/bzip2 比较与总结 by 青牛

Hadoop VLongWritable/VIntWritable 变长编码存储源码解析 by 青牛

使用 MapReduce 导入导出 MySQL 表数据 by 青牛

使用 maven 创建 scala 项目问题总结 by 青牛

常用的 maven 插件总结 by 青牛

hadoop + zp 集群 搭建 by 漂泊

hadoop + zp 集群搭建 by 漂泊