安装cdh的agent节点失败 没有找到解决办法


1. 多线程查找文件脚本: 课输入参数控制线程数,默认为1
```
#!/usr/bin/env python
# -*- coding: utf-8 -*-
```
import os
import sys
import argparse
import traceback
import threading
from concurrent.futures import ThreadPoolExecutor, as_compl...
因项目需求,公司现需招聘大量初级Java、数据岗位,要求:本科,双证齐全,学信网可查❗❗❗希望大家能踊跃推荐身边正在找工作、打算换工作的小伙伴们~每成功入职一位,享奖励金🧧1000元,转正后即可发放到位~对于工作年限高的,可私聊~ 请不要留情的用简历砸来。
面试经验就是别怕,回答问题的时候千万不要跟他玩你问我答的游戏,要学会延伸,你回答的时间少,他问的就越多,就越容易遇到你自己不会的。还有就是自己简历上写的项目技术是你都要了解熟悉的,千万不要为了过于美化,写一些跟自己毫无关系的东西。那你在面试过程中有多...
面试中问到的问题包括java、hive、spark、flink
因为时间已经过去比较久了,问的问题记不太清,凭我的大概印象回忆起了下面问题
技术一面:
java篇:
Hashmap和HashTable区别是什么?如何实现序列化?快速排序
hive篇:
你用过的窗口函数,数据倾斜(他给了我一个...
1.你们最大的表多大?
2.1小时才能跑完的数据,怎样变成20分钟?
3.hadoop和spark的区别还是联系?
4.你们是hive可视化工具是用什么的?就是说hive sql在哪写?在linux上的话你们怎么测试?一个很长的sql,几百行,你们也直接在linux上运行吗?
5.hive sql和spark sql...
1.能面试的最基本条件就是能熟练将自己简历上的项目讲出来,所以复习上是以项目为核心进行复习,一旦讲不出来就去看讲不出来这块的基础知识。
2.一旦能讲出来之后,就可以进行面试了。这里面我觉得心态上很重要,其实每一次面试都是针对你人设和业务的一次优化。每场面...
大家有用Flink跑批处理吗? Flink 和spark 批处理能力(性能 资源使用 优化程度等多维度情况)
有做过评估的 、开发的经验能否分享下:
1)用 table api开发,Flink SQL spark SQL
2)dataset or datastream api 开发
毕竟两套引擎两套代码,太麻烦了。
ERROR:ImpalaRuntimeException: Error creating Kudu table 'rtrbw.rtrbw dwd evt rust_bal_tmp'
CAUSED BY:NorRecoverableException: failed to create HMS catalog entry for tabl [id=ffb9fc44de27456baac451e18f44cead]: failed to create Hive MetaStore table:TE...
# Hudi
## 1.数据湖分类
### **1.Delta Lake**
```shell
1.Delta Lake:DataBricks公司推出的一种数据湖方案,网址:https://delta.io/
1.流批一体的Data Lake存储层,支持 update/delete/merge
2.由于出自Databricks,Spark的所有数据写入方式,包括基于...
# Flink操作Hudi
## Hudi 集成 Flink
```shell
从Hudi 0.7.0版本支持Flink写入;
在Hudi 0.8.0版本中,重构API接口,又进一步完善了Flink和Hudi的集成;
在Hudi 0.9.0版本中,支持Flink CDC 数据写入,要求Flink版本为1.12+版本
```
## 1.批查询
**1.创...
# Spark_Hudi
## Hudi集成hive数据查询重复问题
```shell
设置set hive.input.format=org.apache.hudi.hadoop.hive.HoodieCombineHiveInputFormat;这个参数会影响到普通的hive表查询,
因此在查询完成后,应该设置set hive.input.format=org.apache.hadoop.hive...
# JUC
## 1 什么是 JUC
### 1.什么是juc
```shell
java.util .concurrent 工具包的简称
```
### 2.线程和进程的区别
```shell
`进程`:指在系统中正在运行的一个应用程序;程序一旦运行就是进程;进程--资源分配的最小单位。
`线程`:系统分配处理器...
# Apache Pulsar
## 1.Apache Pulsar基本介绍
```sh
Apache Pulsar 是一个云原生企业级的发布订阅(pub-sub)消息系统,最初由Yahoo开发,并于2016年底开源,现在是 Apache软件基金会顶级开源项目。Pulsar在Yahoo的生产环境运行了三年多,助力Yahoo的主要应用,...
# JUC
## 1.进程,线程,管程
```shell
#进程和线程区别
根本区别:进程是`系统进行资源分配(如地址和文件等)和调度的基本单位`;线程是`CPU调度和分派的基本单位`。
切换:上下文切换包含了寄存器的存储和程序计数器存储的指令内容。进程切换与线程切换的一...
# 设计模式
## 1.创建型模式
### 1.单例模式
```java
//双重检查锁+内存可见性(设计模式) ->懒汉式线程安全
package com.atguigu.design.creatation.singleton;
/**
* 单例模式
* 双重检查锁+内存可见性(设计模式)
*/
public class Person...
## 数据清洗加载到mongodb
```java
import com.mongodb.casbah.commons.MongoDBObject
import com.mongodb.casbah.{MongoClient, MongoClientURI}
import org.apache.spark.SparkConf
import org.apache.spark.sql.{DataFrame, SparkSession}
/**
* Produc...
## 1.修改ip
> 155 (master) 部署keepalived 部署haproxy 初始化 安装docker
>
> 156 (master) 部署keepalived 部署haproxy 添加master2节点到集群 安装docker,网络插件
>
> 157(node1) 加入到集群中 安装docker,网络插件
>
> 1...
# k8S
## 部署
### 1.三台节点
```shell
master : 144
node1 : 145
node2 : 146
```
### 2.系统初始化
#### 关闭防火墙
```shell
yum -y install wget
systemctl stop firewalld
systemctl disable firewalld
```
#### 关闭 selinux...
## promethus+Grafna监控
### 1.创建守护进程
```shell
[root@master1 ~]# mkdir moniter
[root@master1 ~]# cd moniter
kubectl create -f node-exportor.yaml
[root@master1 moniter]# kubectl apply -f node-exporter.yaml
daemonset.apps/node-export...


## JVM
# 1.内存设置
### 1、内存模型详解
```shell
Flink 内存大小 = tas...
# NEO4J
>官网:https://neo4j.com/
## 图 和 Neo4j
### 图论
#### 图论起源 --- 柯尼斯堡(Konigsberg)七桥问题
众所周知,图论起源于一个非常经典的问题——柯尼斯堡(Konigsberg)七桥问题。1738年,瑞典数学家欧拉 (Leornhard Euler) 解决了柯尼斯堡...
# GSQL使用
## 1.设置会话超时时间
```shell
#不设置就是不超时候
[tigergraph@tiger1 root]$ export GSQL_CLIENT_IDLE_TIMEOUT_SEC=
#设置10s过期
[tigergraph@tiger1 root]$ export GSQL_CLIENT_IDLE_TIMEOUT_SEC=10
```
## 2.进入gsql
```shell
[r...
# TigerGraph安装
## 1.下载地址 3.2.2为稳定版本
> https://dl.tigergraph.com/download.html?utm_campaign=cn_website_2021_contact&utm_medium=email&_hsmi=141663135&_hsenc=p2ANqtz-_ma7vNJhFeE_-sZvqLT0dIwaOfnDJ-JgP4BKJLPM_1wQE6xpA42qJ5-Bodfydq9hxjIfX4...
# MySQL数据库
## 1、数据库相关概念
MySQL是一个关系型数据库管理系统,由瑞典MySQL AB 公司开发,属于 Oracle 旗下产品。MySQL 是最流行的关系型数据库管理系统之一,在 WEB 应用方面,MySQL是最好的 RDBMS (Relational Database Management System,关系数据库管理...

# MySQL - day02
## 1. 表关系
表与表之间一般存在三种关系,即一对一,一对多,多对多关系。
#### 1.1 一对一
一对一关系是建立在两张表之间的关系。一个表中的一条数据可以对应另一个表中的一条数据。
例如:一个人对应一张身份证,一张身份证对应一个...
> 海汼部落实操平台:http://cloud.hainiubl.com
实验环境配置:http://cloud.hainiubl.com/#/laboratory/configuration
# 1 flume概述
Flume是cloudera(**CDH版本的hadoop**) 开发的一个分布式、可靠、高可用的海量日志收集系统。它将各个服务器中的数据收集...
### 1 Sink组件
Flume Sink取出Channel中的数据,进行相应的存储文件系统,数据库,或者提交到远程服务器。Flume也提供了各种sink的实现,包括HDFS sink、Logger sink、Avro sink、File Roll sink、Null sink、HBase sink,etc。
Flume Sink在设置存储数据...
* 学习学习再学习
** 好久之前的账号找不到了,只得再申请一个,成为了第4955位会员,不错不错,我是小海牛,我~骄~傲~!**
哈哈,在平安工作快两年了,在实现梦想的路上不断前行,梦还是要做的,生活还是要不断继续的,为了更好的自己,加油,加油