青牛主题列表_海汼部落 | IT学习->实战为王

创始人

青牛

第 12 位会员

449 关注者

2253 评论

308 话题

WeChat
Website
公司
城市

Python 怎么创建高维数组最高效？

直接用均匀分布创建
SQL-on-Hadoop 技术与数据库技术的差异在哪里？

其实本质是一样的只是实现方式不一样为什么呢？因为存储不一样，传统数据库只在一台或是几台机器上，机器之间的数据都是整块存储的比如一个表就存在一个服务器上，所以查询sql的时候是直接提到内存查找，SQL-on-Hadoop解决的是数据表存在hadoop集群上，因为hadoop的块存储可能会使一个表跨多台服务器，那查表的时候要在多台服务器上查询，同时不同的sql查询的逻辑也不一样，这就需要一个分布式的sql引擎，这就是SQL-on-Hadoop的核心思想
hdfs 里的数据块到底指的是 namenode 元信息还是 datanode 数据块？

datanode 数据块
hdfs2.x 源码剖析里为什么会提交两次？

啥地方写了能发个地址或是截个图吗
为什么在数据量很大时（TB 以上）需要利用 hadoop 系统。？

数据量上TB以后传统的数据集性能达到了瓶颈只能靠扩充硬件来完成很多数据仓库的查询而且查询速度慢如果多人共用的话很更慢，垂直扩展硬件是有局限性的，比如硬盘由1t缓成2t，但是很快内存不够了128g少了那就得上256g 但是很快主板插满了不支持更大了所以再大的数据量已经不能支持了，
hadoop系统的好处可以线性增加机器而且是廉价的机器成本很低也能完成传统数据仓库的查询和统计，费用低，硬件便宜
HDFS 存储数据占用多少硬盘空间？

至少3T的空间至少是三倍的关系因为还存在很多中间文件和缓存文件
为什么 SparkContext 被设计成不能被序列化?

你可以想象为啥要设计成序列化，一般序列化的作用是为了传输，但是SparkContext只在driver端运行没有保存或是传输的场景
MySQL workbenchce8.0 怎么创建数据库数据表？

直接点击数据库右键弹出菜单就可以新建表了
sql 除了连接，聚合，窗口函数还有什么高阶的操作？或者说运用基本操作能得到一些高级技巧？

熟是最高级的技巧
从进入开始到最终获取数据的接口几乎每个请求都修改了 cookie 中的 jsessionid 的值如何解决？

有服务器端的session在你怕啥
hadoop 外部浏览器访问 50070 正常可以访问 8088 不可以！但是用 vm 浏览器就可以，请问为什么？

vm和主机网络连接的方式是什么
cdh 的 hbase2.0 怎么使用 hbck2 修复工具？

每次使用命令就打版本不支持显示这句话是啥意思能具体解释一下吗
spark Streaming 做增量学习怎么做?

少jar包把先查查看看这个报错的类是哪个包里面的
flink TableApi 的 select 中的语句与 Sql 语句的有什么区别吗？

大意是一样的只是比sql语法更复杂一些具体的还得参考flink的官方文档把
在哪里能下载到 HDFS 审计日志数据集？

这个不用去下载吧随便一个hadoop集群都有这个日志找一个集群拷贝出来就行了