青牛主题列表_海汼部落 | IT学习->实战为王

创始人

青牛

第 12 位会员

449 关注者

2253 评论

308 话题

WeChat
Website
公司
城市

python 怎么去获取 Kafka 的 topic？

from kafka import KafkaConsumer

consumer = KafkaConsumer('test',
bootstrap_servers=['172.21.10.136:9092'])

for message in consumer:
print ("%s:%d:%d: key=%s value=%s" % (message.topic, message.partition,
message.offset, message.key,
Kafka-spark-kafka-spark 架构有什么优势吗，为何两次使用 kafka？

那篇文章？什么场景？解决什么问题？
信息被删除或无权限查看
信息被删除或无权限查看
如何解决 Spark 大规模数据运行情况下，速度越来越慢的情况？

1、可能有任务之间的依赖 2、spark的内存最好自己代码释放 3、找到运行缓慢的代码
spark 如何实现一个快速的 RDD 中所有的元素相互计算？

不慢啊根据数据划分不同的partition并行啊
Spark 是一种内存计算引擎，为什么他还要依赖 HDFS 这种文件系统呢？

Spark是一种内存计算引擎这句话的意思是我不管数据从哪里来我只管计算那问题来了数据从哪里来到哪里去呢？
SparkStreaming 消费 kafka 数据，怎样解决大量初始化数据的问题？

没啥关系吧你的初始化不就是一次吗难道天天要初始化吗只要你的消费速度足够快就可以了
python 怎么设置 cuda 的随机数种子 curand？

设置一个seed就可以了
hadoop streaming 中 reduce 程序如何将结果保存在一个文件中输出？

把reduce的数目设置为1
Hadoop 下 reduce 处理量最大是 1G 如果 order by 全局排序的文件超过 1G，系统如何处理？

reduce默认大小是1g但是可以根据集群资源调节超过1g了磁盘排序也没有问题
关系数据修改后如何刷新 Hadoop 平台数据?

再抽一遍
大的文件拆分后，怎样用 Hadoop 进行高效的处理这些小文件？以及怎样让各个节点尽可能的负载均衡？

Hadoop会启动多个map来处理小文件，节点的资源分配问题是属于yarn的资源调度范畴详细情况推荐你看看yarn相关方面的书籍
spark 开发词频统计应用，最后数据保存到 Hadoop 下的 data 文件里？

用ls命令看下文档下面的文件发个截图上来
cloudera manager 的 server 提示 cloudera-scm-server dead but pid file exists？请大神解决

这个错误看起来是机器没有联网，访问不到 parcel repository 中的 manifest文件