server.properties 已经设置了
delete.topic.enable=true
auto.create.topics.enable=false
但是删除时候还是报这个问题,
气疯了,kafka这么设计难道智障吗
Topic htmltrack_error is already marked for deletion
线上观测到topic多了就会造成磁盘文件过多退化为随机写和节点负载不均衡. 不涉及技术机密的情况下, 各位能分享下都是怎么缓解乃至解决的吗?
kafka集群的topic是可以动态添加的,添加之后就会有数据写到topic,那么我想问下:我怎么把topic里面的数据写入到hdfs里面,还有是什么时候写呢,怎么停止topic的这个消费?
kafka目前提供了at least once的传递保证,在消费端去重是比较容易的,生产者方面,如果在考虑成本的情况下,如何实现去重,或者幂等性发布
想要监控其lag
现在网上找的方法大多是0.8的 各位大牛能不能指点迷津呢?
现在部署3个服务器作为服务集群,集群系统负载不高,平均每秒收发40k左右,从发送者的jmx来看延时比较小,基本都是1ms左右能发送完成,但是接受者似乎时延不稳定,一般在5-8ms左右,有时候跳到20ms-30ms,我的时延判断是根据接收的时候记录当前系统时间和record里面的发...
cdh集群启用kerberos认证出现如下错误,该如何解决?

hdfs也是这个错,不知道什么问题?请大神解决
sql:select xxx from a where id in(select id from b where t =100) and time =xxx
形如以上的SQL可以做怎样的优化,目前a表为数据表,b表为模板表,where id in的表示为了适应业务上的灵活变化。现在这个sql测试执行时间为几秒,会比数据库慢一些,能有什么好的SQL...
dataset<Row>的limit、take方法只有获取前多少行,但我想以行的形式遍历获取,或者分页形式,只要不是一次全部获取就可以。全部获取内存不够
看blog说,spark可以通过周期性地采样近似估算内存的大小,这是怎么做到的?
我用withColumn对dataframe增加了一个自增序号列,但是序号列是在最后一列,用select方法将序号列放在第一列的时候序号值发生错误
spark-sql -f aa.sql执行sql文件为什么文件开头报错就直接退出来了,不能全部执行?
sparksqlselect.join.group是会对应生成什么样的rdd.再划分stage的?
现在的spark.Dataframe如下 我希望找出MAC字段第8位在是'2'或 '3' 或 'A'的所有行,请问怎么操作?

我使用主要pyshaprk,如果能用pyspark回答就最好了,Scala和Java也可以~
因为科研需要,要使用第三方库PyMesh(项目地址:https://github.com/PyMesh/PyMesh),我按照官网的教程,用docker配置可用,但是下载源代码后,在用cmake编译第三方库的时候出现错误。现在有两个问题:
1.用Docker配置成功的话,能不能在自己的IDE里面通过import pymes...
为什么这一句img1 = self.newImg(img1, img2, False)
每次传去的参数img1都是一样的呢?都是self.imgInfoList[0],
按理这个img1的值每调用一次newImg()就会改变哈,求指导,在线等,谢谢
一下是部分脚本

anaconda在c盘,python_files也在c盘。 求大神教,如何在Jupyter notebook中正常运行已有的python程序。
这是源代码
# coding=utf-8
import win32com.client as COM
vissim_com=COM.Dispatch("Vissim.Vissim")
vissim_com.LoadNet('D:\\vissim\\test\\21.inp')
vissim_com.LoadLayout('D:\\vissim\\test\\vissim.ini')
vnet=http://vissim_com.Net
sim=vissim_com.S...
每次我都是用方向右键,或者"和)键跳出的,有没有更方便快捷的方法啊?
anaconda能打开prompt和jupter,navigator和spyder都打不开,连图标都没有显示,什么都没出现
numpy的底层是C和Fortran写的,基于blas有一些加速机制。近期,在使用numpy时,数据元素的类型是object类型,并且对该类型重写了部分基础运算的魔术方法,例如加法,乘法。在进行np.sum或np.dot时,通过看CPU效率,似乎并没有采用并行机制?请问有什么方法可以实行numpy...
spark1.6中的JavaStreamingContextFactory类,在spark2.3中被哪个类替代了,
为了防止python代码泄露,将python脚本弄成exe可执行文件,执行器该怎么调用?

现状: 在kafka定义了一个主题 topic_log (只有一个分区) storm去消费这个主题
现有10个工程先后的向topic_log添加数据 (工程A先向topic_log发布消息 工程B后发布)
storm在处理数据的时候就会先处理工程A然后再处理工程B 这样会导致 storm处理工程B的时间延迟...
spark在在运行过程中core设置为400 但是执行到400整数倍的时候 任务就会卡一会儿 查看 发现gc时间比较长;任务是使用sql直接对dataframe进行操作;任务时间1.3h gc时间达到37min 从web ui中查看的;已经在使用的udf函数中 尽量避免了new对象和对象拷贝
最初stop时我没注意到没有成功stop,就进行了start,导致目前每个slave上有两个worker,会有什么影响吗?我又试了下stop,新增的worker可以停止,但最初的worker仍然没有停止。

我有 3个主题 每个主题有3个分区 ?
实现:每个分区取10条记录 (一个分区一次只消费10条)最终取出 3(主题)*10*3(分区)=90条记录