现阶段正在着手在spark上运行word2vec训练词向量,但是没有发现分布式训练词向量的优势何在,numPartition设为1时,训练时长与单机比优势不明显,调高numPartition训练质量又会下降很多。有点怀疑是不是这种迭代调节参数的算法并不适合在spark上运行?还是我打开的方式不对?希望各位有经验的老手不吝指教!
数据量大概多少?
`单行代码`
关注海汼部落