海量数据中文聚类问题?

beneo 2011-10-03
我们5000个文本,使用分词生成5000个向量,我们用canopy + kmeans很容易就能够做好聚类。

但是,如果是1亿个文本,使用分词生成1亿个向量,那么这1亿个向量的维度就很可怕了。

那么是用的距离算法的阈值就需要更低,这样计算量就会更大。

我想这个问题肯定会非常常见并且遇到,怎么解决?
william_ai 2011-10-04
200亿的记录,用hadoop canopy kmeans,tunning以后还是蛮快的。
beneo 2011-10-07
william_ai 写道
200亿的记录,用hadoop canopy kmeans,tunning以后还是蛮快的。


怎样优化? canopy reducer 代码里面设置为1
Global site tag (gtag.js) - Google Analytics