海量数据中文聚类问题?
beneo
2011-10-03
我们5000个文本,使用分词生成5000个向量,我们用canopy + kmeans很容易就能够做好聚类。
但是,如果是1亿个文本,使用分词生成1亿个向量,那么这1亿个向量的维度就很可怕了。 那么是用的距离算法的阈值就需要更低,这样计算量就会更大。 我想这个问题肯定会非常常见并且遇到,怎么解决? |
|
william_ai
2011-10-04
200亿的记录,用hadoop canopy kmeans,tunning以后还是蛮快的。
|
|
beneo
2011-10-07
william_ai 写道 200亿的记录,用hadoop canopy kmeans,tunning以后还是蛮快的。
怎样优化? canopy reducer 代码里面设置为1 |