海量数据中文聚类问题？

beneo 2011-10-03

我们5000个文本，使用分词生成5000个向量，我们用canopy + kmeans很容易就能够做好聚类。

但是，如果是1亿个文本，使用分词生成1亿个向量，那么这1亿个向量的维度就很可怕了。

那么是用的距离算法的阈值就需要更低，这样计算量就会更大。

我想这个问题肯定会非常常见并且遇到，怎么解决？

william_ai 2011-10-04

200亿的记录，用hadoop canopy kmeans，tunning以后还是蛮快的。

beneo 2011-10-07

william_ai 写道

200亿的记录，用hadoop canopy kmeans，tunning以后还是蛮快的。

怎样优化？ canopy reducer 代码里面设置为1

发表回复

>>返回群组首页

海量数据中文聚类问题？

相关讨论

相关资源推荐