LDA 吉布斯采样时间复杂度怎样分析
只想吐槽一句,LDA是用来算每个文档话题分布的,如果将多个文档合成一个文档再使用LDA,LDA还有什么用。。。
■网友
单次迭代复杂度为O(K*N),其中K是主题数,N是词的总数。要收敛,至少迭代1000轮,所以是比较慢的。把文本合并为一个?计算复杂度几乎不会减少(因为基本无关)。当然,最大的问题是,这样你就不能隔离每个文本的主题分布了,每个文本的主题分布相当于是一个上下文的抽象。而你想想,你把整个世界作为上下文,这样的LDA,估计都不如直接拿huffman编码生成文本来得实在。因为采样到后面,分布会比较稀疏,所以有不少优化的余地。典型情况下可以做到接近O(log(K)*N)的复杂度。另外还有plda这类利用并行的优化。
■网友
跟 迭代次数、topic个数、词汇个数有关啊。看代码啊。。。后面的问题没看懂,你是要自己做数据方便测试吗。。。
推荐阅读
- 大连全员核酸检测结束采样637.9万人次
- 大连已完成475.65万人次核酸检测采样
- 北京西城无症状感染者所在社区9566人已全部完成检测采样
- 嫦娥五号探测器正按计划开展月面采样工作
- 献血|北大街献血点暨造血干细胞采样点正式启用
- 献血|南通北大街无偿献血点、造血干细胞采样点启用
- 嫦娥五号|嫦娥五号探测器成功发射 开启我国首次地外天体采样返回之旅
- 为啥乔布斯作为苹果创始人会有被苹果开除的经历
- 青岛:核酸检测已采样逾1000万份尚未发现新增阳性样本
- 青岛市|青岛核酸检测已采样超1058万份
