type
Post
status
Published
date
Sep 2, 2022
slug
bertopic
summary
Bertopic 是最近社区比较热门的一个项目,利用预训练模型可以做到无监督的话题聚类。
tags
NLP
category
学习思考
icon
password
URL
Bertopic 是最近社区比较热门的一个项目,利用预训练模型可以做到无监督的话题聚类。
BERTopic
MaartenGr • Updated Aug 30, 2023
主要流程
向量提取
其中默认的 Transformer 为 all-MiniLM-L6-v2,如果用没 finetune 过的 BERT 效果不会那么好。建议采用SimCSE、SBERT 语义相似度模型。
降维
umap 降维在数据量大的时候可以加快聚类速度,数据量少(千级别及以下)的时候建议不用降维算法。
聚类算法
作者采用 HDBSCAN 原因是因为聚类效果稳定,超参少,但是笔者发现使用 HDBSCAN 聚类的精度并不高,簇内常混杂着其他主题的样本,原因见机器学习聚类算法之HDBSCAN 。实践得出的结论是在样本比较少的时候使用层次聚类并把目标簇的数目设置得大一些,理由很简单数据少的时候样本在空间内是比较稀疏的;但聚类样本到达一定规模的时候选择 DBSCAN 可以达到比较高的精度。
- 作者:Ross
- 链接:https://ross.selfcoding.cn/article/bertopic
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。