专利内容由知识产权出版社提供
专利名称:一种基于TF‑IDF特征提取的短文本分类方法专利类型:发明专利
发明人:纪晓阳,孔祥明,林成创,蔡斯凯,蔡禹,贾义动申请号:CN2016104174.6申请日:20161013公开号:CN1065282A公开日:20170322
摘要:本发明公开了一种基于TF‑IDF特征提取的短文本分类方法,该方法通过将短文本合并成长文本增强短文本的TF‑IDF特征,并降维生成特征词列表和特征词字典;同时在建立特征词列表时对特征相对不明显的类别建立补偿机制,并增强文本特征向量权重,不需要预先构建或训练其他词库或词向量词典,从而能在保证文本特征表达效果的前提下大幅提升算法性能。本发明作为一种基于TF‑IDF特征提取的短文本分类方法可广泛应用于数据处理领域。
申请人:广东广业开元科技有限公司
地址:510623 广东省广州市珠江新城金穗路1号邦华环球广场408
国籍:CN
代理机构:广州嘉权专利商标事务所有限公司
代理人:胡辉
更多信息请下载全文后查看