专利内容由知识产权出版社提供
专利名称:一种文本分类方法、装置、终端设备及计算机可读
存储介质
专利类型:发明专利
发明人:关培培,石聪,赵诗阳,赵喆,朱经南申请号:CN202010281976.6申请日:20200411公开号:CN111460162A公开日:20200728
摘要:本发明适用于自然语言处理技术领域,提供一种文本分类方法、装置、终端设备及计算机可读存储介质,方法包括:对原始文本数据进行预处理,获取待分类的文本数据;采用二分类模型获取文本数据的文体信息,并根据文体信息确定文本数据的文体类型;若文本数据属于第一文体类型,则采用BERT模型对文本数据进行处理,获取文本数据对应的字向量序列;采用文本分类模型对字向量序列进行处理,以获取文本数据的分类结果。本发明充分考虑了文体的不同,采用二分类模型对文本数据进行分类,对于不同文体类别的文本数据采用不同的方式进行文本分类,文本分类任务更加清晰,同时采用BERT模型对文本数据进行处理,有效提高了文本分类效率和准确性。
申请人:科技日报社
地址:100038 北京市海淀区复兴路15号
国籍:CN
代理机构:北京嘉科知识产权代理事务所(特殊普通合伙)
代理人:杨超
更多信息请下载全文后查看