中文网络评论的情感特征项选择研究

王洪伟,郑丽娟,刘仲英,霍佳震
(同济大学经济与管理学院,上海 200092)

文 摘: 本文采用统计机器学习方法,对面向情感分类的中文网络评论特征项的选择进行研究。选取词性、词性组合、N-gram作为情感文本的潜在特征项,利用文档频率法对特征项实施降维处理,采用布尔权重法构建特征向量,并采用SVM分类器进行网络评论的情感分类。最后,以手机网络评论为对象进行实验分析,并采用卡方检验测试实验结果的差异显著性。结果表明,中文网络评论的情感分类中,将形容词作为特征项可以获得较高的分类准确率和效率;选用N-gram作为特征项时,分类准确率随着阶数的增加而下降;选取训练语料和特征项的数量对分类效果也有显著影响,但并非数量越多准确率越高。

关键词:网络评论,情感分类,特征项选择,统计机器学习
中图分类号:C931.6;H042
通讯作者:

下载