基于聚类和协同标注的TSVM算法Transductive Support Vector Machine Algorithm Based on Cluster and Cooperative Labeling
杜红乐;张燕;
摘要(Abstract):
针对数据集中类样本不均衡、样本标注代价大的问题,结合聚类算法、委员会投票思想和TSVM算法,提出一种基于聚类和协同标注的TSVM算法,该方法利用聚类算法进行子集划分,保证每个子集都包含良好的空间信息,对样本的标注采用多个分类器进行投票,提高标记准确率,减少错误的累积和传递,提高标注准确率,增强最后分类器的泛化性能.KDDCUP99数据集上的实验结果表明该方法对未知攻击有较高的检测准确率.
关键词(KeyWords): 直推式支持向量机;聚类算法;委员会投票算法;协同标注
基金项目(Foundation): 陕西省自然科学基础研究计划资助项目(2015JM6347);; 陕西省教育厅科技计划项目(15JK1218);; 商洛学院科学与技术研究项目(15sky010)
作者(Author): 杜红乐;张燕;
Email:
DOI:
参考文献(References):
- [1]段礼祥,郭晗,王金江,等.数据集不均衡下的设备故障程度识别方法研究[J].振动与冲击,2016,35(20):178-182.
- [2]杜红乐,滕少华,张燕.不均衡数据集下的入侵检测[J].山东大学学报:理学版,2016,51(11):50-57.
- [3]张燕,杜红乐.基于密度均衡的网络入侵检测[J].微型电脑应用,2016,32(8):36-39.
- [4]潘主强,张林,颜仕星,等.中医睡眠情绪类疾病不均衡数据的分类研究[J].济南大学学报:自然科学版,2017,31(1):55-60.
- [5]杜红乐.基于核空间中K-近邻的不均衡数据算法[J].计算机科学与探索,2015,9(7):869-876.
- [6]林舒杨,李翠华,江弋,等.不平衡数据的降维采用方法研究[J].计算机研究与发展,2011(48):47-53.
- [7]杜红乐,张燕.密度不均衡数据分类算法[J].西华大学学报:自然科学版,2015,34(5):16-23,74.
- [8]Du Hongle,Teng Shaohua,Zhang Lin.Support vector machine based on dynamic density equalization[M]//Human Centered Computing,2016,1(2):58-69.
- [9]楼晓俊,孙雨轩,刘海涛.聚类边界过采样不平衡数据分类方法[J].浙江大学学报:工学版,2013,47(6):944-950.
- [10]陶新民,郝思媛,张冬雪.核聚类集成失衡数据SVM算法[J].哈尔滨工程大学学报,2013,34(3):381-388.
- [11]杜红乐,张燕.不均衡数据混合取样分类算法[J].燕山大学学报,2015,39(2):158-164.
- [12]万建武,杨明,陈银娟.代价敏感的半监督Laplacian支持向量机[J].电子学报,2012,40(7):1410-1415.
- [13]刘敬,谷利泽,钮心忻,等.基于单分类支持向量机和主动学习的网络异常检测研究[J].通信学报,2015,36(11):136-146.
- [14]李诒靖,郭海湘,李亚楠,等.一种给予Boosting的集成学习算法在不均衡数据中的分类[J].系统工程理论与实践,2016,36(1):189-199.
- [15]邢胜,王熙照,王晓兰.基于多类重采样的非平衡数据极速学习集成学习[J].南京大学学报:自然科学,2016,52(1):203-211.
- [16]王安娜,李云路,赵锋云,等.一种新的半监督直推式支持向量机分类算法[J].仪器仪表学报,2011,32(7):1546-1550.
- [17]杨柳,景丽萍,于剑.一种异构直推式迁移学习算法[J].软件学报,2015,26(11):2762-2780.
- [18]王立梅,李金凤,岳琪.基于k均值聚类的直推式支持向量机学习算法[J].计算机工程与应用,2013,49(14):144-146.
- [19]杜红乐,滕少华,张燕.协同标注的直推式支持向量机算法[J].小型微型计算机系统,2016,37(11):2443-2447.
- [20]丁要军,蔡皖东.采用两阶段策略模型(KTSVM)的P2P流量识别方法[J].西安交通大学学报,2012,46(2):45-50,129.