02 现在的位置:首页 > 期刊导读 > 2020 > 02 >

基于改进音形码的中文敏感词检测算法

【作者】周昊 沈庆宏

【关键词】 敏感词 模糊匹配 汉字编码 汉字相似度 完全匹配

摘要在网络信息技术已非常成熟的今天,各类敏感词包括色情、暴力、政治敏感等有害词汇充斥网站和社交软件,对这些词语的检测与识别对营造健康的网络环境非常必要.这些敏感词绝大部分试图通过读音或者字形相近来进行伪装以逃避检测系统.现有的匹配算法可以检测出读音完全一样的词语,但不能准确识别读音相近和字形相近的异体字.为解决这一问题,提出针对模糊匹配的汉字相似度对比算法.首先通过对汉字进行特殊编码,提出一种综合考虑读音及字形特点的音形码汉字相似度改进算法,然后针对传统字典树,添加了精度参数来设置匹配精度,以此完成敏感词检测.实验结果计算表明,在常用相似汉字数据集上,匹配准确度提高8%~39%,错误率减少6%~38%.

上一篇:基于高斯滤波和K最邻近算法融合的硬件木马电磁信息检测技术研究
下一篇:一种通过支持向量机对交通拥堵情况进行分类的方法

版权所有:《南京大学学报(自然科学版)》 苏ICP备10085945号
地址:江苏省南京市鼓楼区汉口路22号,《南京大学学报》编辑部,210093