-
中国网民第一次发现敏感词的存在,是在 2000 年的 qq 聊天室。
用于结交陌生朋友的聊天室功能,让敏感内容第一次有了大规模传播的可能,因此,禁词表出现了。
禁词表的规则相当粗暴——只要文本内容包含禁用词,则无法发送,或发送后仅自己可见。直到今天,微信也仍然沿用这一规则。
好在微信环境相对封闭,审查级别并不高。多伦多大学一份 2016 年 11 月发布的报告中,只发现 178 个禁词,且仅针对用中国大陆手机号码。
而在 web 2.0 时代,随着博客、论坛、社交网络开始成为主流产品,任何信息都有可能一夜间传遍全网。传统禁词方案的缺陷开始暴露出来。
首先,词库只能做到精准匹配,无法处理对原词的演绎。
假设金zhengen为敏感词,那么可以演绎出三 胖、鑫,以及英文、拼音、字符版本的几十个替代词,甚至直接用“金”以指代,而这些词显然无法被禁词表囊括。
另一方面,许多敏感内容是事件,无法仅用单个词描述。
以“金正男机场遇刺”为例,需要“机场”、“金正男”、“遇刺”其中两个词同时出现才能触发清除机制。这就给了其中单个词相当大的替换空间,例如“机场金 大胖”、“胖熊机场一日游”,都可以让人联想到该事件。
面对这些问题,各种消灭敏感内容的计算机算法开始被研究出来。
分词是分析文本的第一步。
传统的“正向最大匹配法”即从左到右扫描文本,将匹配成功的词切分,直到无法匹配为止。
但这种方法并不可靠,如“一台独立服务器”就还是会被分为“一/台 独/立/服务器”。
为了解决歧义问题,需要对大量真实语料进行统计,计算每个词的出现概率,再计算不同分词方案下的总概率。
在这个例子中,因为“立”作为词的出现概率极低,因此“一台/独立/服务器”的概率将明显高于“一/台独/立/服务器”。更进一步,还可计算两个词同时出现的概率,以得到更精确的分词结果。
今天的分词算法可以成功识别插入特殊符号的敏感词。而配合扩展词表,也可以处理以同音字或拼音替代的敏感词。
但对于联想类敏感词和事件类敏感内容,还是需要其他算法的加持。
贝叶斯方法就是其中之一。
1763 年,英国学者托马斯·贝叶斯(Thomas Bayes)提出了著名的贝叶斯公式:
贝叶斯方法的核心在于通过已知事件的概率(先验概率)计算未知事件的概率(后验概率)。
以“金正男机场遇刺”举例,假设抽取十万条包含“机场”的文本,其中七万条为正常内容,三万条为需要清 除的敏感内容。
即正常评论的概率 P(g)=70%,敏感评论的概率 P(b)=30%。
再对所有文本进行分词,计算每个词出现的概率。
以“遇刺”为例,假设在七万条正常内容中,有七十条“遇刺”,即出现概率概率 P(W|g)为 0.1%;而三万条敏感内容中,有三百条“遇刺”,即出现概率 P(W|b) 为 1%。“遇刺”一词出现的总概率 P(W) 为 0.37%。
那么,一条提到了机场的内容里出现了“遇刺”,该内容是敏感内容的概率 P(b|W) 是多大呢?将上面的结果带入贝叶斯公式中,可以算出概率为 P(b|W) = P(W|b)P(b) / P(W) = 81.1%。
按此方法可以计算出每个词的敏感概率,根据这个公式就可以计算出该文本为敏感内容的期望,再根据实际情况设定阈值进行处理。
贝叶斯方案的缺陷是需要大量语料数据作为其先验概率的支撑。但在深度学习算法逐渐成熟的今天,距离完全消灭敏感内容的最后屏障就是样本的数量。
为了实现这一伟大目标,官方也许可以定期举办“敏感词放心说”等活动,号召人民群众一起为消灭敏感词贡献数据。
作者:吴松磊 来源:回形针PaperClip
顶: 3 踩: 0相关阅读:
来源:卢松松博客 QQ/微信:13340454
如何科学地消灭敏感内容
| 12622 阅读量 | 分类: 经验心得 | 作者: 转载大师
相关文章阅读更多:互联网 网站 站长
- 2025-03-06 1448万:帝恩思把核心资产DNS.COM域名卖了
- 2025-02-18 什么是SSL和HTTPS?企业网站有必要安装部署SSL和HTTPS吗
- 2025-02-13 20年前中国4大顶级域名注册商:三五互联发不出工资了
- 2025-01-13 央视曝光20元克隆网站黑幕,建站行业即将大清洗
- 2024-08-08 网站真的没必要在做了
- 2024-05-27 抽屉网关停,Digg类网站退出互联网舞台
- 2024-05-17 网站备案使得一些企业不得不放弃网站业务了
- 2024-05-13 网站被网监大队下发整改通知书
- 2024-04-11 中国网站数量竟然比2022年多了10000个
- 2024-03-25 日流量10万的网站无法变现
- 2024-02-27 天涯社区被申请破产
- 2024-02-01 2023年网信办约谈了上万家网站
- 2024-01-26 2024年新一轮备案核查开始了
- 2023-12-14 多年SEO实战起站养站经验分享
- 2021-09-08凡是在卢松松博客投稿的作者都有机会得到IT类图书哦!
发表感想加入微信群
点此登录松松云平台免费认证
这就是当下的不足吧