文本内容安全审核

行业动态 公司新闻 案例分享 技术百科

文本内容安全审核

来源:奇站网络 浏览量:441 发布日期: 2023-12-28

一、云厂商

阿里云、百度云、腾讯云

二、开源项目

1、 observerss/textfilter
语言: Python,Star为1.7k。
详情: 短文本匹配 + 某1w词敏感词库。
技术: Native(for遍历), BS(二分搜索), DFA(就是字典树)。

2、 minitrill/TextAudit
语言: Python,star为0.056k。

详情: 短视频app文本审核模块:1.二分类,恶意与否; 2.详细分类; 3.后处理(对于不同频率/不同程度/不同影响力的言论)。

技术: DFA + 分类模型(TIDF + BayesianNetwork)

3、 houbb/sensitive-word
语言: Java,star为0.339k。
详情: 高性能敏感词工具。
技术: DFA + 某6W敏感词库。支持用户自定义敏感词和白名单、支持数据的数据动态更新,实时生效。

4、 elulis/sensitive-words
语言: Java,star为0.411k。
详情: Java快速中文敏感词过滤,在15k敏感词库上的过滤速度超过50M字符每秒。
方法: DFA + 2字符hash优化。

5、 youzan/YZSpamFilter
语言: Python,star为0.266k。
详情: 有赞垃圾内容过滤工具,可为帖子、邮件、博客等提供中文垃圾信息过滤服务。
方法: 二分类模型,数据为垃圾邮件过滤。

6、 toolgood/ToolGood.Words
语言: C#,star为2.9k。
详情: C#语言,使用StringSearchEx2.Replace过滤,在48k敏感词库上的过滤速度超过3亿字符每秒。(cpu i7 8750h)
方法: 正则转DFA,C#改进版AC自动机, 可设置跳字长度,默认全角转半角,忽略大小写,跳词,重复词,黑名单。

标签:

厦门奇站网络科技有限公司

电话:13313868605

QQ:3413772931

地址:厦门集美区软件园三期

网站地图


                    扫一扫加我咨询