身为法师的我只想追求真理_第三百七十章 M语言和最先被干掉的职业

　　容易才找到的理想工作。”

　　发下面这条微博的是一个鉴黄师。

　　确实存在这种职业，而且待遇还不错。

　　不过对于他来说，属于是一语成谶了。

　　这帮互联网大厂们在梅林发布AI语言和配套的框架以及工具包之后，让下面的算法工程师放下所有手上的活：

　　“大家这段时间唯一的工作，就是把M语言以及M框架和配套的这一系列包，学会怎么用。

　　然后结合我们的工作，看有哪些地方可以利用M语言来进行重写的。”

　　其中最先被利用到的就是AI鉴黄。

　　AI鉴黄一直都是内容安全的核心诉求，基本上从猪厂、鹅厂到微博、字节，全部都在研究这玩意。

　　属于经典的入门容易精通难。

　　早期的鉴黄基本上是人工审核，属于劳动密集型工种。

　　后来上网人数多了，内容也多了，人工审核成本越来越高，因此采用AI+人工的方式鉴黄就成为了主流。

　　AI+人工的方式一般是先通过机器过滤出大部分一定正常和一定有问题的图像，剩下的再交给人工进行审核，这样可以大幅度降低人力成本，而且机器识别效果越好，人工审核成本越低。

　　AI鉴黄其实是比较宽泛的概念，可以是通过规则系统来实现，比如基于MD5、基于用户的IP等信息设置黑名单库，直接基于规则进行拦截。

　　大部分还是会采用算法模型，也就是用算法模型判断一张图像中是否包含sq信息，本质上就是图像识别。

　　图像识别目前在部分任务上的效果甚至超越了人类。

　　图像识别中最常见的就是图像分类算法，从Alex到VGG，从Res。

　　目前的图像分类算法可以较为准确地区分Image的1000类数据，鉴黄本身也是对输入图像做分类，因此采用图像分类算法就是顺其自然的事。

　　而且目标检测算法可以用来检测sq图像中的露点部位，也是比较可靠的手段。

　　此外，还有基于业务层面构造的特征和逻辑，比如是否有人、皮肤的面积等，用来辅助判断，在一些情况下确实是有效的。

　　AI鉴黄的难点主要在于不露点的软sq，特征小的sq、非通用sq以及卡通动漫sq等等。

　　这是图片ai鉴黄的难点，视频和音频鉴黄的难点就更多了。

　　而且对于这帮互联网大厂来说，即便能够做到百分之九十九的拦截率，剩下百分之一的内容都不得了。

　　以微博为例，每天产生的数据都是以T为单位。

　　即便是几十个T，百分之一的拦截失误率，都足够把来总整的够呛。

　　而且更重要的是华国的内容审核行业，不仅仅局限于鉴黄，OCR审查这帮互联网大厂更是很早就在做了。

　　点到为止。

　　同样的道理，百分之九十九的拦截率，对他们来说都是无法

　　请收藏：https://m.shuimitao9.com