日拦截3000条评论,知乎正用AI识别「答非所问」和「不友善」

「电影中那种很逼真的杀人镜头是如何拍摄的?」如果你在知乎抛出这个问题,收到的回答中可能会有这样的一条「其实吧,那些人都是死刑犯,反正都要执行死刑的,所以就拉来拍电影或电视剧了。」问「数学分析应该买哪套教材?」,会有人答「数学老师不喜欢我。」

抖机灵、讲故事,在知乎这个最大的中文问答社区很常见,但这引发的一个问题是,这样的回答是符合事实的吗?它会不会惹人烦?

在最近的一次产品内测中,知乎把对一条回答中「有理由反对」的理由细化成了「事实错误」、「答非所问」、「煽动情绪」和「不解释」四种,所谓无用的、低质的回答到底都是哪些内容?知乎希望在算法层面更好地回答这个问题。

据知乎的反馈,内测期有50000名用户参与其中,通过用户选择判断和瓦力(知乎在2016年上线的算法机器人)智能学习的结合,一共处理了超过20000条答非所问的回答。换句话说,用户的每次选择都是「瓦力」这个机器人学习的机会和过程。

知乎把AI的作用聚焦在了社区规范上,这既包括一条回答是否涉及「答非所问」,还有社区中是否出现了让用户感到不适的言语「不友善」。

在2018GMIC的演讲中,知乎合伙人李大海用了两个具体的案例展示AI是如何在知乎被应用的,他将知乎视为一个中文语料库,「用户在知乎上累计提出了2300万个问题,并收获了接近1亿的回答。」李大海表示,在问答爆炸的状态下,知乎的算法机器人「瓦力」获得了落地场景,在这里,瓦力的作用是帮助优化和执行社区规范。

「用户对一个回答的赞同或者反对,他们对任何内容的举报,他们对一个问题发起一个话题,或者对问题或者话题进行公共编辑,在某种程度上我们都可以把它认为是对相应文本语料进行标注。有了这样标注数据以后,我们就能够去利用有监督的机器学习算法去得到一个更好的语义表示,从而能让我们对语言的理解能够达到一个更高的层次。」李大海称7年的运营经验对于AI落地是非常有帮助的,因为它能够把社区氛围这个很虚无的大问题分解为很多小的目标明确的,可以解决的问题,降低这个问题的难度。

在李大海的举例中,「答非所问」和「不友善的评论」是伤害社区氛围的两个主要问题,对于前者,解决方法除了在更短的时间里处理知友举报的不良回答,知乎还通过建立随机森林模型对回答进行识别、分类。

在一开始,知乎会建立一个模型,比如问题是「知乎的宠物是狗还是狐」,让每个树自己投票。准确率能够达到97%,但问题是它的召回率不高,这意味着一些答非所问的回答会被放过。知乎开发了新的模型,任何一个回答只要发出来,很快就能够被分类。将反对理由细化,也正是提升AI识别能力的有效方法。

对于「不友善」的评论,李大海在演讲中表示,阴阳怪气,也就是反讽的识别是非常难的,反讽是一种完全正面的词语去表达负面的意思,是一个很高级的修辞手法,机器人很难明白的。像谢尔顿作为物理学家,他的智商在全人类排名前10,他也常常听不懂别人对他的讽刺。

在训练中知乎会把内容本身的特征尽可能的feed到模型中去,包括像文本特征,一些数值特征,还有像反讽词表,以及一些表现符特征等等。举例来说,如果一个评论有很多好的用户,他们都进行了反对,这就是一个负向的。如果另外一个评论有很多用户点了赞同,它可能就是正向的。基于此知乎可以构建大量的一个标注数据,但这样一个方案还在开发过程中。

目前,对于「不友善的评论」,瓦力每天可以实时拦截处理3000条内容,覆盖内容从大众版本的不友善,到五花八门的歧视、恶意贴标签,对各种亲朋的「问候」以及花样繁多的变体等。

然而,把识别「不友善的评论」的全部工作交给人工智能仍是不切实际的,知乎在产品专栏中写道:「由于数据不均衡、数据排查标注成本较高和上述数据的分布特点,全量内容模型要做到准确率 98% 以上非常困难,因此我们根据人工审核量,选择一个适宜的阈值,在保证每天召回量的基础上,维持召回内容的处理准确率到 80% 以上,并将召回的内容进行人工审核。」

「我们相信知乎通过这种庞大的高质量用户行为的学习和分析,一定在语义和用户关系这两个层面上一个更深的建模和理解。能够像在反讽前沿领域的突破,任何一个突破对中文互联网,甚至全球互联网讨论环境中都应该有非常正面的作用。」李大海表示。(本文作者/宫赫婧,根据知乎授权内容进行整理。编辑/苏建勋)

Be the first to comment

Leave a Reply

Your email address will not be published.


*