警务仇恨言论几乎是每个在线交流平台都在挣扎的。因为要警察它,你必须检测它;要检测它,你必须了解它。Hatebase是一家将理解仇恨言论作为其主要使命的公司,它将理解作为一种服务 - 一种越来越有价值的服务。
本质上,Hatebase分析网络上的语言使用,结构和对结果数据进行语境化,并将结果数据库出售(或提供)给没有专业知识的公司和研究人员。
加拿大公司是一个规模虽小但正在增长的业务,是在Sentinel项目的研究中出现的,用于在分析冲突地区使用的语言的基础上预测和预防暴行。
“哨兵发现的是仇恨言论倾向于在这些冲突升级之前,”Hatebase的创始人兼首席执行官Timothy Quinn解释道。“我与他们合作建立Hatebase作为一个试点项目 - 基本上是多语言仇恨言论的词汇。让我们感到惊讶的是,许多其他非政府组织[非政府组织]开始将我们的数据用于同一目的。然后我们开始使用我们的数据获得许多商业实体。所以去年我们决定把它作为创业公司。“
你可能会想,“检测少数种族辱骂和仇恨短语有什么困难?”当然,任何人都可以告诉你(也许不情愿)最常见的辱骂和令人反感的事情 - 用他们的语言......他们知道的。仇恨言论不仅仅是一些丑陋的话语。这是一个完整的俚语类型,单一语言的俚语将填充字典。所有语言的俚语怎么样?
一个移动的词典
正如维克多雨果在悲惨世界中指出的那样,俚语(或法语中的“谚语”)是任何语言中最易变的部分。这些话可以是“单独的,野蛮的,有时是可怕的话语......作为腐败成语的Argot很容易被腐蚀。而且,因为它一直在寻求伪装,一旦它认为它被理解,它就会改变自己。“
俚语和讨厌的言论不仅篇幅庞大,而且不断变化。所以编目的任务是连续的。
Hatebase使用人工和自动化流程的组合来刮取公共网络以使用与仇恨相关的术语。“我们会看到一堆消息来源 - 最大的,正如你可能想象的那样,是推特 - 我们全力以赴并将其转交给哈特马丁。这是一个自然语言程序,通过帖子返回真,假或未知。“
真的意味着它非常肯定它是讨厌的演讲 - 你可以想象,有很多例子。当然,假意味着没有。而未知意味着它无法确定;也许是讽刺,或者是关于一个短语的学术喋喋不休,或者是某个人使用属于该群体的词,并试图收回它或斥责使用它的其他人。这些是通过API发布的值,用户可以选择在更大的数据库中查找更多信息或上下文,包括位置,频率,攻击性等级。通过这种数据,您可以了解全球趋势,将活动与其他事件联系起来,或者只是跟上快速变化的种族辱骂世界。
不过,奎因并没有假装这个过程是神奇的或完美的。“很少有100%来自哈特马丁,”他解释说。“它与其他人使用的机器学习方法略有不同。当你有一个明确的训练集时,ML是很棒的,但是人类的言语和讨厌的言语,这可能是如此细微差别,当你得到偏见的时候就是这样。我们只是没有大量的仇恨言论,因为没有人可以就讨厌的言论达成一致。“
这是Google,Twitter和Facebook等公司面临的问题的一部分 - 您无法自动化无法自动理解的内容。
幸运的是,Hatebrain还以志愿者和合作伙伴的形式使用人类智能,他们对更加模糊的数据点进行身份验证,裁定和汇总。
“我们有一群非政府组织在世界各地的语言多元化地区与我们合作,我们刚刚启动了'公民语言学家'计划,这是我们公司的志愿者部门,他们不断更新,批准和清理定义,“奎因说。“我们为他们提供的数据提供了高度的真实性。”
本地视角对于理解单词的上下文至关重要。他在尼日利亚举了一个单词的例子,当在一个小组的成员之间使用时意味着朋友,但是当该小组使用它来指代其他人时意味着没有受过教育。除了尼日利亚人之外,任何人都不可能告诉你这一点。目前,Hatebase在200个国家/地区覆盖了95种语言,并且它们一直在增加。
此外,还有“增强词”,单词或短语本身并不具有攻击性,但用于表明某人是否在强调诽谤或短语。其他因素也会进入其中,其中一些自然语言引擎可能无法识别,因为它的数据很少。因此,除了保持定义最新之外,该团队还不断致力于改进用于对Hatebrain语音遭遇进行分类的参数。
建立更好的科学和利润数据库
该系统只是摄入了其百万分之一的仇恨言语瞄准(可能是许多短语评估的数十倍),这听起来同时又很多。这有点因为互联网上的言论量非常大,以至于人们甚至期望构成仇恨言论的微小比例加起来达到数百万。
但这很重要,因为没有其他人将这样大小和质量的数据库整合在一起。经过审查的,数百万个数据点的单词和短语被分类为仇恨言论或不仇恨言论,这本身就是一种有价值的商品。这就是为什么Hatebase向研究人员和机构免费提供它用于人道主义或科学目的的原因。
但公司和大型组织希望将讨厌的语音检测外包给审核目的,需要支付许可费,这样可以保持亮灯并允许免费层存在。
“我认为,世界上十大社交网络中有四个拉动了我们的数据。我们有联合国拉动数据,非政府组织,在冲突地区工作的超级本地人。过去几年我们一直在为LAPD提取数据。我们越来越多地与政府部门交谈,“奎因说。
Quinn指出,他们有许多商业客户,其中许多都属于NDA,但最近加入的是公开发布的,那就是TikTok。可以想象,像这样的流行平台非常需要快速,准确的审核。
事实上,这是一场危机,因为有法律出台,如果他们不及时删除违规内容,就会对公司造成巨大的损失。这种威胁真的放松了钱包;如果罚款可能达到数千万美元,那么支付Hatebase等服务的很大一部分是一项很好的投资。
“这些大型在线生态系统需要将这些东西从他们的平台上移除,他们需要自动化一定比例的内容审核,”Quinn说。“我们永远不会认为我们能够摆脱人类的温和,这是一个荒谬和无法实现的目标;我们想要做的是帮助已经存在的自动化。太阳下的每个在线社区都会建立他们自己庞大的多语言仇恨言论数据库,他们自己的人工智能,这越来越不现实。同样的方式公司不再拥有自己的邮件服务器,他们使用Gmail,或者他们没有服务器机房,他们使用AWS - 这就是我们的模式,我们称自己为讨厌的语音即服务。我们大约有一半人喜欢这个词,有一半不喜欢,但这确实是我们的榜样。“
Hatebase的商业客户从第一天开始就让公司盈利,但他们“无论如何都不会以现金流通”。
“在我们分拆出来之前,我们是非营利性的,我们并没有放弃,但我们想要自筹资金,”奎因说。毕竟,依靠富有的陌生人的善意是无法继续经营的。该公司正在招聘和投资其基础设施,但奎因表示,他们不希望增长或任何事情 - 只需确保需要做的工作有人去做。
与此同时,Quinn和其他所有人都清楚这种信息具有实际价值,尽管它很少是简单的。
“这真的是一个非常复杂的问题。你知道,我们总是努力解决这个问题,好吧,讨厌演讲的角色是什么?错误信息起什么作用?社会经济学扮演什么角色?“他说。“有一篇伟大的论文来自华威大学,我们研究了2015年至2017年德国仇恨言论与针对移民的暴力行为之间的相互关系。他们将其描绘出来。而且它的峰值高峰,对谷来说是有效的。太奇妙了。我们不做很多分析 - 我们是数据提供者。“
“但是,现在已经有近300所大学拉动数据了,他们会做那些类型的分析。这对我们来说非常有用。“