什么样的劳动是快乐的,劳动的快乐说不尽劳动的创造最光荣

文中最开始发布于 unite.ai,经创作者 Martin Anderson 受权,InfoQ 中文站翻泽并共享。

2份全新的论文强调:现阶段的发展趋势是,这些薪水便宜、常常被剥夺权利的、来源于全世界的任意零工,为人工神经网络系统软件造就标准实情(Ground Truth)。这将会对人工智能技术造成重要的中下游危害。这显然是个槽糕的信息。而更糟心的是,防范措施要不价格昂贵,要不用时,要不既贵又用时。

这几篇论文中,第一篇论文是由Google的五名研究工作人员编写的,题型是《谁的标准实情?数据标注身后的自身和团体的地位表明》(Whose Ground Truth? Accounting for Individual and Collective Identities Underlying Dataset Annotation);第二篇论文是由纽约市雪城大学(Syracuse University)的二位研究工作人员编写的,题型是《数据信息标注者中间矛盾的发源和使用价值:仇恨观点标注中个别差异的实例研究》(The Origin and Value of Disagreement Among Data Labelers: A Case Study of Individual Differences in Hate Speech Annotation)。

Google的论文强调,众包工人本身的成见很有可能会被嵌入到人工智能技术系统软件中,而人工智能技术系统软件的标准实情便是根据这些人的反映。这种众包工人常常在一系列限定情况下工作中,这也许会危害它们对试验每日任务的反映方法。

例如,amazon Mechanical Turk 的政策就容许请求者(这些派发每日任务的人)回绝标注者的工作中而无须负责任:

绝大部分的众包工人(94%)都是有过被拒绝的工作经验,或是没获得酬劳。可是,无论她们是接纳或是回绝,请求者都对她们接到的数据信息保存了所有支配权。Roberts(2016) 将这类规章制度叙述为“激励偷盗薪水”。

回绝工作中和托欠酬劳是苦痛的,由于回绝通常是因为不清楚的标示和缺少合理的反应方式而致使的。很多众包工人汇报说,沟通交流受阻会为他们的作业产生不良影响。

论文强调,运用外包服务来开发设计数据的研究工作人员,理应思索众包服务平台是如何看待其工人的。据了解,英国的众包工人被归到“单独承包单位”,她们的工作中既不会受到管控,都不受《公平劳动标准法案》(Fair Labor Standards Act)所明文规定的最低工资标准的维护。

标注者环境很重要

这篇论文还指出了一个指责,即在沒有充分考虑标注者环境的情形下,雇佣临时性的、来源于全世界的人力资本来开展标注。

假如费用预算容许,应用 AMT 和相近的众包服务平台的研究工作人员常常把同一个分配任务给四个标注者,而且在结论上遵循“大部分标准”。

论文觉得,标注者的情况显而易见未被高度重视。例如,当三名 18~57 岁的男人和一名 29 岁的女士被任意地划分了一项有关歧视的每日任务,那麼男士的宣判将取得胜利,除非是研究工作人员注意到这种标注者的情况信息内容,这样的事情相对性少见。

相近地,一个相关纽约帮会个人行为的问题,分派给一名 36 岁的英国村妇、一名 42 岁的纽约男士住户及其两位各自来源于加尔各答和芬兰的标注者,在标准规定的业务外包配备中,最易于遭受这个问题危害的人(纽约男士)在结论中只占据四分之一的市场份额。

研究工作人员表明:

“唯一实情”这一理念在众包回复中是个神话传说。标注者中间的矛盾通常被觉得是负面的,但实际上却能为大家带来有價值的信息内容。次之,因为很多众包标注者在社会发展人口数量应用统计学层面具有一定的误差,这便会直接影响到哪些人是数据的意味着,哪些人将应对众包的考验。

表述标注者人口数量应用统计学上的误差是数据采集和保证承担责任的中下游运用的重要。总而言之,认可和考虑众包工人的社會和文化的特点,无论从网站安全性或社会影响上而言,全是很具有意义的。

不会有对社会热点问题的“保持中立”见解

即使四名标注者的观点在人口数量应用统计学上或别的一些指标值上面不会有误差,但Google的这篇论文依然担忧研究工作人员并没有将标注者的生活经验或哲学思想趋向列入考虑:

尽管有一些每日任务趋向于明确提出有标准答案的客观性问题(例如 “is there a human face in an image?”),但许多情况下,数据的目的性是捕获对相对性主观性的任務的分辨,并非一个广泛恰当的回答(例如 “is this piece of text offensive?”)。重点在于,它是不是在于标注者的客观分辨。

对于仇恨观点标识问题的主要范畴,雪城大学的论文明确提出了更加直接了当的问题,例如“Is there a cat in this photograph?”,与了解众包工人某一语句是不是“有害”有明显不一样:

因为社会现象的复杂多变,大家针对“有害”的了解也不尽相同。她们以自身的了解为基本,对有危害的具体内容开展标注。

雪城大学的研究工作人员发觉,个性化和年纪对仇恨观点的层面标识有 “实际性危害”,她们得出以下结论::这种发觉说明,在具备不一样环境和独特的仇恨观点的标注者中间,要想得到标注一致性,这类勤奋很有可能一直不容易获得彻底取得成功

大法官很有可能也会出现成见

雪城大学的论文强调,这类欠缺客观的状况也是有很有可能往上优化。该论文觉得,人为因素干涉(或全自动管理决策,也是由人决策)来决定的共识网络投票的“大赢家”,也应当遭受核查。

创作者将这一全过程比成社区论坛审批,并强调:

小区论坛版主可以根据对贴子开展加精或掩藏,及其对使用者开展嘉奖、侮辱或严禁,来决策贴子和客户在社群中的运势。论坛版主的决策会对向小区组员和受众群体传递的信息造成危害,并可能对小区的探讨感受造成危害。

假定一个人们论坛版主是一个小区组员,与别的小区组员具备人口数量应用统计学上的无偏性,那麼她们用于评定信息的心理状态图示好像有可能与别的小区组员的心理状态图示相符合。

这为雪城大学的研究工作人员为什么对仇恨观点标注的将来,得到如此让人气馁的结果给予了一些案件线索。其意义是,对于不一样的众包建议的现行政策和宣判号召,不可以只依照“可接纳的”标准随便运用,而这种标准在任何地方都没法被遵循(或是不可以简单化为可适用的方式,即使他们的确存有)。

做决定的人(众包工人)是有成见的,假如这些人并没有成见,针对那样的工作而言就毫无价值,由于每日任务是要作出价值判断;而这些对众包结论中的异议作出宣判的人,在特定有争论的现行政策时,也是在作出价值判断。

只是一个仇恨观点检验架构就将会有数百种现行政策,如果不把任何的新政都列入最高人民法院,那麼“公信力”的认可是从哪里来的呢?

Google的研究工作人员提议,“标注者中间的矛盾很有可能有着有关每日任务的珍贵细微差别”。该论文提议在数据信息集中化应用数据库,以体现和表明异议。

可是,大家难以见到,这一特殊情况下的数据信息层是如何造成相近的衡量规范,合乎已确立的规范检测要求,或是适用一切显著的结果,除非是是在这类不实际的状况:在下一步工作中应用同一组研究工作人员。

管理方法标注者库

全部这一切都是假定,一个研究新项目乃至会出现用以好几个标注的费用预算,这种标注将造成的共识网络投票。在很多情形下,研究工作人员尝试根据特定众包工人应具有的特点,如所在位置、胎儿性别或是别的文化艺术要素,以多样化获得独特性,进而更廉价地“管理方法”业务外包标注者库。

Google的论文觉得,解决这种考验的方式 可以是与标注者创建一个更高的沟通交流架构。

对标注者的如此细心的考虑到,当然会变成集成电路工艺标注业务外包的阻碍。最后造成要不发生更比较有限和低存储量的数据,要不标注者开展“匆忙”评定,得到有关它们的比较有限关键点,而且在数据不够的情形下,将她们判定为“合适每日任务”。这也是在标注者诚信的条件下。

由于目前的人力资本酬劳过低,对目前每日任务的竞争力很猛烈,而且职业前景非常渺小,因而,标注员的想法便是要快速给予“恰当”的回答,并开展下一项中小型每日任务。

雪城大学的论文觉得,假如“标准答案”是比“有猫/无猫”更繁杂的物品,众包工人或许会从问题的具体内容和前后文推论出“可接纳的”回答。

代替性定义的传播及其简单的标注方式的普遍应用,都能够说成对互联网仇恨观点研究进度的阻拦。例如,Ross 等人就发觉,将 Twitter 中有关仇恨个人行为的界定告知标注者,会使它们在一定层度上把自身的看法与界定相一致。那样的调节会使标注员中间标注的真实度极低。

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

Powered By Z-BlogPHP 1.7.3

 Theme By 优美尚品

每日搜寻全球各个角落的热点新闻,锁定小童说事网,多一点惊喜与感动!