如何避免人类偏见对数据分析产生影响

随着越来越多的企业开始采用机器学习技术以实现流程的自动化,人们也逐渐开始质疑计算机决策中的伦理含义。我们如何处理计算机系统中潜在的偏见?相对较少被提及但同样重要的,是人类本身的偏见,它与分析和商业决策有很大关系。

人类的偏见可能会渗入到分析过程的每一步。当商业决策者开始拥抱机器学习进行预测分析,以获得下一步行动的具体建议时,尽可能客观地利用数据和方法是很重要的。监测这一分析过程中可能存在的人类偏见是一项伟大的职责,而这一切都始于从头开始构建模型的人:数据科学家。

在这篇文章中,我们主要关注以下三个方面,来管理整个流程中可能产生的偏见——从评估初始请求和收集信息到构建模型和挖掘见解。

Pexels 上的 rawpixel.com 拍摄的照片

评估请求:业务决策者需要什么?

在某些情况下,偏见会从一开始就进入分析项目流程中,这种偏见直接来自于提出请求的业务用户。例如,一个模型可能会被带着偏见进行请求和评估,因为提出分析请求的这个人可能潜意识里只是想验证自己的想法。例如,如果一个CMO认为他们的公司应该在PR上投资,那么让他们的分析团队构建一个展示PR需求的模型就是有问题的。

像任何人一样,数据科学家也会想要取悦老板——我们总是想要提供能够满足商业决策者所请求的信息。重要的是,不要根据商业决策者的需求来寻找和评估结果。为了在最后达到最公正的结果,需要避免一开始就设定期望。这个过程应该是一个协作的过程——您可能需要告诉业务决策者,要以最道德和最准确的方式来回答他们的业务问题。这是一个棘手的问题,但是一旦解决了这个问题,就可以同时避免受到业务决策者的需求的影响。

仔细选择评估为模型提供的数据

人类偏见可能会在选择数据的过程中产生影响。思考一下您拥有哪些必需的可用数据,以及您将从何处收集这些数据。在选择数据时,应考虑这样的问题:与总体相关人群相比,我有多少数据?如何创建数据样本?

在处理质量问题时,应该寻找信息的一致性,并评估它是否捕获了足够的变量。同时需要确保没有遗漏任何重要内容,如果遗漏了,一定要高度重视,并确定其可能对模型产生什么样的影响。

Pexels 上的 rawpixel.com 拍摄的照片

客观地选择最好的分析方法

每种方法和模型都有其假设——知道哪种方法和模型最适合您的问题是非常重要的。不同的建模选择有时会带来非常不同的结果。请求的复杂性、性质和数据的可用性是帮助你选择适当方法的主要因素。注意结果、测试结果稳定性,并将模型结果与您的先验预期进行比较。效果的方向合乎逻辑吗?效果的大小合乎逻辑吗?效果的作用合乎逻辑吗?合适吗?所有这些问题都应该解决,才能对模型更有信心。

如果要用各种算法测试数据,请注意不要选择特定的算法,因为它会输出所需的输出。我们应该注意模型给出的所有洞察。

最终,避免数据分析中带有偏见的最好方法是实现一个包括检查和平衡的过程,所有的假设都应该经过同行评审和检查。在整个分析过程中,人员、视角和信息的多样性越大,获得平衡、公正结果的机会就越大。

原文作者:Kalina Angelova

Image placeholder
艾泽拉斯
未设置
  80人点赞

没有讨论,发表一下自己的看法吧

推荐文章
Python数据分析实战 | 爬遍拉勾网,带你看看数据分析师还吃香吗?

微信公众号:「Python读财」如有问题或建议,请公众号留言伴随着移动互联网的飞速发展,越来越多用户被互联网连接在一起,用户所积累下来的数据越来越多,市场对数据方面人才的需求也越来越大,由此也带火了如

与聊天机器人相比,87%的消费者更喜欢与人类进行互动

最近对人工智能进展的调查、研究、预测和其他定量评估发现:·企业领导者表示,聊天机器人平均增加了67%的销售额·超过60%的美国人认为政府和企业每天收集他们的数据·到2020年,全球只有14%的大型组织

AB test | 数据分析师面试必知 !

前言关于ABtest的重要性无需多言,数据、产品等从业人员几乎必知,好的数据科学家我想一定是知道理解业务比模型更为重要,而ABtest就是伴随着业务增长的利器。如果你心中的ABtest几乎都没有用到中

基于 Spark 的数据分析实践

转载本文需注明出处:微信公众号EAWorld,违者必究。引言:Spark是在借鉴了MapReduce之上发展而来的,继承了其分布式并行计算的优点并改进了MapReduce明显的缺陷。Spark主要包含

数据分析利器之Pandas

Pandas是一个python的开源库,它基于Numpy,提供了多种高性能且易于使用的数据结构。Pandas最初被用作金融数据分析工具而开发,由于它有着强大的功能,目前广泛应用于数据分析、机器学习以及

实现人工智能落地 你还差一个“数据分析流水线”的距离

在智慧生产场景,生产制造商可以在生产线上利用深度学习,尤其是图像识别,将产品的质量检测自动化。比如自动检测产品表面有没有划伤、有没有零部件的缺失、有没有标签的错位。研究表明,相比人工检测,智慧检测可以

调查:2019年数据分析市场面临的挑战有哪些?

分析和数据科学行业对人才的需求急剧增长,为该行业求职者提供了很多工作机会。无论是500强还是初创企业,每个团队都在使用分析来从数据中获得有价值的信息。然而,在人才、客户定位和收集数据等方面,这个行业仍

零基础的小白怎么学习数据分析?

微信公众号:「Python读财」如有问题或建议,请公众号留言作为一个从超级菜鸟阶段过来的人,也曾迷茫,也曾面对一大堆资料不知所措,从无到有踩过太多的坑,在这里分享一下我总结出来的数据分析学习路径,为了

Pandas数据分析——超好用的Groupby详解

微信公众号:「Python读财」如有问题或建议,请公众号留言在日常的数据分析中,经常需要将数据根据某个(多个)字段划分为不同的群体(group)进行分析,如电商领域将全国的总销售额根据省份进行划分,分

最适合入门的Python数据分析实战项目

微信公众号:「Python读财」如有问题或建议,请公众号留言伴随着移动互联网的飞速发展,越来越多用户被互联网连接在一起,用户所积累下来的数据越来越多,市场对数据方面人才的需求也越来越大,由此也带火了如

工程师笔记:我对数据库系统云原生化的一些思考

作者|张敏(于期)阿里云智能高级技术专家划重点我眼中的云原生我认为的云原生关键能力我眼中的云原生化技术手段我对数据库云原生化的思考伴随着云原生技术越来越热门,阿里内部关于CloudNative、Ser

如何应对数字化转型2.0时代?

新技术在产业中融入越来越深入,企业数字化转型进入了新的阶段。IT已经融入到了业务的各个环节。人与人之间的连接、物与物之间的连接越来越广泛,万物互联的时代已然来临,而这也被很多人称为产业互联网时代。在中

关于分析IT系统宕机对业务影响的10个提示

在制定灾难恢复计划时,一个非常重要的任务就是,要确定并想方设法避免潜在的威胁,同时为最坏的情况做准备。业务影响分析(BIA)提供了解决突发事件所需的信息,前提是您要事先做好万全准备。遵循详尽的业务影响

比特币新手图文教程:一步一步教会你用比特币HD钱包,批量产生多个比特币地址和私钥

HD钱包可以快速方便的生成多个比特币地址,并且不需要备份对应的私钥。你只需要备份一个父私钥就可以把所有的私钥和地址全部恢复。比特币hd钱包解决了下面几个问题: 每次生成一个新地址都需要备份一遍私钥,操

如何减少或避免企业存储系统停机事故?

停机致使企业在一段时间内无法访问重要数据,可能造成数百万美元的损失,并导致声誉受损、业务损失和客户流失等严重后果。而企业想要从这样的打击中恢复过来是非常困难的,所以,减少或避免企业存储系统停机是非常重

数据结构与算法分析——开篇以及复杂度分析

开篇 你也许已经发现了,工作了几年,原以为已经是一只老鸟。但看到刚参加工作的同事,你发现,原来自己一直在原地踏步。跟新人相比,你的唯一优势就是对业务更熟悉而已,别的就没有什么优势了。 怎样才能够让自己

数据结构与算法分析——开篇以及复杂度分析

开篇你也许已经发现了,工作了几年,原以为已经是一只老鸟。但看到刚参加工作的同事,你发现,原来自己一直在原地踏步。跟新人相比,你的唯一优势就是对业务更熟悉而已,别的就没有什么优势了。怎样才能够让自己更上

大数据对移动应用开发的影响

大数据如何影响移动应用程序开发?目前,数据量正以前所未有的速度在增长。由于产生的总数据将在几年内跨越泽字节级别,因此更加需要进行大数据高级分析,并从庞大的数据池中获取有价值的信息。数字互联为移动应用开

资源混淆是如何影响到Kotlin协程的

导言随着kotlin的使用,协程也慢慢在我们工程中被开始被使用起来,但在我们工程中却遇到了一个问题,经过资源混淆处理之后的apk包,协程却不如期工作。那么两者到底有什么关联呢,资源混淆又是如何影响到协

GoWeb教程_09.3. 避免 XSS 攻击

随着互联网技术的发展,现在的Web应用都含有大量的动态内容以提高用户体验。所谓动态内容,就是应用程序能够根据用户环境和用户请求,输出相应的内容。动态站点会受到一种名为“跨站脚本攻击”(CrossSit

09.4. 避免 SQL 注入

什么是SQL注入 SQL注入攻击(SQLInjection),简称注入攻击,是Web开发中最常见的一种安全漏洞。可以用它来从数据库获取敏感信息,或者利用数据库的特性执行添加用户,导出文件等一系列恶意操

Java教程_在 Java 8 中避免 Null 检查

如何预防Java中著名的NullPointerException异常?这是每个Java初学者迟早会问到的关键问题之一。而且中级和高级程序员也在时时刻刻规避这个错误。其是迄今为止Java以及很多其他编程

Golang语言的主要特性与发展的环境和影响因素

1.2.1影响Go语言发展的早期编程语言 正如“21世纪的C语言”这句话所说,Go语言并不是凭空而造的,而是和C++、Java和C#一样属于C系。不仅如此,设计者们还汲取了其它编程语言的精粹部分融入

最新安卓零日漏洞被曝出,或影响谷歌、华为和小米等品牌手机

近日,据外媒BleepingComputer报道,谷歌威胁分析团队(TAG)称,一个最新的安卓0day漏洞或被用于攻击谷歌Pixel、华为、小米和三星以及OPPO等智能手机。 该漏洞是由谷歌Pro

1000 行 Python 代码脚本 bug,或影响上百篇学术论文

《Nature》杂志2014年的一篇论文包含了一个Python脚本,其中有一个模块是根据文件的排序返回值,但Python并没有定义查询的文件顺序。这意味着在不同的操作系统上,该脚本返回的值是不同的。