Bad Data Challenge

Nowadays being online means generating a gigantic amount of data. Online content and activity, such as Facebook likes, Google searches, bookings and online purchases, are translated into bits of information that are stored, analysed and possibly used for profiling and advertising. Until recently, media reports have mainly covered the consequences of bad algorithms. Far less attention has been paid to the quality and accuracy of data that actually feeds those algorithms. Algorithms are mathematical tools used to analyse and process large amounts of information, find hidden patterns and produce specific outputs. In contrast, data is the raw material used by algorithms. Thanks to artificial intelligence, algorithms can be trained by and learn from data. But what an algorithm does depends a lot on how good the data is. We’re interested in when data is collected, pre-processed and stored. We want to capture data problems before the algorithms kicks in. It’s at this stage that corrupted, out of date, useless or illegal data can become part of the operations performed by algorithms and lead to problematic results. In this way, bad data plays an important part of all kinds of decision-making processes and outcomes. From banking to health to social services or education, bad data can have an important impact on our most fundamental rights.

Since early 2018, we have been working on developing a theoretical understanding of Bad Data. We believe it is now time to practically test our hypothesis and to incorporate new tools and approaches to the issues we have identified. We want to seize the opportunity Visualizar offers to get together a multidisciplinary team to explore how to research data problems in different ways and with diverse tools and understandings. We want to play with and test what we have found in the literature and our theoretical observations, and come up with a better understanding through a multidisciplinary approach.

We propose a challenge for the participants to investigate and communicate bad data problems (data-sets of -or containing- lost data, incompatible data, corrupted data, out-of-date data, etc…). This challenge is oriented towards committed individuals working together, the ideal participants would be teams combining both engineers and storytellers. E.g. a team consisting of data scientists and investigative reporters would be effective at digging into the everyday life costs of biased algorithms, seeing how related work already exists in the context of policing and sentencing software. These multidisciplinary groups or resourceful (in terms of knowledge) individuals should work on the exposure of problems, through reverse engineering, interviews, hacking or other methods. The goal is to document not only the problem but the whole process, and identify possible solutions. This will be a curated process, with Eticas Foundation working hand-in-hand with the participants of the challenge, and helping them maximize their findings both in terms of content and dissemination. The objective is to collect, document and present examples of how bad data is affecting everyday life in order to advocate for the necessary measures to minimize and avoid this negative impact.

Eticas Foundation will send 2 of its members to work with the team, and the results will be further used by Eticas to refine a theoretical approach to Bad Data we have been developing in the last few months and to publicly expose data problems and promote solutions.

Hoy en día moverse en el entorno digital significa generar una gran cantidad de datos. El contenido y la actividad online, como los 'Likes' de Facebook, las búsquedas de Google, las reservas y las compras que hacemos, se traducen en fragmentos de información que se almacenan y analizan y posiblemente se utilizan para crear perfiles y hacer publicidad. Hasta hace bien poco, se ha estado hablando en los medios de comunicación concretamente sólo de las consecuencias de los malos algoritmos, pero se ha prestado mucha menos atención a la calidad y precisión de los datos que alimentan realmente esos algoritmos. Los algoritmos son herramientas matemáticas que se utilizan para analizar y procesar grandes cantidades de información, encontrar patrones ocultos y producir productos específicos. En cambio, los datos son la materia prima utilizada por los algoritmos. Gracias a la inteligencia artificial, los algoritmos pueden ser entrenados por y aprender de los datos. Pero lo que hace un algoritmo dependerá mucho de lo buenos que sean los datos. Nos interesa saber cuándo se recopilan, procesan y almacenan los datos. Queremos capturar problemas de datos antes de que los algoritmos entren en vigor. Es en esta etapa que los datos corruptos, desactualizados, inútiles o ilegales pueden formar parte de las operaciones realizadas por los algoritmos y dar lugar a resultados problemáticos. De esta forma, los datos erróneos son una parte importante de todo tipo de procesos y resultados de toma de decisiones. Desde la banca hasta la salud, los servicios sociales o la educación, los datos incorrectos pueden tener un impacto importante en nuestros derechos más fundamentales.

Desde principios de 2018, hemos estado trabajando en el desarrollo de una comprensión teórica de Bad Data. Creemos que es hora de poner a prueba nuestra hipótesis e incorporar nuevas herramientas y enfoques a los problemas que hemos identificado. Queremos aprovechar la oportunidad que Visualizar ofrece para reunir a un equipo multidisciplinario para explorar cómo investigar los problemas de datos de diferentes maneras y con diversas herramientas y entendimientos. Queremos jugar y probar lo que hemos encontrado en la literatura y nuestras observaciones teóricas, y llegar a una mejor comprensión.

Proponemos un reto para que los participantes investiguen y comuniquen problemas de datos erróneos (es decir, conjuntos de datos que contengan datos perdidos, datos incompatibles, datos corruptos, datos desactualizados, etc.). Este desafío está orientado a personas comprometidas que quieran trabajan juntas, para ello los participantes ideales serían equipos que combinen ingenieros y narradores. P.ej. un equipo formado por científicos de datos y periodistas de investigación sería muy eficaz para profundizar en los costes para la vida cotidiana que causan los algoritmos sesgados, viendo cómo un trabajo relacionado ya existe en el contexto del software de vigilancia policial y de sentencias judiciales. Estos grupos multidisciplinarios o de personas ingeniosas (en términos de conocimiento) deberían trabajar en la exposición de problemas mediante técnicas o metodologías diversas, que pueden incluír ingeniería inversa, entrevistas, hacking u otros métodos. El objetivo es documentar no sólo el problema, sino todo el proceso, e identificar posibles soluciones. Este será un proceso comisariado, con la Fundación Eticas trabajando codo a codo con los participantes del desafío y ayudándolos a maximizar sus hallazgos tanto en términos de contenido como de difusión. El objetivo es recopilar, documentar y presentar ejemplos de cómo los datos nocivos están afectando la vida cotidiana para abogar por las medidas necesarias para minimizar y evitar este impacto negativo.

La Fundación Eticas enviará a 2 de sus miembros a trabajar con el equipo, y los resultados serán utilizados por Eticas Foundation para refinar un enfoque teórico sobre Bad Data que hemos estado desarrollando en los últimos meses, así como para exponer públicamente los problemas de datos y promover soluciones.