Compañía de datos filtra 48 millones de perfiles obtenidos de plataformas sociales
Los datos de los perfiles se "rasparon" sin el consentimiento o el conocimiento del usuario para "crear una imagen tridimensional" de millones de personas.
Una firma de datos poco conocida pudo construir 48 millones de perfiles personales, combinando datos de sitios y redes sociales como Facebook, LinkedIn, Twitter y Zillow, entre otros, sin el conocimiento o consentimiento de los usuarios.
Localblox, una firma con sede en Bellevue, Washington, dice que "rastrea, descubre, extrae, indexa, crea mapas y aumenta automáticamente los datos en una variedad de formatos desde la web y desde las redes de intercambio". Desde su fundación en 2010, la compañía ha centrado su colección en fuentes de datos de acceso público, como las redes sociales Facebook, Twitter y LinkedIn, y el sitio inmobiliario Zillow para nombrar algunos, para producir perfiles.
Pero a principios de este año, la compañía dejó una gran cantidad de datos de perfiles en un contenedor de almacenamiento público pero no incluido en la lista de Amazon S3 sin una contraseña, lo que permite a cualquiera descargar sus contenidos.
El contenedor, etiquetado como "lbdumps", contenía un archivo que se desempaquetaba en un único archivo de más de 1.2 terabytes de tamaño. El archivo enumeró 48 millones de registros individuales, extraídos de perfiles públicos, se consolidaron y luego se combinaron.
Los datos fueron encontrados posteriormente por Chris Vickery, director de investigación de riesgos cibernéticos de la empresa de seguridad UpGuard. Vickery, un conocido cazador de violaciones de los datos éticos, reveló la fuga al jefe de tecnología de Localblox, Ashfaq Rahman, a fines de febrero. El contenedor fue asegurado horas después.
El descubrimiento es el último giro entre los escándalos recientes que involucran a las compañías tecnológicas y sus prácticas de recopilación de datos.
El mes pasado, Facebook se vio envuelto en una disputa de privacidad luego de que la firma de datos londinense Cambridge Analytica obtuviera datos de hasta 87 millones de usuarios, según un "cálculo conservador" del gigante de las redes sociales, de una aplicación académica que recopilaba datos sobre sus usuarios y sus amigos. Los datos se usaron para crear perfiles en millones de estadounidenses para predecir cómo votará la gente en las urnas, incluidas las elecciones presidenciales de 2016.
La controversia provocó un alboroto, desencadenó investigaciones parlamentarias y del congreso en todo el mundo y obligó a Facebook a introducir prácticas de privacidad más sólidas.
Pero la recopilación de datos por parte de Localblox puede ser muy invasiva, y puede incluir información altamente sensible e identificable sobre una persona, sin el consentimiento de ella.
Vickery le mostró a ZDNet los datos de primera mano en Nueva York la semana pasada.
Los datos se encontraron en un archivo JSON delimitado por línea nueva legible por humanos. Los datos recopilados incluyen nombres y direcciones físicas, información de empleo e historial de tareas y más, extraídos de los perfiles de Facebook, LinkedIn y Twitter.
El propio informe de UpGuard, publicado el miércoles, contenía consultas de búsqueda que Localblox utilizaría para recorrer las direcciones de correo electrónico que había recopilado a través del motor de búsqueda de Facebook para recuperar fotos de usuarios, título de trabajo actual, información del empleador e información familiar adicional.
Facebook bloqueó su función de búsqueda a principios de este mes después de que los estafadores ejecutaran búsquedas automáticas para recolectar datos de las personas.
También se cree que la compañía complementa sus datos recopilados de fuentes no públicas, como los datos de comercialización comprados. Luego, los datos se compilan, organizan y combinan en perfiles individuales existentes.
El informe describió la operación de recolección como un esfuerzo para "crear una imagen tridimensional de cada individuo afectado" para usar en campañas publicitarias o políticas.
Vickery dijo que algunos registros son más completos que otros.
Localblox se jacta desde hace mucho tiempo de la cantidad de datos que puede recopilar.
Una muestra del perfil del consumidor en el sitio web de la compañía puede incluir la ubicación de una persona, direcciones de correo electrónico, direcciones IP (que en algunos casos pueden identificar la ubicación de una persona), números de teléfono, direcciones postales, salario, empleador y título de trabajo, y otros marcadores precisos.
Los datos pueden incluir, aunque no siempre, información sobre si una persona es usuaria de una tarjeta de crédito, sus preferencias de "No llamar", estado civil y valor neto.
Localblox afirma que tiene más de 650 millones de registros en su base de datos de ID de dispositivo y 180 millones de registros en su base de datos de teléfonos móviles, que incluye números de teléfono móvil y operadores.
La compañía también dice que tiene una base de datos de votantes de Estados Unidos con 180 millones de ciudadanos. No se sabe qué antigüedad tiene esa base de datos, pero una filtración de registros de votantes (coincidentemente también encontrada por Vickery) sugiere que la base de datos de Localblox no está muy atrás de una base de datos expuesta de mediados de 2017 que contiene 197 millones de registros de votantes.
"Concentrar los detalles de millones de personas puede convertirse, por su propia naturaleza, en una arma y algo que puede causar mucho daño", dijo Vickery.
ZDNet contactó a Localblox antes de la publicación con varias preguntas.
En una llamada telefónica, Ashfaq Rahman reclamó a Vickery “que pirateó“ el contenedor S3 de acceso público. (Vickery siempre ha dicho que trabaja bajo un perfil estrictamente ético y dentro de la ley para divulgar de forma responsable los datos expuestos). Rahman no dijo por qué restringió los permisos del contenedor horas más tarde.
Rahman también disputó la cifra de 48 millones diciendo que "la mayoría" de los datos fueron fabricados para pruebas internas, pero no daban un porcentaje. Cuando se le preguntó acerca de más datos personales, como la geolocalización y los datos de direcciones IP, dijo que "no se vinculan con los propietarios reales".
En un intercambio posterior de correos electrónicos, Rahman dijo que "no se cree que ningún otro individuo haya accedido a este archivo desde el contenedor S3".
Reiteró que la compañía "une pedazos para generar inteligencia transformadora".
Según un artículo de 2013, el presidente de Localblox, Sabira Arefin, dijo que "depende del sitio y del sistema individual determinar los términos y condiciones y luego aplicar cualquier mecanismo de seguridad si quieren evitar el raspamiento”.
Arefin no respondió a preguntas por correo electrónico.
ZDNet también contactó a las compañías cuyos datos raspó Localblox.
Facebook dijo que está prohibido extraer datos de su servicio. En un comunicado, el vocero dijo: "Actualmente estamos investigando todas las aplicaciones que tenían acceso a grandes cantidades de información antes de cambiar nuestra plataforma para reducir drásticamente el acceso a datos en 2014. Realizaremos una auditoría completa de cualquier aplicación con actividad sospechosa. Si encontramos desarrolladores que hicieron mal uso de la información de identificación personal, los prohibiremos e informaremos a todos los afectados".
LinkedIn ha estado luchando contra el raspado de sitios web en los tribunales. Un portavoz dijo: "Cualquier robo de datos de nuestra plataforma es una clara violación de los Términos de Servicio de LinkedIn. Nuestros miembros controlan la información que están disponibles públicamente en LinkedIn y protegemos ese control tomando medidas agresivas para detener cualquier raspado ilícito cuando es descubierto".
Twitter, que tiene perfiles de usuario y tweets abiertos y públicos de manera predeterminada, dijo que los datos de raspado automatizados del sitio "sin nuestro consentimiento previo están expresamente prohibidos".
Zillow dijo: "Tomamos muy en serio la seguridad de los datos en nuestros sitios. Nuestros términos de uso prohíben el raspamiento, supervisamos activamente y trabajamos para impedir que terceros utilicen nuestros sitios".
Las compañías de raspado de datos no son nuevas, pero se están volviendo más poderosas y controvertidas a raíz del escándalo de Cambridge Analytica.
Pero los partidarios de la industria dicen que los datos son un juego justo, si ya están disponibles públicamente.
Nielsen, una empresa de investigación de medios, solía raspar datos de la web pero se detenía a menos que obtuviera permiso. Pero un vocero de la compañía dijo una vez que, "si alguien decide compartir información personalmente identificable, podría incluirse", según un informe de 2010 en The Wall Street Journal.
Pero los usuarios de Internet tienen poco o ningún recurso si sus datos que ya son públicos son raspados. No existen leyes que obliguen a las empresas de datos a permitir que las personas cambien o eliminen sus datos, a diferencia de lo que sucede en Europa, donde las normas de privacidad y protección de datos son más estrictas.
Aunque estas compañías de raspado de datos están acumulando cantidades masivas de datos organizados, Vickery dijo que vale la pena recordar de dónde obtuvieron los datos en primer lugar.
"Creo que estas compañías necesitan asumir un poco más de responsabilidad sobre lo que se está haciendo con esta información, y reflexionar sobre el papel que están desempeñando hoy en día“, dijo.