Web scraping: cuando captar leads te cuesta 20 millones de euros

Actualizado: 16 noviembre, 2023

En la era digital, el web scraping se ha convertido en una herramienta poderosa para obtener datos de la web de manera automatizada. Sin embargo, su uso plantea un dilema importante en cuanto a la protección de datos y la privacidad.

Este artículo explora en detalle las implicaciones legales del web scraping y cómo puede ser tanto una herramienta valiosa como un riesgo para la privacidad de datos.


Contenido

Introducción

Desde la extracción de información en sitios web públicos hasta la recopilación de datos personales, las prácticas de web scraping pueden ser un salvavidas para las empresas en términos de análisis de mercado y competencia, pero al mismo tiempo, representan un desafío legal considerable. 

Esto es así porque el incumplimiento de las regulaciones de protección de datos puede resultar en sanciones financieras significativas, lo que plantea la pregunta: ¿es el web scraping una ventaja competitiva o una fuente potencial de multimillonarias multas de privacidad?

Un dilema que parece pasar desapercibido al emprendedor digital, que suele carecer de conocimientos jurídicos sobre su uso legítimo y suele lanzarse a contratar o pagar suscripciones de herramientas de scraping ignorando que su uso podría acarrear multas millonarias. 

En este artículo analizaremos los principios clave de la protección de datos, las regulaciones que lo rodean (como el GDPR y la Ley de Privacidad del Consumidor de California) y te daré algunos consejos para el uso ético y legal del web scraping

Pero, en primer lugar ¿por qué a una empresa le podría interesar utilizar herramientas de scraping?

Veamos porqué.

web scraping

¿Qué es el web scraping y para qué sirve?

Definición de Web Scraping

El web scraping es un proceso de recopilación de datos de sitios web de forma automática basado en la extracción de información presente en la estructura de las páginas web a través de técnicas de crawling, siendo así en una herramienta valiosa para obtener datos de forma eficiente y rápida.

Web scraping o raspado web es una técnica utilizada mediante programas de software para extraer información de sitios web. Usualmente, estos programas simulan la navegación de un humano en la World Wide Web ya sea utilizando el protocolo HTTP manualmente, o incrustando un navegador en una aplicación (Fuente: Wikipedia).


No obstante, si esta definición no te ha quedado lo suficientemente clara, podemos resumirla en: descargarse archivos de datos de internet (que podrán ser o no datos personales como nombre, apellidos, correo, lista de precios, etc) con herramientas dedicadas, extensiones de navegador o aplicaciones de inteligencia artificial. 

Una práctica informática habitual, y de acuerdo con los tribunales, legal, tan sólo cuando se hace dentro del marco jurídico correspondiente.

Por ejemplo, ¿Alguna vez has deseado comparar los precios de diferentes sitios web al mismo tiempo o recopilar automáticamente una serie de publicaciones de tu blog favorito?

Todo esto es factible gracias al "web scraping".

La mayoría de los servicios de comparación de precios emplean scrapers web para recopilar información sobre los precios de diversas tiendas en línea. Un caso común es Google, que regularmente realiza "web scraping" o rastreo de la web para indexar sitios web.


¿Cómo funciona el Web Scraping?

El proceso esencial del web scraping se desglosa en unos simples pasos:

  1. 1
    Definir las direcciones web (URLs) de los sitios y las páginas que deseas scrapear. 
  2. 2
    Realizar una solicitud HTML a las URLs (en otras palabras, "visitar" las páginas).
  3. 3
    Emplear herramientas de localización, como expresiones regulares, para extraer la información específica del código HTML.
  4. 4
    Almacenar los datos en un formato estructurado, como CSV o JSON, para su posterior utilización.

Estadísticas sobre Web Scraping

estadíticas sobre web scraping

Las estadísticas elaboradas por Datahut apuntan los principales usos empresariales del web scraping hoy en día y que pueden resumirse en: 

Uso Empresarial: (1) Comercio electrónico (48%); (2) Contratación (20%); (3) Viajes (17%); (4) Inmobiliario (6%); (5) Investigación (5%); (6) Otros (4%).

Uso particular: (1) Contenidos (38,.2%); (2) Investigación (25.9%); (3) Contactos (19.1%); (4) Precios (16.1%); (5) Clima

¿Qué puedo hacer con web scraping?

Usos del Web Scraping

El web scraping puede ofrecer una ventaja competitiva significativa si se utiliza correctamente.

Algo que por otra parte, y lamentablemente, no es tan habitual.

Algunos de los usos más comunes del web scraping o raspado web incluyen:

  1. Análisis de Mercado: Permite recopilar datos sobre productos, precios y tendencias del mercado.
  2. Monitorización de Competidores: Ayuda a seguir de cerca las actividades y estrategias de la competencia en línea.
  3. Generación de Contenido: Puede utilizarse para obtener datos e información para la creación de contenido en blogs y sitios web.
  4. Investigación y Análisis de Datos: Facilita la obtención de datos para investigaciones científicas y análisis de big data.
  5. Recopilación de Datos de Productos: Ideal para rastrear los precios y la disponibilidad de productos en línea.
  6. Seguimiento de Noticias y Redes Sociales: Facilita el seguimiento de noticias y tendencias en las redes sociales.
  7. Análisis de Opiniones de los Consumidores: Permite el análisis de opiniones y reseñas de productos para tomar decisiones informadas.
  8. Generación de Leads: Ayuda en la generación de prospectos y clientes potenciales a través de la recopilación de información de contacto.

Web scraping para captar leads: un riesgo legal que pasa inadvertido

Este último caso de uso, el de la captación de potenciales clientes, es uno de los más utilizados en el sector del marketing digital y también, de los más problemáticos y sancionados.

Así, no es raro encontrar reclamos por los cuales herramientas que podemos contratar por suscripción mensual nos prometen, por ejemplo, y entre otras características, sacar datos personales como el nombre, apellidos y correo electrónico de potenciales clientes de bases de datos públicas, Google Maps o redes sociales como Instagram, LinkedIn o TikTok, bajo la promesa de poder así realizar exitosas campañas de email marketing closing de ventas

web scraping
Ejemplo de ello son las llamadas campañas de "cold emailing" o "correos en frío", por las cuales una empresa envía correos comerciales masivos a las direcciones de correo electrónico de "potenciales interesados" (leads). Datos normalmente obtenidas a través de la compra legítima de bases de datos (práctica legal), y cada vez más habitualmente, por la extracción mediante web scraping de estos datos (práctica legal), para el posterior envío de comunicaciones comerciales o de cierre de ventas no consentidas ni previamente autorizadas (práctica ilegal y sancionable con multas millonarias).


Todo bajo el burdo argumento de que "los datos son públicos", y "se puede hacer con ellos lo que uno quiera". 

Parece el negocio perfecto: mientras unos pagan por publicidad o ponen esfuerzo, habilidad y creatividad por captar clientes, estas empresas te "llenan" la base de datos, de "leads cualificados" cuyos datos están públicos en Internet y redes sociales.

Pero... 

Si es una práctica dudosa, ¿por qué se utiliza?

Lo de siempre.

Existen muchos pretextos del estilo "todo el mundo lo hace", "si no fuera legal no existirían estas herramientas", "siempre se ha hecho así", "A nadie le pasa nada", etc. 

Y por ello, cada vez encontramos un mayor número de empresas digitales que ejecutan estas prácticas sin saber que se juegan multas millonarias.

No por hacer web scraping "per se", sino por el uso que hacen de los datos captados, por el incumplimiento de los términos de uso de los sitios web scrapeados, o por la saturación de los servidores de las webs que scrapean, entre otras diversas causas.

Una práctica poco habitual pero recomendable para cualquier empresa o profesional que desee utilizar herramientas de web scraping es leer los Términos de Uso de las Webs que scrapean, así como los Términos y Condiciones de uso de las herramientas de scraping que contratanlas cuales, en su mayoría, ya advierten bajo la común cláusula de exoneración de responsabilidad, que el uso de los datos scrapeados deberá someterse al cumplimiento normativo que corresponda, y entre otros, por ser los casos más habituales, las normativas sobre derechos de autor y propiedad intelectual, o la protección de datos de carácter personal. Disclaimers, por otro lado, de dudosa aplicación práctica cuando van acompañados de publicidades engañosas, algo por otra parte, también habitual.

¿Es legal hacer web scraping?

Respuesta corta: Depende.

Respuesta larga: Sí, si cumples las diferentes normativas sectoriales de aplicación.

Caso contrario, podrías, como ya le ha ocurrido a cientos de empresas en el pasado, enfrentar multas millonarias aunque seas un pequeño autónomo o PYME trasteando con herramientas de scraping o inteligencia de datos.

Aunque dicha práctica ha tenido implicaciones en otras áreas del derecho como la propiedad intelectual o competencia desleal como puede observarse en la Sentencia  del Tribunal Supremo de 9 de octubre de 2012 número 572/2012 (Ryanair/Atrápalo), en este artículo nos centraremos únicamente en las implicaciones materia de protección de datos.


Web Scraping y Protección de Datos: una aproximación legal para evitar sanciones.

Las regulaciones de protección de datos, como el Reglamento General de Protección de Datos (GDPR) en Europa y la Ley de Privacidad del Consumidor de California (CCPA), han aumentado la vigilancia en torno a la privacidad de los datos. 

Así, cualquier uso incorrecto del web scraping que involucre la recopilación de datos personales sin consentimiento puede llevar a graves consecuencias legales.

Considerando lo anterior, al evaluar las bases legales para el procesamiento de datos mediante técnicas de web scraping, las opciones para no incurrir en responsabilidades podrían reducirse a: 

  1. 1
    Si se trata de un procesamiento necesario para cumplir una misión de interés público o
  2. 2
    Si se puede argumentar un interés legítimo por parte del responsable del procesamiento o de un tercero. En la mayoría de los casos, otras bases legales, como el consentimiento de los interesados, no son aplicables, posibles, ni prácticas
Un caso especialmente polémico de web scraping y protección de datos es el conocido como social intelligence o crawling de emociones y/o opiniones en red, también llamado Sentiment Analytics. Se trata del proceso por el que es posible determinar un estado de opinión mediante el análisis de datos extraídos de diferentes fuentes. A menudo, se hace sobre datos que se recaban de Internet (e. g. de redes sociales) y, en ocasiones, sobre individuos concretos a efectos de análisis de riesgos, entre otros fines. Ejemplo de ello es el caso de Equifax mencionado más abajo.

Web Scraping cuando se pretende usar los datos personales con fines comerciales

Es importante tener en cuenta que cuando el propósito principal del procesamiento es comercial (ej. captar correos para hacer email marketing), es improbable que sea compatible con una misión de interés público. 

Sin embargo, existen casos excepcionales en los que un enfoque comercial puede coexistir con una misión de interés público, como en el marco de una concesión pública.

Es relevante recordar que, para que el procesamiento sea "necesario" para cumplir una misión de interés público, debe estar respaldado por una ley que establezca dicha misión. Esto significa que solo en situaciones en las que una autoridad pública tenga la tarea de supervisar la red o exista una habilitación legal para que el sector privado realice dicho control, se podría considerar la legitimidad de dicho procesamiento de datos personales. Por otro lado, si considerar estos tratamientos como "necesarios" para una misión de interés público va en contra del principio de legalidad, lo mismo podría ocurrir si se basan en el interés legítimo del responsable o un potencial cliente al que se le ofrecerá acceso a esa información.


Visto lo anterior, se debe tener en cuenta que, según el Considerando 50 del RGPD, cualquier procesamiento basado en el interés legítimo del responsable o de un tercero debe prevalecer sobre los derechos y libertades del interesado. Por lo tanto, se debe evaluar caso por caso si el beneficio potencial supera la transgresión de la privacidad de los interesados y si es una medida proporcionada.

En resumen, a pesar de que se deben analizar individualmente, los tratamientos de datos mediante técnicas de web scraping difícilmente encontrarán una base legal adecuada en el Artículo 6 del RGPD.

Incluso si se considera un interés legítimo en circunstancias excepcionales, cumplir con otras obligaciones y principios de protección de datos, como el deber de informar, podría resultar un obstáculo insuperable.

En definitiva, los casos en los que estos tratamientos son conformes con las normas de protección de datos serán muy limitados.

AEPD web scraping

¿Qué dice la AEPD sobre el Web Scraping?

Veamos algunos ejemplos sobre lo que dicen las autoridades de tratamiento de datos procedentes de fuentes accesibles al público, hayan sido estos datos publicados voluntariamente, o por imposición legal:


Informe 136/2018 de la Agencia Española de Protección de Datos (AEPD), relativo a la información publicada en el Boletín Oficial de la Propiedad Industrial.

Recién publicado el RGPD, en septiembre de 2018, la AEPD informó al Colegio de Agentes de la Propiedad Industrial de que el RGPD les impedía utilizar los datos identificativos de personas publicados en el Boletín Oficial de la Propiedad Industrial (BOPI) para ofrecer sus servicios profesionales.

Tal y como expuso la AEPD, la normativa del BOPI impone la publicación obligatoria de estos datos (que no son, por tanto, voluntariamente publicados por el interesado - aunque lo mismo daría-) para que, por ejemplo, quienes se sientan perjudicados por el derecho que se pretende registrar, puedan oponerse.

El tratamiento secundario de estos agentes (en este caso, recogida de los datos del BOPI y envío de comunicaciones comerciales) no podría ampararse ni en el interés legítimo de promover sus servicios profesionales ni en una pretendida relación de compatibilidad entre el tratamiento inicial (el del BOPI) y el secundario (el uso comercial del Agente que quería promocionar su actividad profesional frente a las direcciones de correo hechas públicas).

Un caso similar, pudo verse con el programa de ayudas del Kit Digital, de los Fondos Europeos Next Generation, donde, los Agentes Digitalizadores (empresas y profesionales) acababan con sus datos personales, incluídos nombre, apellidos y correo electrónico, publicados en el Catálogo de Agentes Digitalizadores. Provocando así, tras tareas de web scraping, que cientos de empresas se hayan dedicado con posterioridad a bombardear con ofertas comerciales a toda la base de datos publicada por Acelera Pyme, dependiente de Red.es.


Informe 2020/0089 de la Agencia Española de Protección de Datos (AEPD), sobre el Código de Conducta de ASEDIE.

ASEDIE (La Asociación Multisectorial de la Información) pretendía que el hecho de captar los datos de fuentes accesibles al público se reconociera como válida.

Sin embargo la AEPD tenía otra opinión:

"La circunstancia de que los datos obren en fuentes públicas puede ser considerada como uno de los elementos a valorar al realizar la correspondiente ponderación, tal y como recuerda el Dictamen 6/2014 del grupo de trabajo del art. 29 sobre el concepto de interés legítimo, que cita como uno de los factores clave que deben considerarse al efectuar la “prueba de sopesamiento” el que los datos consten en fuentes accesibles al público o si los datos se han revelado al público o se han puesto de otra manera a disposición de un gran número de personas, pero que deberá ponderarse con el resto de circunstancias concurrentes y que en ningún caso exime del cumplimiento del resto de principios de la normativa de protección de datos de carácter personal (...)"

A lo que añade que: 

La LOPD regula la cesión o comunicación de datos en su artículo 11, señalando, en su primer párrafo, que para dicha cesión o comunicación a un tercero se requerirá el previo consentimiento del interesado. Ahora bien, dicho consentimiento no será preciso, entre otros supuestos, “cuando se trate de datos recogidos de fuentes accesibles al público”. Esta circunstancia tan sólo hace referencia a la “licitud” del tratamiento: esto es, a que exista consentimiento –u otra circunstancia establecida en la LOPD que permita al responsable del tratamiento prescindir del mismo-. Ello es tan sólo uno de los requisitos para entender que el 97 Gabinete Jurídico tratamiento (la cesión) de los datos es conforme a la legislación sobre protección de datos. En el presente caso, aun cuando hipotéticamente pudiera considerarse que nos encontramos ante datos recogidos de fuentes accesibles al público, no hay que obviar que el principio de calidad de los datos, regulados en el artículo 4 LOPD, se aplica igualmente a todo tratamiento de datos (lo que incluye la cesión o comunicación de datos). Así, para que un tratamiento de datos sea conforme a la normativa de protección de datos, es necesario no sólo que exista consentimiento, o se pueda prescindir de él en los casos previstos en la LOPD, sino además que los datos sometidos a tratamiento sean “adecuados, pertinentes y no excesivos en relación con el ámbito las finalidades determinadas, explícitas y legítimas para las que se hayan obtenido”. Y tampoco podrán utilizarse con finalidades incompatibles con aquellas para las que los datos hubieran sido recogidos.
sanciones AEPD

Sanciones por hacer Web Scraping de manera irregular

Procedimiento Sancionador PS/00240/2019, caso EQUIFAX IBÉRICA, SL

Equifax Inc. es un buró de crédito estadounidense, una de las tres agencias de información crediticia de consumidores más grandes, junto con Experian y TransUnion que recopila y agrega información sobre más de 800 millones de consumidores individuales y más de 88 millones de empresas en todo el mundo.

Su rama española, EQUIFAX IBÉRICA, SL, usaba web scraping para extraer datos personales de diversas fuentes, como registros, boletines y publicaciones, cada uno con sus propios fines. Después, empleaba estos datos como criterio para evaluar la solvencia crediticia de las personas.

Aunque la sanción inicial propuesta ascendía a 9 millones de euros, la repercusión principal no fue la multa, sino la obligación de eliminar todos los datos obtenidos y tratados de manera indebida.

Cabe destacar si Equifax notificó a todas las organizaciones que accedieron a su archivo ilegal la necesidad de eliminar, de igual forma, esos datos y las inferencias extraídas de ellos, como lo establece el artículo 19 del Reglamento General de Protección de Datos (RGPD).


Obligación está que, por ejemplo, también afectaría a cualquier profesional o empresa digital que use herramientas de web scraping para captar leads y nutrir sus bases de datos; como también a las propias empresas cuyo objeto comercial sea poner a la venta herramientas que prometen poder captar estos datos sin las repercusiones legales mencionadas. 

Esto es, si tu negocio consiste en que tus clientes hagan web scraping de datos públicos, para su posterior contacto comercial no autorizado ni consentido, no sólo te juegas las sanciones económicas, sino que también tendrías obligación de comunicar a todos tus clientes esta garrafal metedura de pata, comunicarles que probablemente puedan incurrir también en responsabilidades legales y deben proceder a regularizar su situación, y que además, todos los leads captados a través de este servicio deben ser eliminados. Vamos, que por desconocer la normativa de protección de datos, podrías hundir tu empresa, y probablemente unas cuantas más... Cuestión de tiempo.


En este sentido, la AEPD apuntó en este procedimiento sancionador que:

“La circunstancia de que los datos personales se hubieran obtenido de una fuente de acceso público definida en el artículo 3. j) LOPD[99] no puede ya, por ese mero hecho, constituir el fundamento jurídico de un tratamiento de datos personales (…) sino simplemente, como un elemento más de ponderación en la evaluación de interés legítimo”.


Caso Clear View.AI

Clearview AI es una empresa estadounidense de reconocimiento facial que ha recopilado una base de datos con imágenes públicas que terceras personas publican en sus redes sociales. En total, Clearview AI cuenta actualmente con una base de datos de más de 10 billones de imágenes.

La Information Commisioner’s Office (ICO) del Reino Unido hizo propuesta de sanción de 17 millones de libras debido a sus “graves violaciones” a la ley de protección de datos, aunque la multa acabó siendo de 7 millones.

El Garante de Protección de Datos Italiano, también impuso una sanción, en este caso de 20 millones de euros a Clearview.AI. Aduciendo que: “También las denominadas técnicas OSINT (open-source intelligence), que consisten en la recopilación y el tratamiento de información, incluidos los datos personales, a partir de fuentes de libre acceso, como Internet y los datos públicos, sólo pueden llevarse a cabo con una base jurídica adecuada”. (Apartado 3.4 de la resolución). 


Caso OpenAI, Chat GPT (Italia)

Por motivos similares, el mismo Garante Italiano de protección de datos hizo propuesta de sanción de 20 millones de euros para OpenAI, y acabó por prohibir el uso de esta herramienta en Italia por infringir el GDPR.


Caso «Google Spain» (C‑131/12)

El propio Tribunal de Justicia de la Unión Europea (TJUE), incluyó un párrafo muy interesante sobre la captación de datos de fuentes públicas y su posterior tratamiento: 

«Por último, el que los editores de sitios de Internet tengan la facultad de indicar a los gestores de los motores de búsqueda, con la ayuda, concretamente, de protocolos de exclusión como «robot.txt», o de códigos como «noindex» o «noarchive», que desean que una información determinada, publicada en su sitio, sea excluida total o parcialmente de los índices automáticos de los motores, no significa que la falta de tal indicación por parte de estos editores libere al gestor de un motor de búsqueda de su responsabilidad por el tratamiento de datos personales que lleva a cabo en el marco de la actividad de dicho motor.«


El spam como negocio: 360 euros por enviar propaganda a 50.000 periodistas

Como apunta el medio eldiario.es, en el mercado hay varias plataformas que ofrecen a diferentes empresas, agencias de comunicación, instituciones u organizaciones de todo tipo, distribuir sus comunicados a un compilado de listas de correo electrónico más o menos amplio según el precio. 

Por ejemplo, Sprai tiene diferentes opciones que van desde los 1.000 destinatarios hasta los 7.000, e incluso ofrecen una opción más personalizada y de mayor alcance. Comunicae tiene un pack completo que promete la publicación de notas de prensa en medios como EFE, Europa Press, Diario Siglo XXI y El Mundo Financiero: 359,95 euros por un envío a 50.000 receptores.

El resultado, como apunta el artículo enlazado, a veces, no siempre es el buscado a la hora de contratar estas plataformas. Y así, una posible sanción afectaría tanto a la compañía que quiere enviar las notas como a la que las distribuye.

Si no cumplen la normativa –no hay interés legítimo y no ofrecen la posibilidad de eliminar la suscripción–, el usuario afectado puede emitir una queja e incluso acudir a la Agencia Española de Protección de Datos (AEPD), que en última instancia podría imponer multas de miles a cientos de miles de euros en función de la gravedad de las irregularidades. 


Multa a Meta por no evitar el “data scraping” de sus usuarios

En enero de 2023, la Autoridad de Control de protección de datos de Irlanda (DPCI), impuso a Meta una multa de 390 millones de euros, tras comprobar que más de 530 millones de usuarios de Facebook, encontraban expuestos sus datos en internet (incluyéndose entre los mismos, las direcciones de correo electrónico y números de teléfonos móviles).

La DPCI entendió que se vulneraron los artículos 25.1 y 25.2 del RGPD, ya que éstos obligan a todo responsable del tratamiento a aplicar medidas adecuadas, en cumplimiento de los principios de privacidad por diseño y por defecto.

Con esta sanción, es la tercera vez que la DPCI impone una multa cuantiosa a la compañía por un total de más de 900 millones de euros en tan sólo 18 meses.

Nota para los "marketers": una conclusión lógica de esta resolución sancionadora para Meta es que, si a la propia compañía de Zuckerberg le imponen una multa de 390 millones de euros por no impedir el web scraping en sus plataformas, no parece muy lógico que, las herramientas que han usado esos datos scrapeados así como los clientes de estas herramientas de scraping, puedan usar estos datos. Lo que pone de manifiesto de nuevo, a falta de un interés legítimo, la ilegalidad del uso no consentido ni autorizado de los datos personales de usuarios disponibles en fuentes públicas como una red social. Sin perjuicio de los matices apuntados por la AEPD en relación con los datos de empleados de una compañía.
riesgos legales web scraping

¿Qué consecuencias legales tiene hacer web scraping?

Además de las implicaciones en materia de propiedad intelectual o protección de datos (entre otros) que puede implicar el uso de técnicas de web scraping, es interesante comentar que no son pocas las resoluciones judiciales que se han puesto del lado de las empresas scrapeadas que han aducido diferentes tipos de daños o infracciones, desde la vulneración de los términos de uso de sus webs, hasta el daño causado por la saturación de los recursos de sus servidores. 

Veamos algunos casos internacionales:

Europa y Reino Unido

Además de los casos comentados, todos de ámbito europeo por afectar a datos personales de ciudadanos de la Unión, conviene apuntar que recientemente, la Unión Europea ha aprobado la Ley de Servicios Digitales, que tiene como objetivo unificar a todos los países de la UE bajo un Mercado Único Digital que comparte las mismas regulaciones. 

Según el Artículo 3 y 4 de esta regulación, la "reproducción de contenido de acceso público" no es ilegal. 

No obstante, esta regulación aborda el tema más desde el punto de vista de la propiedad intelectual y, cabe mencionar, que cualquier web scraping que involucre datos personales sería ilegal en los términos ya mencionados debido al Reglamento General de Protección de Datos (GDPR). 

Aparte de eso, la situación es similar a la de los mercados de Estados Unidos que analizaremos a continuación.


Estados Unidos

En Estados Unidos, no existen leyes federales en contra del web scraping siempre y cuando los datos scrapeados estén públicamente disponibles y la actividad de scraping no perjudique al sitio web que está siendo scrapeado. 

No obstante, existe una ley específica desde 2016 que prohíbe la compra de un número excesivo de boletos de forma simultánea utilizando bots con el fin de prevenir la creación de mercados negros.


Caso eBay vs. Bidger's Edge

Uno de los primeros casos públicamente conocidos de web scraping fue presentado por eBay contra Bidger's Edge, un sitio web de comparación de precios en línea para consumidores en 2000. 

La orden judicial impidió a Bidder's Edge hacer scraping del contenido de eBay. El argumento principal con el que eBay ganó el caso fue que Bidder's Edge estaba sobrecargando su sistema y que otros que siguieran a Bidder's Edge podrían causar más daño al sistema de eBay.


Caso Facebook vs. Power Ventures

En 2009, Facebook demandó a Power Ventures por hacer scraping del contenido que sus usuarios subieron a sus sitios web. Este caso estableció un precedente en el que el web scraping se evaluó desde el punto de vista de la propiedad intelectual. El tribunal falló a favor de Facebook y ordenó una sanción económica contra Power Ventures.


Caso LinkedIn vs. hiQ Labs

LinkedIn demandó a hiQ Labs, una empresa de análisis de datos que hacía scraping de perfiles de acceso público para su análisis de habilidades profesionales. El caso fue revisado por varios tribunales, incluido el Tribunal Supremo (USA), y se determinó que hacer scraping de datos que son públicamente accesibles en Internet es legal.


China

Dentro de las fuentes consultadas, y a falta de un estudio pormenorizado de la cuestión, parece que en China tampoco existe una regulación directa contra el web scraping.

Al igual que en otros países, parece que el web scraping se utiliza en China para casos de uso empresarial, y no es legal hacer scraping y procesar datos personales.

test del eneagrama

Consejos para el Uso Ético y Legal del Web Scraping

Legalidad y ética del web scraping: lo que debes saber

Desde una perspectiva legal, es fundamental que las empresas consideren si su actividad de web scraping puede dañar el sitio web que están scrapeando. 

Si el scraping es excesivamente agresivo y puede interrumpir los servicios del sitio web, o si se utilizan los datos scrapeados de manera que dupliquen la actividad del sitio, el sitio web podría tener motivos para presentar una demanda, incluso en ausencia de regulaciones específicas.


Desde un punto de vista ético, es importante reconocer que el web scraping se ha convertido en una herramienta valiosa para fines empresariales.

Y por ello, existen prácticas técnicas que pueden reducir la carga en el sitio web scrapeado, tales como:

  • Utilizar las APIs del sitio web cuando estén disponibles.
  • Integrar web scrapers con servidores proxy.
  • Emplear navegadores sin interfaz gráfica (headless browsers).


Para obtener más información sobre cómo optimizar tus proyectos de web scraping, te recomendamos que busques asesoría técnica y legal especializada.


En cuanto a la parte técnica, la clave reside en encontrar un web crawler de confianza o asegurarse de que tus recursos técnicos sigan estas mejores prácticas. 

Esto te permitirá defender la ética de tu web scraping para fines empresariales, sin perjuicio de que mi recomendación siempre pasará por que todos tus procesos de web scraping sean auditados, junto con el resto de tus prácticas comerciales, por juristas y abogados especializados.

Lo que Debes Hacer:

  • Minimizar Datos Personales: siempre recopila la menor cantidad de datos necesarios y evita información sensible siempre que sea posible. Esto es, realiza el scraping solo de los datos necesarios, personalizando tu tecnología de web crawler para tu caso de negocio específico. Esto minimizará el riesgo de sobrecargar el sitio web scrapeado con tráfico no deseado. 
  • Seguridad de Datos: Protege los datos que recopilas y almacénalos de manera segura para evitar filtraciones o brechas. 
  • Respetar los Términos de Servicio: Verifica y respeta los términos de servicio de los sitios web que estás scrapeando. Algunos sitios pueden prohibir explícitamente el web scrapingSiempre revisa los términos de uso del sitio web que scrapeas, incluyendo el archivo robot.txt, que establece los permisos del sitio web. Tu solución de web crawling o tus expertos técnicos deben ayudarte a cumplir con estos permisos. Recuerda no obstante, que el Tribunal de Justicia de la Unión Europea en el caso ya mencionado de Google Spain 131/12, ya se encargó de indicar que tanto si la web cuenta o no con esos archivos, el tratamiento de datos y sus garantías, deben ser las apuntadas. 
  • Transparencia y Consentimiento: Asegúrate de que los usuarios estén informados y den su consentimiento antes de recopilar datos personales. Cumplir con las leyes de privacidad es esencial. Sé transparente acerca de tu proceso de web scraping y prepárate para explicarlo a otros para asegurar que tu enfoque sea percibido como legal y ético. Especialmente importante, si lo realizas para captar leads, entre otros: (1) Asegúrate de la legalidad de la captación de las empresas de scraping y firma los acuerdos correspondientes para cubrirte legalmente; (2) Informa a los interesados y obtén su consentimiento; (3) Incluye siempre la posibilidad de desuscribirse en los correos.
  • Cuenta con asesores especializados en cumplimiento normativo:  Si te asocias con un proveedor de servicios de web scraping, asegúrate de aprovechar su experiencia técnica y legal. Por ejemplo, En Busca del Fuego cuenta con una red de asesores expertos en legalidad digital internacional, y además de asesorar atendiendo a cada caso en concreto, asignamos de ser necesario un oficial de cumplimiento a nuestros clientes de consultoría para responder a cualquier pregunta relacionada con los procesos legales del web scraping, privacidad, o canal de denuncias entre otros.

Lo que Debes Evitar:

  • No sobrecargues el sitio web con extracciones excesivas y frecuentes, ya que esto aumenta la probabilidad de que tu crawler sea bloqueado.
  • No recopiles información personal identificable a menos que cuentes con permiso a través del archivo robot.txt, y en ese caso, enmascara los datos para limitar la exposición durante el procesamiento. Recuerda lo comentado por el TJUE.
  • No compartas públicamente los datos scrapeados. Asegúrate de almacenarlos de forma segura, al igual que lo harías con los datos de tu empresa, ya que su uso indebido podría tener consecuencias inesperadas si se filtran, además de graves consecuencias patrimoniales tanto en forma de sanciones como de indemnizaciones de daños y perjuicios.
  • Comenzar campañas de marketing o empresa sin pensar. Esto es, empezar a utilizar herramientas tecnológicas sin asesorarte previamente sobre la necesidad de realizar adecuaciones normativas, evaluaciones de impacto sobre la protección de datos, o protocolos de compliance, entre otros.

Conclusión

¿Qué es el Web scraping, requisitos y régimen legal?

El web scraping es una herramienta valiosa para la obtención de datos, pero ya ejerzas tu actividad en Estados Unidos, Reino Unido, China o Europa, conlleva responsabilidades significativas en términos de propiedad intelectual, protección de datos y privacidad así como, potencialmente, importantes responsabilidades civiles por daños.

Y ello, sin perjuicio de otras responsabilidades legales. 

Comprender las implicaciones jurídicas y adoptar las mejores prácticas es esencial para que las empresas aprovechen al máximo el web scraping sin arriesgar su reputación ni su sostenibilidad económica, la cual podría verse en riesgo ante las cuantiosas sanciones, o por una fundada demanda judicial.

En corolario, desde una perspectiva de protección de datos, el aspecto fundamental se centra en si el procesamiento de información personal recolectada de esta manera cumple con las normas legales.

Esto implica determinar si se ajusta a los principios y requisitos de legitimidad, proporcionar información al individuo u obtener su consentimiento, según corresponda. Estos requisitos están estipulados en el Reglamento General de Protección de Datos (RGPD) y/o en las regulaciones locales aplicables en España, particularmente en la Ley Orgánica 3/2018 del 5 de diciembre sobre Protección de Datos Personales y Garantía de los Derechos Digitales.

Es importante destacar que la accesibilidad pública de un dato personal, es decir, que esté disponible en internet y pueda ser indexado, tiene un impacto limitado, si es que lo tiene, en la legitimidad de su procesamiento.

Para llevar a cabo cualquier tipo de procesamiento de datos personales, incluso aquellos obtenidos de fuentes públicas, es necesario fundamentarlo en al menos una de las bases legales establecidas en el artículo 6 del RGPD.

En otras palabras, no debemos confundir la "publicidad" de un dato con la "autorización" para su procesamiento.


¿Cómo abordar los riesgos legales del Web Scraping?

Es posible que tras leer este artículo hayas podido detectar que aplicas herramientas o prácticas de captación o tratamiento de datos ilegales, y es posible que, como suele ocurrir, o bien te plantees regularizar (opción recomendada), o (y esta es la opción, lamentablemente, más común) decidas seguir por la vida del emprendimiento y los negocios ignorando la legislación vigente. 

Por supuesto puede que salgas indemne. Aunque me temo, será tan sólo por un tiempo pues como solía repetir mi profesora de Derecho Penal Beatriz Escudero García-Calderón: "Siempre se pilla al infractor. Es sólo cuestión de tiempo". 

Algo que la experiencia como jurista y consultor, me ha demostrado, que es un principio bien cierto.

Por otra parte, mencionar que, evidentemente hay tratamientos unilaterales que podrían llegar a justificarse por interés legítimo.

Pero no te engañes: esto no es lo habitual.

Y en la mayoría de casos, especialmente si haces uso de las que la AEPD denomina "tecnologías innovadoras y/o disruptivas", tendrás un problema de moderado a seriamente grave. Es sólo cuestión de tiempo, y cuanto más pase, peor suele ser el resultado.

Tener unas sólidas bases legales en tu negocio, requiere dedicación.

El compliance, no viene solo.

símbolo de precaución

Ten en cuenta que este artículo tiene fines informativos y no debes tomarlo como asesoramiento legal. Para auditar proyectos de web scraping, te recomendamos que obtengas asesoramiento técnico y jurídico específico.

Fuentes empleadas para el artículo

Sobre el autor: Jorge de los Reyes

Jorge de los Reyes es emprendedor, escritor, inversor, abogado, filántropo y consultor especializado en creación y desarrollo de negocios digitales con impacto social.

¿Dudas? Escríbeme por redes

¿Tienes dudas?, deja un comentario...

  • No tenía ni idea de lo que era el Web Scraping hasta que compramos una formación a un «gurú» que nos lo vendió como la forma «super fácil» y «gratis» de captar leads como alternativa a hacer publicidad en redes.

    Luego empezamos a ver compañeros de la formación a los que empezaron a notificar infracciones justo por lo que comentas en el vídeo…

    Con tu artículo ya, nos queda todo mucho más claro!

    Más de uno, seguro que desearía haberlo leído antes… (no te digo los alumnos de esta formación). A uno le cayeron casi setenta mil euros de multa!

    ¡Lo compartiré!

    Gracias como siempre Jorge, nos ayudas mucho.

    • Gracias por compartir vuestro caso, nos alegra que el artículo te haya resultado útil.

      Sin duda, hay que tener cuidado con este tema. Mucha gente piensa que los correos que están en fuentes accesibles al público se pueden usar para cualquier cosa y… bueno, ya nos has dado otro ejemplo de lo que pasa 🙂

  • {"email":"Email address invalid","url":"Website address invalid","required":"Required field missing"}

    ¿Te ha gustado este artículo?

    PUEDE QUE TAMBIÉN TE GUSTEN ESTOS

    Emprendimiento, Podcast

    Silvia Machado: De Tenerife al Sueño de Hollywood

    Silvia Machado: De Tenerife al Sueño de Hollywood

    Emprendimiento, Marketing, Podcast

    Entrevista con Tony Lewis: Descubre el Apple de WordPress, Thrive Themes

    Entrevista con Tony Lewis: Descubre el Apple de WordPress, Thrive Themes

    Emprendimiento, Podcast

    Tendencias Legales Digitales para Empresas en 2024

    Tendencias Legales Digitales para Empresas en 2024

    ¿Qué incluye una suscripción a En Busca del Fuego?

    • Acceso ilimitado al catálogo de cursos, talleres y certificaciones
    • Recursos descargables, guías y manuales de las lecciones
    • Actualizaciones permanentes
    • Descuentos en servicios y partners
    • Certificados de finalización
    • Acceso a Soporte Prioritario en plataforma, tickets y chat
    >