Ligt web data voor het (sch)rapen?

Na bijna meer dan twee jaar thuisgezeten te hebben, hebben we allemaal terug reiskriebels. We willen een stukje van de wereld zien en liefst zo goedkoop mogelijk. Hiervoor maken we gretig gebruik van websites zoals Skyscanner. Op een presenteerblaadje krijgen we de prijzen van verschillende luchvaartmaatschappijen. Het enige wat we nog moeten doen is kiezen voor het goedkoopste ticket en de valies inpakken.

Websites zoals Skyscanner zorgen ervoor dat je niet zelf op zoek moet gaan naar het meest voordelige alternatief. Handig toch? Maar waar vinden die websites hun data? En is dit wel zo onschuldig als het lijkt?

Hoe werkt het nu precies?

‘Scraping’ is de techniek die bepaalde websites gebruiken om data van andere websites te extraheren (te ‘schrapen’). Vervolgens zullen ze de geschraapte informatie analyseren en gestructureerd weergeven in een eigen databank. Dit gebeurt uiteraard niet handmatig, maar gaat via een data extraction software. Dergelijke web crawlers – zo genoemd omdat de software virtueel ‘kruipt’ tussen de verschillende websites – werken veel sneller en correcter dan mensen ooit zullen kunnen.

En waarom geen API?

Als je een klein beetje thuis bent in de ICT-wereld, maak je misschien direct de link met Application Programming Interfaces (API’s). Veel websites bieden tegenwoordig publieke open API’s aan die het voor de buitenwereld mogelijk maken toegang te krijgen tot hun data. Het specifieke doel hiervan is, net als bij scraping, om de data te hergebruiken. API’s zijn geweldige tools om data te verzamelen, op voorwaarde natuurlijk dat de beoogde website er één aanbiedt.

Belangrijk is om eerst te kijken of er een bruikbare API is, alvorens je andermans website gaat scrapen. Je kan bijvoorbeeld gemakkelijk de API van Twitter gebruiken om een lijst te krijgen van recente Tweets, zodat je zelf niet onnoemelijk veel tijd en energie in opzoekingen moet investeren.

Niettemin zijn API’s niet altijd de handigste oplossing. Websites vragen soms een hoge kostprijs voor het hergebruiken van de aangeboden data. Daarnaast vormt de aanwezigheid van ‘rate limits’ een hinderpaal. Deze limieten worden ingebouwd om het inkomend en uitgaand verkeer naar of van de website te beheren en overbelasting te voorkomen. Een bepaalde API zal bijvoorbeeld een maximum van honderd verzoeken per minuut toestaan. Bij overschrijding van deze limiet, verschijnt een foutmelding.

In bepaalde gevallen is het dus toch handiger om aan scraping te doen.

Waar op letten bij scraping?

Auteursrecht

Aangezien er voor scraping heel wat data nodig is, moet je opletten voor het auteursrecht. Indien de bron-databank een originele structuur heeft, bv. omdat ze een nieuwe selectie van materialen bevat of een speciale ordening heeft, zal deze beschermd worden onder het auteursrecht. Als je daar data uit wilt scrapen, zal je de toestemming nodig hebben van de rechthebbende.

Databankrecht

Zelfs als er geen originele structuur is, kan een databank beschermd worden door een sui-generisrecht. Dit gebeurt als je aantoont dat je substantiële investeringen hebt gedaan voor je databank. Elke vorm van investering komt hiervoor in aanmerking. Het moet niet per se gaan om (enkel) een financiële investering, maar het kan ook gaan om tijd of energie, of een combinatie van deze modaliteiten.

Of een combinatie van auteursrecht en databankrecht

Indien er zowel een originele structuur is als essentiële investeringen zal je beide rechten kunnen cumuleren. Dit betekent dat je als rechthebbende beide rechten kan inroepen ter bescherming.

Als je verzamelde data haalt uit een georganiseerde databank, valt dit onder wettelijke beschermingsmechanismes, en mag je deze dus niet zomaar gaan scrapen.

Maar wat is een georganiseerde databank?

Een georganiseerde databank is er één waarvoor aanzienlijke investeringen zijn gedaan en die up-to-date wordt gehouden. In zo’n geval mag je de data slechts voor ‘normaal gebruik’ opvragen en/of hergebruiken.

Het scrapen van een ‘in kwalitatief of kwantitatief opzicht substantieel deel van de inhoud’ van een databank is bijgevolg geen ‘normaal gebruik’ en is dan ook verboden. Tenzij je uiteraard de voorafgaande toestemming hebt gekregen van de websitehouder. Of sinds de nieuwe Europese richtlijn (EU) 2019/790 kan je ook beroep doen op de tekst- en datamining uitzondering (TDM).

Onder deze richtlijn (de omzetting naar Belgisch recht is nog hangende) is scraping toegelaten, maar slechts onder beperkte voorwaarden. De rechthebbende van de databank kan immers de reproductie en opvraging van zijn databank beperken. Deze beperking moet zo worden opgesteld dat crawlers en bots deze beperking kunnen begrijpen. Websites kunnen daarvoor speciale softwareprogramma’s installeren die aan de bots of crawlers duidelijk maken dat scraping verboden is of slechts mag voor bepaalde categorieën van gegevens.

Deze TDM uitzondering betekent echter niet dat je deze gegevens zomaar mag publiceren of verkopen! Dit is nog steeds onrechtmatig indien je daarmee de rechten van de rechthebbende schendt. Je blijft dus beter nog steeds op je hoede!

Belang van je eigen algemene voorwaarden

Wanneer een databank niet voldoet aan de juiste voorwaarden, zal deze dus niet beschermd worden. Toch zal je ook in dit geval de website niet zomaar mogen scrapen…

In haar arrest van 2015 oordeelde het Hof van Justitie dat prijsvergelijkingssites hun data niet zomaar mogen halen van websites wanneer de algemene voorwaarden het gebruik van deze data verbieden.

Het gevolg van dit arrest is dat als je geen beroep kan doen op het auteurs- of databankrecht, je als websitehouder scraping nog steeds kan verbieden in je eigen algemene voorwaarden.

Je kan bijvoorbeeld volgende bepaling in de algemene voorwaarden opnemen: “Als gebruiker van deze website ga ik ermee akkoord dat het gebruik van geautomatiseerde systemen of software om data aan deze website te onttrekken voor commerciële doeleinden verboden is”.

Niettemin rijst in dit verband meteen de vraag in welke mate een scraper die voorwaarden kent en aanvaardt.

Wat met de GDPR?

Tot nu toe hebben we het enkel nog maar gehad over het scrapen van data die geen persoonsgegevens zijn. Maar wat nu als data van sociale netwerken gescrapet wordt? Dan liggen de zaken natuurlijk anders. Het is immers niet omdat deze informatie beschikbaar is op het internet, dat je deze zomaar mag gebruiken.

Verwerkingsgrond?

De GDPR bevat meerdere regels die scrapen zeer moeilijk kunnen maken. Ten eerste vereist de GDPR een legitieme grondslag voor de verwerking van persoonsgegevens. Een scraper zal dit in de praktijk niet kunnen bewijzen gezien er noch toestemming zal zijn van alle data subjecten, noch sprake zal zijn van een eigen gerechtvaardigd belang.

Voor dit laatste is immers vereist dat de vrijheden van de gebruiker niet zwaarder doorwegen dan het belang van de scraper. Wanneer de scraper louter commerciële doeleinden nastreeft, zal dit alvast niet het geval zijn.

Transparantie?

Daarnaast stelt de GDPR transparantie voorop. Een scraper werkt echter onzichtbaar voor de gebruiker. Het automatisch inzamelen van beschikbare persoonsgegevens zal dus bijgevolg vaak een probleem vormen onder de GDPR.

Dit alles neemt uiteraard niet weg dat je wél aan de slag kan met persoonsgegevens wanneer een sociaalnetwerksite zelf een API aanbiedt. Hier is het uiteraard van belang dat de sociaalnetwerksite de gebruikers in haar privacyverklaring voldoende informeert over de mogelijke doorgifte van persoonsgegevens en waar nodig de toestemming van de betrokkenen vraagt. Verder zal de sociaalnetwerksite een aantal contractuele afspraken maken over de manier waarop de licentienemer met de persoonsgegevens moet omgaan. Het spreekt voor zich dat de ontvanger van de persoonsgegevens op zijn beurt ook de GDPR moet naleven.

Conclusie

Het is duidelijk dat scrapen, vooral op grote schaal of voor economische doeleinden, samen gaat met juridische complicaties en beperkingen. Het is daarom altijd aangeraden om enkele principes in acht te nemen. Is er een API? Gebruik die dan, tenzij de kostprijs te hoog is of rate limits het gebruik beperken. Beperk je in ieder geval tot een redelijke crawlsnelheid om de website niet te overladen met verzoeken.

Lees ook de algemene voorwaarden van de websitehouder erop na. Pas op als de websitehouder een verbod op scraping oplegt of een softwareprogramma gebruikt dat ervoor zorgt dat bots of crawlers geen data op de website mogen hergebruiken. Wil je 100 % zekerheid? Gebruik de data dan enkel met toestemming van de websitehouder.

Let er ook voor op dat bepaalde data auteursrechtelijk beschermd kan zijn. Om dergelijke data te hergebruiken, zal je eerst de nodige licenties moeten bekomen. Houd tot slot ook steeds de GDPR in het achterhoofd!

Zit je met vragen over het gebruik van API’s? Wil je weten of je op een rechtmatige wijze aan scraping doet? Of wil je duidelijke voorwaarden omtrent het hergebruik van data van jouw website? Je kan ons altijd vrijblijvend contacteren via hallo@dejuristen.be.

Geschreven door Judith Fierens, Legal Adviser deJuristen, en Kris Seyen, Partner deJuristen

Is het je na het lezen van onze blog nog steeds niet helemaal duidelijk? Volg dan onderstaand stappenplan.

Ligt web data voor het (sch)rapen?

Hoe werkt het nu precies?

En waarom geen API?

Waar op letten bij scraping?

Auteursrecht

Databankrecht

Of een combinatie van auteursrecht en databankrecht

Maar wat is een georganiseerde databank?

Belang van je eigen algemene voorwaarden

Wat met de GDPR?

Verwerkingsgrond?

Transparantie?

Conclusie

Schrijf je in op onze nieuwsbrief

Je bent succesvol geabonneerd!

Onze diensten

Information Technology

Intellectuele Eigendom

Privacy

e-Compliance