Frauduleuze webwinkels ontdekken vóórdat ze beginnen

Voorspellingen doen op basis van data

De namaakmarkt breidt zich snel uit naar de online wereld. Grote hoeveelheden nep-webwinkels bieden luxe kleding en modeaccessoires aan voor lage prijzen, om vervolgens imitaties van slechte kwaliteit te leveren aan hun klanten, of beter gezegd, slachtoffers. Adidas, Ray-Ban, en Gucci zijn slechts een paar voorbeelden van merkproducten die worden nagemaakt en online verhandeld. Om deze nep-webwinkels tegen te gaan zoeken merkhouders actief het internet af, om vervolgens gevonden nepwinkels te rapporteren en uiteindelijk offline te halen. Dit soort maatregelen zijn reactief van aard: ze treden pas in werking wanneer een nep-webwinkel al online is.

Afstudeerproject

In het kader van mijn afstudeeronderzoek bij SIDN Labs voor mijn studie Computer Science aan de TU Delft richtte ik me op het vinden van mogelijkheden om deze frauduleuze webwinkels te ontdekken vóórdat ze beginnen met de verkoop van goederen. Door te voorspellen of een nieuw geregistreerde domeinnaam zal worden gebruikt om namaakgoederen te verkopen, kunnen er direct preventieve tegenmaatregelen genomen worden. Hierdoor kan de potentiële schade voor de consument beperkt worden.

Aan de hand van zowel registratiegegevens als infrastructuurmetingen van geregistreerde domeinnamen wordt een datamodel gemaakt. Dit model kan vervolgens worden gebruikt om voorspellingen te doen over nieuwe domeinnaamregistraties.

Voorspellingen doen op basis van data

Waar huidige oplossingen zich focussen op het vinden van nep-webwinkels op basis van de inhoud van websites, is de insteek van dit onderzoek om voorspellingen te doen over deze inhoud. Om deze voorspellingen te kunnen doen moet dus gebruik worden gemaakt van data die beschikbaar is vóórdat de website online gaat.

Hergebruik van recent opgeheven domeinnamen

Allereerst kijken we naar informatie afkomstig van de registrant. Naam, adres, telefoonnummer, mailadres en het moment van registratie wordt gebruikt om registranten die nep-webwinkels registreren te profileren. Ook kijken we naar de geschiedenis van de geregistreerde domeinnaam. Het blijkt namelijk dat onlangs verlopen domeinnamen in trek zijn bij nep-webwinkels. Waarschijnlijk probeert men te profiteren van de gunstigere positionering die dit soort domeinnamen hebben in de zoekresultaten van bijvoorbeeld Google. Een gevolg van deze strategie is dat veel nep-webwinkels namen hebben die geen enkel verband hebben met de aangeboden producten. Zo worden schoenen verkocht vanaf een domeinnaam van een voormalige kunstgalerie, en worden broeken aangeboden via de domeinnaam van een voormalige jeu de boules-vereniging.

OpenINTEL gaf inzage in gebruikte webhosting

Naast de informatie van de registrant, speelt ook de gebruikte infrastructuur een belangrijke rol. De registrar die gebruikt is voor de domeinnaamregistratie en de nameservers die gebruikt worden door de domeinnaam zijn bekend bij SIDN. Het adres van de gebruikte webhosting is dat echter niet. Om deze data te bemachtigen gebruikte ik het OpenINTEL-project. OpenINTEL is een active DNS measurement-platform: de staat van grote delen van het Domain Name System, waaronder de .nl-zone, wordt dagelijks opgevraagd en gearchiveerd. Door gebruik te maken van deze dataset kan ook het adres van de webhosting toegevoegd worden aan het datamodel. De gebruikte registrar, nameservers en hostingadressen helpen in kaart te brengen welke infrastructuur in trek is bij nep-webwinkels.

Waarschijnlijk gaat de voorkeur uit naar een groep aanbieders met een aantrekkelijke combinatie van lage kosten, gebruiksgemak en een lakse opstelling ten aanzien van misbruikmeldingen.

Model trainen

De zojuist benoemde gegevens verzamelen we voor een set van domeinnamen die onlangs gebruikt zijn voor nep-webwinkels én voor een set domeinnamen die niet misbruikt zijn. Vervolgens gebruiken we deze gegevens om een voorspellingsmodel te "trainen". Dit doen we door de data te analyseren met een machine-learning algoritme. Het daaruit resulterende model kan gebruikt worden om voorspellingen te doen over nieuwe domeinnamen. Omdat het mogelijk is dat de registrantprofielen en de gekozen infrastructuur die gebruikt wordt door nep-webwinkels verandert, ‘trainen’ we het model regelmatig opnieuw met de meest recente data. Domeinnamen waarvan correct voorspeld is dat ze voor nep-webwinkels gebruikt worden, kunnen gebruikt worden als deel van een nieuwe trainingset. Op deze manier is het model in staat om nieuwe trends en ontwikkelingen te volgen. Tegelijkertijd wordt er alleen getraind met domeinnamen die in de laatste 2 maanden geregistreerd zijn. Op deze manier maken registrantprofielen en infrastructuurvoorkeuren die niet meer gebruikt worden door nep-webwinkels, niet onnodig lang deel uit van het model.

Evaluatie

Om de precisie van de voorspellingen te testen hebben we alle registraties in de eerste 6 maanden van 2018 aan het model voorgelegd. Bij dit experiment werd het model elke dag opnieuw getraind met de nieuwste informatie. 85% van alle domeinnamen die als nep-webwinkel werden aangemerkt door het model lijkt inderdaad namaakproducten aan te bieden. Voor 12% van de domeinnamen kon niet genoeg data verzameld worden om vast te stellen waarvoor deze domeinnaam werd gebruikt. Voor 3% kon worden vastgesteld dat de voorspelling onjuist was: deze domeinen hadden geen enkele relatie met nep-webwinkels.

Bevindingen

Met de beschreven procedure hebben we alle registraties tussen april 2016 en augustus 2018 geanalyseerd. Dit leverde een dataset van ruim 30.000 nep-webwinkels op. Verdere analyse van deze dataset leidde tot een aantal interessante bevindingen. Allereerst konden we 12 campagnes ontdekken die verantwoordelijk zijn voor twee derde van alle nep-webwinkelregistraties. Met campagnes bedoelen we reeksen van registraties die een vaste procedure volgen om NAW-gegevens te genereren die benodigd zijn voor de domeinnaamregistratie. 

Gecoördineerde operatie

De meerderheid van de domeinregistraties lijkt deel te zijn van een gecoördineerde operatie. Zo komt het meerdere keren voor dat een campagne abrupt van registrar verandert of een nieuwe hosting provider kiest. Verder lijkt een deel van de registraties geautomatiseerd: grote hoeveelheden registraties vonden plaats rond een vast tijdstip. Tegelijkertijd zitten er een hoop spel- en typefouten in de informatie die gebruikt wordt om domeinnamen te registreren. Dit wekt de suggestie dat deze informatie met de hand wordt ingevoerd. 

Activiteit

Als we kijken hoeveel domeinnamen voor nep-webwinkels er per dag worden geregistreerd, valt op dat nep-webwinkels voornamelijk doordeweeks worden geregistreerd, net als de meeste legitieme domeinnamen. Maar, als we kijken naar op welke uren de meeste registraties plaatsvinden, lijken de meeste domeinnaam registraties tussen middernacht en 10 uur 's ochtends (UTC) gedaan te worden. Dit wekt de indruk dat deze domeinnamen niet zijn geregistreerd vanuit een Europees land, maar in een land met een tijdzone waarin deze activiteit beter past. China Standard Time (UTC+8) is een mogelijke tijdzone: registraties worden dan gedaan tussen 8 uur 's ochtends en 6 uur 's avonds. Als we verder kijken naar het aantal registraties per week valt op dat er 1 week per jaar is waarin bijna geen domeinnaamregistraties voor nep-webwinkels worden gedaan. Deze week valt samen met het Lentefestival, ook wel bekend als Chinees Nieuwjaar.

Toekomst

Met deze voorspellingsmethode hebben we een middel in handen waarmee we nep-webwinkels voortijdig kunnen identificeren. De huidige precisie van 85% is goed. Dat gezegd hebbende, is er nog wel ruimte voor verbetering. De gevonden campagnes kunnen dienen als inspiratie voor het ontwerpen van nieuwe features. Tegelijkertijd is het interessant om te onderzoeken of deze aanpak ook ingezet kan worden om andere vormen van domeinnaammisbruik tegen te gaan.

Download de complete scriptie 'Proactive Domain Abuse Warning and Notification System'