Statistiek van de maand: gedetecteerde nepwebwinkels

Ons zelflerend systeem wordt steeds slimmer

Nepwebwinkels verkopen luxeartikelen zoals schoenen en tassen tegen lage prijzen. Helaas ontvangen consumenten na bestelling vaak helemaal niets of namaakartikelen van slechte kwaliteit. Wij detecteren al een paar jaar proactief nepwebwinkels, omdat we willen voorkomen dat consumenten worden opgelicht en hierdoor hun vertrouwen in .nl afneemt. In deze blogpost laten we zien hoeveel verdachte webshops we hebben gedetecteerd met FaDe, het nieuwe zelflerende systeem dat we bij SIDN Labs ontwikkelden. Ook proberen we te verklaren waarom we in november veel meer verdachte domeinen vinden.

Op weg naar een veiliger internet met machine learning Fakewebshops veel sneller offline

Labs ontwikkelt robuuste detector

Eerder schreven we over onze plannen voor een nieuw, robuust detectiesysteem op basis van machine learning. Dit systeem hebben we afgelopen zomer geïmplementeerd en zoekt nu dagelijks naar verdachte webwinkels. Voordat we ingaan op de effectiviteit van deze detector, vertellen we kort hoe het systeem werkt. De detector heet FaDe (Fake Detector) en controleert iedere ochtend domeinnamen (linksonder in Figuur 1). FaDe bepaalt of een domein verdacht is door te kijken naar 10 eigenschappen, waaronder de registrar en het netwerk waar de website gehost is. De anti-abuse-experts van ons supportteam beoordelen vervolgens alle verdachte domeinnamen (boven in Figuur 1). Ook proberen de experts daadwerkelijke nepwebwinkels, zogenaamde ‘true positives’ samen met onze registrars offline te halen (dit blog beschrijft de interventies die we ondernemen). Tenslotte voeren we de beoordelingen van onze anti-abuse-experts terug in FaDe, waardoor het systeem steeds beter wordt (rechtsonder in Figuur 1).

Figuur 1: Proces voor continue en robuuste detectie

Wat is de kwaliteit van de detector?

FaDe draait nu 3 maanden. Een goed moment om de effectiviteit te evalueren. Figuur 2 laat zien hoeveel verdachte domeinnamen FaDe heeft gedetecteerd. Dat waren er 480, 406 en 2.263 in respectievelijk september, oktober en november (t/m 22 november). De enorme toename in november valt op, maar daarover later meer. Figuur 2 laat namelijk nog iets anders zien: het vertelt hoe onze anti-abuse-experts de verdachte domeinen beoordelen. In september was 79,6% daadwerkelijk een nepwebwinkel en in oktober was dit percentage 82,3%. De overige domeinen waren legitiem of er kon niet met zekerheid worden vastgesteld dat het nepwebwinkels waren. Voor november bekeken onze experts 35,4% van de verdachte domeinen. Hiervan bleek 91,4% een nepwebwinkel.

Figuur 2: Aantal door FaDe gedetecteerde domeinnamen per maand.

Waarom zijn er in november veel meer verdachte webwinkels?

We kunnen nog niet met zekerheid vaststellen hoeveel nepwebwinkels daadwerkelijk zijn gedetecteerd in november. Desondanks zien we dat de detector stabiel presteert, gegeven de resultaten over de al beoordeelde domeinen. Wat verklaart dan de waarschijnlijke toename in het aantal verdachte nepwebwinkels? Wij speculeren dat er 2 mogelijkheden zijn, die mogelijk met elkaar interacteren. De eerste is dat FaDe steeds beter wordt. Het gebruikt immers beoordelingen van experts om het verschil tussen verdachte en legitieme domeinnamen te herkennen. Doordat we continue feedback verzamelen, wordt het systeem hier steeds beter in. Dit zou betekenen dat we nu nepwebwinkels detecteren die we eerst over het hoofd zagen. Daarnaast is bekend dat nepwebwinkels met name actief zijn tijdens feestmaanden. Dit komt omdat consumenten dan meer online aankopen doen, waarvan kwaadwillenden proberen te profiteren. Om deze hypothese te toetsen hebben we gekeken naar de leeftijd van domeinnamen op het moment dat ze gedetecteerd werden. In Figuur 3 zie je dat de meeste domeinen die FaDe als verdacht aanmerkt, minder dan een jaar oud zijn. Ook zien we een verschil tussen de maanden: in november is de spreiding in leeftijd een stuk lager. Dit heeft ook effect op de mediaan: in september en oktober was 50% van de domeinen 82 dagen oud of jonger, terwijl in november 50% van de domeinen slechts 20 dagen oud was of jonger. Het inzicht dat veel nepwebwinkels recent geregistreerd zijn, suggereert dat de domeinen speciaal voor feestmaanden zijn aangemaakt.

Figuur 3: Verdeling van de leeftijd van door FaDe gedetecteerde domeinnamen. De oranje lijn representeert de mediaan en 50% van de domeinen heeft een leeftijd binnen de blauwe box.

Hoe verder?

Bovenstaande statistieken laten zien dat we op de goede weg zijn. We detecteren veel verdachte webwinkels waarvan het grootste deel daadwerkelijk nep blijkt. Onze aanpak delen we met andere Europese topleveldomeinen (TLD’s) en daarbuiten, zodat ook zij de strijd tegen nepwebwinkels op kunnen voeren. Daarnaast voegen we statistieken als die van figuren 2 en 3 de komende tijd toe aan stats.sidnlabs.nl.