Risicobeoordeling van nieuwe .nl-registraties met behulp van RegCheck
Ons systeem helpt bij het identificeren van mogelijk malafide domeinnaamregistraties en scoort 48% op recall en 22% op precisie
Kies jouw kleur
Veel bezocht
Veelgestelde vragen
Via de Whois kun je de huidige houder van een domeinnaam opzoeken. Om de persoonsgegevens in te zien moet je vanwege de privacygevoelige informatie eerst de gebruikersvoorwaarden van de Whois accepteren. Gegevens van privé personen kunnen ook afgeschermd zijn vanwege de AVG (Algemene verordening gegevensbescherming).
Op de pagina domeinnaam zoeken lees je meer over wat een domeinnaam is, de werking van de Whois en de privacy van persoonsgegevens.
Je wilt je domeinnaam verhuizen naar een andere registrar. Vraag dan je verhuistoken op bij je huidige registrar. Lees de verhuisstappen op de pagina domeinnaam verhuizen.
Neem contact op met je registrar. Jouw registrar kan de contactgegevens bij je domeinnaam voor je aanpassen. Wij raden je aan het resultaat te controleren via de Whois. Lees meer over het aanpassen van je gegevens bij contactgegevens wijzigen.
Wij weten niet wat de reden van de opheffing is. Neem contact op met je registrar. Het voordeel van de quarantaine is dat je altijd de mogelijkheid hebt om een opheffing die je niet had bedoeld te herstellen.
Voorbeeld: In de voorwaarden van je registrar staat dat je elk jaar je abonnement moet verlengen. Dat gebeurt dan niet automatisch. Zo kan het gebeuren dat je domeinnaam wordt opgeheven zonder dat je er om gevraagd hebt.
Wanneer je een klacht hebt over of een geschil met je registrar dan zijn er verschillende mogelijkheden om tot een oplossing te komen. Hierover lees je meer op pagina klacht over registrar. SIDN heeft geen formele klachtenprocedure voor het behandelen van een klacht over jouw registrar.
Wil je zelf direct domeinnamen kunnen registreren bij SIDN voor je klanten of voor je eigen organisatie? Dan kun je .nl-registrar worden. Lees meer over de voorwaarden en de manier waarop je je kunt inschrijven als registrar via de pagina registrar worden.
Ons systeem helpt bij het identificeren van mogelijk malafide domeinnaamregistraties en scoort 48% op recall en 22% op precisie
De oorspronkelijke blog is Engelstalig. Dit is de Nederlandse vertaling. Bij zo'n 15% van de misbruikmeldingen die we voor .nl ontvangen, gaat het om een domeinnaam die minder dan 30 dagen vóór de melding werd geregistreerd. Omdat deze domeinnamen zo snel na hun registratie worden gemeld, kan worden aangenomen dat ze met kwade bedoelingen zijn geregistreerd. Daaruit volgt dat we door malafide domeinnaamregistraties automatisch te identificeren en blokkeren de veiligheid van .nl kunnen verbeteren. In deze blog introduceren we RegCheck, een systeem dat interpreteerbare risicoscores toekent aan nieuwe domeinnaamregistraties. We beschrijven de vereisten en het ontwerp van RegCheck, laten zien dat het systeem 48% scoort op recall en 22% op precisie wanneer het wordt toegepast op historische data, en leggen uit hoe onze abuse-analisten te werk gaan bij domeinnamen die door RegCheck zijn aangemerkt als verdacht.
Malafide domeinnaamregistraties zijn doorn in het oog: hoewel slechts 0,15% van alle nieuwe geregistreerde .nl-domeinnamen binnen 30 dagen na registratie wordt gemeld, is deze kleine groep goed voor maar liefst 15% van alle .nl-gerelateerde misbruikmeldingen. Daarom zijn sommige collega-registry's al begonnen met het identificeren van mogelijk malafide registraties. Ook de EU-richtlijn NIS2 draagt bij aan de strijd tegen het malafide gebruik van domeinnamen door – onder meer – de invoer van nieuwe regelgeving die de verificatie van de registratiegegevens van domeinnaamhouders verplicht stelt.
Bij SIDN Labs publiceerde een van onze afstudeerders begin 2021 een scriptie over het herkennen van mogelijk malafide domeinnaamregistraties. We hebben zijn onderzoek voortgezet en in maart 2022 een haalbaarheidsstudie geschreven. De resultaten van die studie waren veelbelovend en dus gingen we op zoek naar een volwassen systeem voor de automatische identificatie van risicovolle registraties, die we definiëren als domeinnaamregistraties waarvan de kans groot is dat ze in de toekomst een malafide website zullen hosten, bijvoorbeeld een phishingsite.
Ons primaire doel is het ontwerpen en prototypen van een systeem waarmee we risicovolle .nl-domeinnamen kunnen identificeren op het moment dat ze worden geregistreerd. De identificatie kan daarom alleen worden gebaseerd op de gegevens die beschikbaar zijn op het moment van de gepoogde registratie, zoals de domeinnaam zelf en het postadres van de domeinnaamhouder. Informatie over de uiteindelijke website of andere toepassingen die op de domeinnaam worden gehost, komt pas later beschikbaar en valt daarom buiten de scope.
Het secundaire doel is het implementeren van een systeem dat ook collega-registry's kunnen gebruiken om het risico van door hen waargenomen nieuwe registraties te beoordelen. Omdat registry’s niet allemaal hetzelfde misbruikbeleid hebben, richten we ons in deze blog op de identificatie van registraties met een hoog risicogehalte en gaan we niet in op mogelijke manieren waarop daarop kan worden geacteerd, zoals het domein nog niet opnemen in de DNS-zone van een registry.
In deze blog introduceren we 5 vereisten en analyseren we bestaande oplossingen door ze aan deze vereisten te toetsen. Onze conclusie is dat geen ervan aan onze vereisten voldoet. Daarom introduceren we RegCheck – het systeem dat we in samenwerking met onze abuse-analisten hebben ontwikkeld – en beoordelen we vervolgens op wetenschappelijke wijze of dit wel voldoet aan onze vereisten, bijvoorbeeld door kwantitatieve analyses uit te voeren van de nauwkeurigheid van het systeem. We sluiten deze blog af met onze plannen voor 2023.
Een onjuiste risicoscore kan grote gevolgen hebben. Een malafide registratie die onopgemerkt blijft door een lage score kan internetgebruikers schade toebrengen, maar we willen abuse-analisten of domeinnaamhouders ook niet lastigvallen met veel foutpositieven. Daarom moet het systeem zo nauwkeurig mogelijk zijn.
Hoewel de manieren waarop op mogelijk malafide domeinnamen kan worden geacteerd buiten de scope van deze blog vallen, hebben de gegenereerde risicoscores zeker consequenties voor domeinnaamregistraties en hun houders. Registry's kunnen registraties met een hoge risicoscore bijvoorbeeld niet meteen accepteren of zelfs annuleren. Aangezien hoge scores gevolgen zullen hebben voor de houder en mogelijk ook andere belanghebbenden, zijn we van mening dat het van vitaal belang is dat we weten op welke gronden het systeem tot een score komt. Daarom moeten de scores van het systeem uit te leggen zijn en aansluiten bij inzichten uit het veld van verklaarbare AI.
We geven de voorkeur aan eenvoudige methoden omdat complexe systemen zoals deep neural networks doorgaans meer middelen vereisen en minder uitlegbaar zijn – terwijl ze niet per se beter presteren. Daarom moet het systeem de eenvoudigste methode gebruiken die goed werkt.
Ons secundaire doel is het creëren van een systeem dat gebruikt kan worden door collega-registry's. Aangezien operators niet allemaal hetzelfde beleid hebben of met hetzelfde type registratiedatabase werken, moet het systeem registry-onafhankelijk zijn. Zo moet er bijvoorbeeld verbinding kunnen worden gemaakt met verschillende registratiedatabases.
De operator van een registry wil misschien verschillende aanpakken uitproberen. Het systeem moet daarom kunnen worden aangepast, bijvoorbeeld door operators de vrijheid te geven om risicofactoren op te nemen of uit te sluiten afhankelijk van het soort gegevens dat ze tot hun beschikking hebben.
Sommige van onze collega-registry's werken al met systemen voor het detecteren van mogelijk malafide registraties. We bespreken 4 systemen die een goed overzicht geven van de breedte van de aanpakken die momenteel door Europese registry's worden gehanteerd.
Allereerst beschikt EURid (.eu) over een grondig geëvalueerd systeem genaamd Premadoma, dat gebruikmaakt van machine learning. Premadoma richt zich op registraties die betrokken zijn bij grootschalige malafide campagnes, maar wij willen ook oplichters kunnen detecteren die maar één verdachte domeinnaam proberen te registreren.
2 andere registry's, DNS Belgium (.be) en SWITCH (.ch, .li), werken momenteel met een scoresysteem dat mogelijk malafide registraties opspoort door gebruik te maken van statische regels. Deze systemen zijn eenvoudig en uitlegbaar, maar kunnen door hun statische karakter maar in beperkte mate worden aangepast. DNS Belgium doet onderzoek naar de mogelijkheid om machine learning in te zetten. We hebben een aantal raakvlakken vastgesteld en staan in nauw contact met hen.
Nominet (.uk) ten slotte heeft Domain Watch ontwikkeld, dat gericht is op potentiële phishingpraktijken, en mogelijk malafide domeinnamen kort na registratie opschort. We weten niet veel over hoe Domain Watch precies functioneert en presteert, omdat Nominet er de voorkeur aan geeft voorzichtig te zijn met wat het openbaar maakt – om begrijpelijke redenen. Wij hebben er niettemin voor gekozen om transparant te zijn en het ontwerp van RegCheck te delen, zodat andere registry's onze aanpak ook kunnen toepassen. Net als Nominet met Domain Watch houden we onze risicofactoren echter voor ons om te voorkomen dat kwaadwillenden ze kunnen omzeilen.
Omdat geen van de bestaande oplossingen aan al onze vereisten voldeed, besloten we er zelf een te ontwikkelen. We noemen dit systeem RegCheck (een afkorting van Registration Checker) en Figuur 1 laat het basisontwerp zien. Het systeem bevat een kern, een registratieconnector, een interne database en 4 CLI-programma's waarmee operators met het systeem kunnen communiceren.
Figuur 1: Het ontwerp van RegCheck bevat een registry-neutrale kern, database en CLI-programma's. Een registratieconnector verbindt RegCheck met de registratiedatabase van een registry.
De kern stelt registry's in staat om statistische modellen te maken en evalueren die domeinnaamregistraties een risicoscore toekennen. Een risicoscore wordt uitgedrukt als een percentage dat aangeeft hoe groot de kans is dat met de domeinnaam een malafide website zal worden gehost.
We bieden momenteel 2 basismodellen voor het inschatten van het risicogehalte: kennisgedreven en datagedreven. In beide gevallen gaat het om lineaire modellen die risicoscores berekenen door naar afzonderlijke risicofactoren te kijken. Op dit moment werken we met 11 risicofactoren, zoals verdachte tekencombinaties in de domeinnaam en inconsistenties in de houdergegevens. De kennisgedreven modellen hebben echter een menselijke expert nodig om te beslissen hoeveel impact elke risicofactor op de uiteindelijke score heeft, terwijl het datagedreven basismodel gebruikmaakt van logistische regressie – een machinelearning-algoritme – om aan de hand van gelabelde registraties te bepalen hoe zwaar de verschillende risicofactoren wegen. Labels kunnen automatisch worden toegevoegd vanuit abusefeeds, of handmatig vanuit een CSV-bestand. Verder is het mogelijk om de basismodellen aan te passen door meer risicofactoren te implementeren of door een geheel nieuw basismodel te creëren, bijvoorbeeld door een ander algoritme te gebruiken.
Registraties worden in de kern van RegCheck ingevoerd via een registratieconnector, of handmatig vanuit een CSV-bestand. Een connector verbindt RegCheck met de registratiedatabase van de registry en wordt gebruikt om subsets van domeinnaamregistraties te importeren. De registratieconnector moet door elke registry zelf worden geïmplementeerd, vanwege de grote verschillen tussen de gebruikte registratiedatabases. De enige vereiste is dat de connector een API publiceert waarmee de kern verbinding kan maken.
Sinds augustus 2022 passen we RegCheck toe op nieuwe geregistreerde .nl-domeinnamen en plaatsen we domeinnaamregistraties met een score boven een vooraf bepaalde drempelwaarde op een dashboard. Onze abuse-analisten controleren deze registraties regelmatig en beoordelen of ze inderdaad een risico vormen. Als dat het geval blijkt te zijn, vragen onze analisten de houder om zijn identiteit te bewijzen en wordt de domeinnaam offline gehaald als de houder niet binnen de in artikel 16 en 18 van de algemene voorwaarden voor .nl-domeinnaamhouders gestelde termijn aan dat verzoek voldoet.
Onze abuse-analisten zijn positief over RegCheck en hebben ons nuttige feedback gegeven. Omdat interventies echter buiten de scope van deze blog vallen, gaan we hier niet in op de acties die door onze abuse-analisten worden ondernomen. In plaats daarvan wordt in het volgende gedeelte beoordeeld of het systeem aan onze vereisten voldoet.
Zoals we al schreven, hebben we een systeem nodig dat interpreteerbare scores genereert (vereiste 2). Lineaire modellen komen tot hun resultaten door de effecten van alle afzonderlijke kenmerken bij elkaar op te tellen. Dat maakt het model uitlegbaar, want we kunnen voor elke risicofactor afzonderlijk vaststellen hoe deze bijdraagt aan de eindscore. Het lineaire karakter van onze modellen stelt ons in staat om het verband te berekenen tussen scores en de risicofactoren die met een domeinnaamregistratie in verband worden gebracht. Dat maakt de scores intrinsiek uitlegbaar. Figuur 2 toont een voorbeeld van hoe we een score aan onze abuse-analisten uitleggen door aan te geven welke risicofactoren aan de score hebben bijgedragen.
Figuur 2: Voorbeeld van een hypothetische risicovolle registratie. Risicofactoren zijn gemarkeerd met een rood uitroepteken of onderstreept, wat de score uitlegbaar maakt. Wanneer je een uitroepteken aanwijst, verschijnt het risicoverschil van een factor.
Vereiste 3 is dat het systeem eenvoudig moet zijn. Onze modellen zijn dat, omdat ze slechts een klein aantal risicofactoren in beschouwing nemen en alleen kijken naar lineaire relaties. Bovendien bevat RegCheck een CLI-programma dat automatisch labels importeert, modellen traint en deze toepast op nieuwe registraties. Het implementeren van RegCheck kost dus niet veel moeite, wat betekent dat aan vereiste 3 wordt voldaan.
Vereisten 4 en 5 hebben betrekking op ons secundaire doel, het creëren van een systeem dat ook door collega-registry's kan worden geïmplementeerd. We kunnen alleen maar gissen in hoeverre ons ontwerp aan deze vereisten voldoet, omdat we ons systeem nog niet met een andere registry hebben gevalideerd. Ten eerste denken we dat RegCheck een registry-neutraal systeem is, omdat het gegevens uit verschillende registratiedatabases kan importeren (vereiste 4). Ten tweede kunnen risicofactoren desgewenst worden weggelaten en is het mogelijk om nieuwe factoren en basismodellen te implementeren. Dat maakt RegCheck aanpasbaar (vereiste 5).
Nu gaan we de nauwkeurigheid van RegCheck analyseren. Eerst berekenen we de nauwkeurigheid van het systeem met historische .nl-data en daarna kijken we hoe nauwkeurig het is 'in het wild' als het wordt toegepast op nieuwe geregistreerde .nl-domeinnamen.
Voor deze analyse maken we 2 risicobeoordelingsmodellen. Het eerste is een kennisgedreven model dat gebruikmaakt van statische regels die we hebben opgesteld in samenwerking met onze abuse-analisten. Het tweede model is datagedreven en maakt gebruik van logistische regressie. We trainden dit model met 2100 malafide registraties en 103.000 willekeurige legitieme registraties uit februari 2021 tot augustus 2022. Onder malafide verstaan we in dit geval .nl-domeinnamen die binnen 30 dagen na registratie op de abusefeed van Netcraft werden gemeld. Registraties die niet binnen 30 dagen werden gemeld worden als legitiem beschouwd.
We maken ook een evaluatiedataset met 341 malafide registraties en 8.700 willekeurige legitieme domeinnamen uit augustus tot november 2022.
De laatste voorbereidende stap is het kiezen van de drempelwaarde, die bepaalt boven welke score een registratie als risicovol wordt aangemerkt. In overleg met onze abuse-analisten hebben we de drempelwaarden ingesteld op basis van het aantal identiteitscontroles dat onze analisten op dit moment naast hun dagelijkse werkzaamheden handmatig kunnen uitvoeren, namelijk zo'n 10 per dag.
We vatten onze resultaten samen in tabel 1. We zien dat het kennisgedreven model een recall van 9,38% heeft, terwijl het datagedreven model 47,80% van de risicovolle registraties in onze evaluatiedataset detecteert.
De tabel toont ook de positieve voorspellende waarden (PPV's), die een goede indicatie geven van de precisie wanneer de modellen in productie worden toegepast. Het kennisgedreven model en het datagedreven model behalen PPV's van respectievelijk 0,55 en 22,08%, rekening houdend met een prevalentie van 0,15% malafide registraties, het percentage van alle .nl-domeinnamen die binnen 30 dagen werden gemeld. Dat betekent dat 0,55% van de registraties die door het kennisgedreven model worden herkend inderdaad risicovol is, terwijl van de datagedreven detecties 22,08% een risicovolle registratie is.
Kennisgedreven | Datagedreven | |
---|---|---|
Recall | 9,38% | 47,80% |
PPV (precisie) | 0,55% | 22,08% |
Hoewel deze resultaten aantonen dat RegCheck niet perfect is, laten ze een goede balans zien tussen zoveel mogelijk malafide domeinnamen detecteren en zo min mogelijk tijd verdoen met foutpositieven. Bovendien denken we dat significant hogere resultaten niet realistisch zijn vanwege de beperkte informatie die op het moment van registratie beschikbaar is. Aangezien het datagedreven model veel beter presteert dan het kennisgedreven model, voeren we de rest van onze analyses uit op dat model.
We evalueerden eerst hoe nauwkeurig RegCheck was bij toepassing op historische data. Dat gaf ons genoeg vertrouwen om het systeem in augustus 2022 in gebruik te nemen. In dit gedeelte evalueren we RegCheck door te kijken naar alle nieuwe domeinnamen die werden geregistreerd van 17 november tot 8 december, de periode waarin de meest recente versie van RegCheck werd gebruikt.
In die periode werden 43.000 domeinnamen geregistreerd, waarvan we er 181 op het RegCheck-dashboard plaatsten omdat hun risicoscore de drempelwaarde overschreed. Gemiddeld publiceerden we dus 9 domeinen per dag – ongeveer het aantal dat we hadden verwacht.
Onze abuse-analisten controleerden de gepubliceerde registraties en oordeelden dat 38 ervan inderdaad een risico vormden. Dat betekent een precisie van 21%, wat in lijn is met de precisie die verkregen werd bij de toepassing op historische data. We zien geen correlatie tussen de score en de oordelen. Met andere woorden, we verwachten niet dat een hogere drempelwaarde ook zou leiden tot een hogere precisie.
De afgelopen maanden hebben we RegCheck ontwikkeld: een risicobeoordelingssysteem voor domeinnaamregistry's dat nauwkeurig, uitlegbaar, eenvoudig, registry-onafhankelijk en aanpasbaar is. Sinds augustus 2022 wordt het systeem met succes gebruikt om risicovolle domeinnaamregistraties binnen .nl te herkennen, wat betekent dat ons primaire doel is bereikt.
We willen benadrukken dat SIDN meer doet dan alleen maar beoordelen of een domeinnaamregistratie een risico vormt. Onze abuse-analisten komen dagelijks in actie naar aanleiding van registraties die door RegCheck zijn aangemerkt als risicovol. Als organisatie blijven we nadenken over hoe we onze aanpak van mogelijk malafide registraties verder kunnen verbeteren, mede met het oog op de NIS2-richtlijn. In een toekomstige publicatie zullen we verslag uitbrengen van onze vorderingen.
Tot slot starten we dit jaar een gezamenlijk project met DNS Belgium (.be). Zoals eerder vermeld, hebben zij ook ervaring met het identificeren van risicovolle registraties en daarom willen we elkaars systemen evalueren om te kijken of we van elkaar kunnen leren. Verder horen we graag of andere registry's ook willen samenwerken op dit vlak of ons systeem willen evalueren.
Artikel door:
Deel dit artikel