Meer internetveiligheid door nieuwe machine learning-toepassingen
Onze visie en onderzoeksagenda voor de komende 2 jaar
Kies jouw kleur
Veel bezocht
Veelgestelde vragen
Via de Whois kun je de huidige houder van een domeinnaam opzoeken. Om de persoonsgegevens in te zien moet je vanwege de privacygevoelige informatie eerst de gebruikersvoorwaarden van de Whois accepteren. Gegevens van privé personen kunnen ook afgeschermd zijn vanwege de AVG (Algemene verordening gegevensbescherming).
Op de pagina domeinnaam zoeken lees je meer over wat een domeinnaam is, de werking van de Whois en de privacy van persoonsgegevens.
Je wilt je domeinnaam verhuizen naar een andere registrar. Vraag dan je verhuistoken op bij je huidige registrar. Lees de verhuisstappen op de pagina domeinnaam verhuizen.
Neem contact op met je registrar. Jouw registrar kan de contactgegevens bij je domeinnaam voor je aanpassen. Wij raden je aan het resultaat te controleren via de Whois. Lees meer over het aanpassen van je gegevens bij contactgegevens wijzigen.
Wij weten niet wat de reden van de opheffing is. Neem contact op met je registrar. Het voordeel van de quarantaine is dat je altijd de mogelijkheid hebt om een opheffing die je niet had bedoeld te herstellen.
Voorbeeld: In de voorwaarden van je registrar staat dat je elk jaar je abonnement moet verlengen. Dat gebeurt dan niet automatisch. Zo kan het gebeuren dat je domeinnaam wordt opgeheven zonder dat je er om gevraagd hebt.
Wanneer je een klacht hebt over of een geschil met je registrar dan zijn er verschillende mogelijkheden om tot een oplossing te komen. Hierover lees je meer op pagina klacht over registrar. SIDN heeft geen formele klachtenprocedure voor het behandelen van een klacht over jouw registrar.
Wil je zelf direct domeinnamen kunnen registreren bij SIDN voor je klanten of voor je eigen organisatie? Dan kun je .nl-registrar worden. Lees meer over de voorwaarden en de manier waarop je je kunt inschrijven als registrar via de pagina registrar worden.
Onze visie en onderzoeksagenda voor de komende 2 jaar
Het onderzoek van SIDN Labs richt zich op het verbeteren van de veiligheid, stabiliteit en weerbaarheid van de internetinfrastructuur. Machine learning speelt hierbij een steeds belangrijkere rol. Het hielp ons bijvoorbeeld geautomatiseerd duizenden nepwebwinkels te vinden, samenwerkingen rondom het tegengaan van domeinnaammisbruik op te zetten en abuse-analisten beter in staat te stellen malafide .nl-sites op te sporen, bijvoorbeeld op basis van logomisbruik. In deze blogpost werpen we een blik op de toekomst en bespreken we onze onderzoeksagenda om de internetveiligheid nog verder te verhogen met behulp van machine learning.
Machine learning gaat over computeralgoritmes die automatisch regels en patronen extraheren uit grote hoeveelheden data en op basis daarvan beslissingen kunnen nemen of voorspellingen kunnen doen. De afgelopen jaren vonden er in het vakgebied veel doorbraken plaats, waardoor machine learning-algoritmes steeds vaker worden gebruikt voor het nemen van belangrijke beslissingen. Denk aan nieuwe beeldherkenningsalgoritmes op basis van deep learning, waardoor auto’s bijvoorbeeld steeds autonomer kunnen rijden en artsen medische scans effectiever kunnen analyseren. Machine learning is zelfs zo belangrijk geworden dat Apple voor haar computers sinds kort processoren maakt die zijn geoptimaliseerd voor dit soort algoritmes. Al deze doorbraken zijn ook terug te zien in het aantal wetenschappelijke artikelen over machine learning. In 2020 verschenen er 13.788 artikelen over dit onderwerp op arXiv.org, een open bibliotheek voor wetenschappelijke artikelen. Dat is ruim 60 keer zo veel als in 2010 (Figuur 1).
Figuur 1: aantal artikelen in de categorie machine learning (stats.ml) gepubliceerd in arXiv.org, een open bibliotheek voor wetenschappelijke artikelen.
Bij SIDN Labs doen we ook onderzoek naar machine learning-algoritmes, maar voor een specifieke ‘niche’-toepassing: het verhogen van de internetveiligheid en het Domain Name System (DNS). Ons doel is hiervoor machine learning-algoritmes uit te breiden en te evalueren zodat spelers in het DNS (bijv. registry’s, registrars en DNS-operators) ze kunnen toepassen op hun datasets, waaronder SIDN zelf. Ons machine learning-werk is relevant, omdat bij veel vraagstukken rondom internet- en DNS-veiligheid grote hoeveelheden datasets beschikbaar zijn, maar het lastig is om daar handmatig patronen uit te halen en die actueel te houden. Denk bij .nl bijvoorbeeld aan het herkennen van nepwebwinkels in de metingen van onze DMAP-crawler (maandelijks 6.2 miljoen nieuwe metingen) en botnetpatronen in onze historische DNS-database ENTRADA (dagelijks meer dan 2 miljard nieuwe datapunten). We kozen er bij SIDN Labs voor om het accent van ons werk te leggen op innoveren met machine learning. Dit betekent dat we nieuwe wetenschappelijke artikelen monitoren en veelbelovende methodes toepassen die bijdragen aan ons doel. Het innoveren van machine learning laten we meestal over aan grote onderzoeksgroepen bij universiteiten en bedrijven als Google en Microsoft.
De manier waarop we machine learning inzetten heeft ook onze expliciete aandacht vanwege de maatschappelijke en ethische impact van algoritmes. We volgen daarom de filosofie van responsible machine learning, die we bij SIDN Labs als volgt invullen:
We werken volgens het ‘human-in-the-loop’-principe. Dit betekent dat onze systemen geen geautomatiseerde besluiten kunnen nemen over wijzigingen aan domeinnamen (zoals het verwijderen uit de zone of aanpassen van nameservers). Ook gebruiken we de feedback van gebruikers om onze modellen te verbeteren.
We vinden het belangrijk dat we de uitkomsten van onze systemen begrijpen en kunnen uitleggen. Dit betekent dat we een sterke voorkeur hebben voor algoritmes die intrinsiek uitlegbaar zijn, of anders uitlegbaar gemaakt kunnen worden.
We werken graag samen met andere partijen en publiceren over onze resultaten. Een bredere blik verhoogt namelijk de kwaliteit van ons werk en voorkomt vooringenomenheid. Publicaties geven registrars, andere registry’s en partners de mogelijkheid om te leren van onze fouten en successen. Zo kunnen ook zij bijdragen aan het verhogen van de internetveiligheid.
We monitoren de prestaties van onze modellen continu en kijken hierbij naar meerdere prestatiecijfers. Hierdoor herkennen we verschillende soorten fouten en kunnen we de prestaties van onze systemen beter beoordelen.
Voor onze onderzoekagenda hebben we 3 onderzoeksvragen geïdentificeerd:
OV1: Hoe worden we nog beter in het proactief detecteren van misbruik?
OV2: Hoe trainen we gezamenlijk abuse-modellen zonder data-uitwisseling?
OV3: Hoe monitoren en beheren we onze anycastinfrastructuur effectief en snel?
We richten ons op deze 3 onderzoeksvragen, omdat ze kunnen bijdragen aan de internetveiligheid en geschikt zijn voor een machine learning-aanpak. Dit komt omdat regels niet handmatig bepaald kunnen worden terwijl er wel veel datapunten voorhanden zijn.
Het proactief detecteren van verdachte websites met behulp van machine learning staat al sinds 2018 op onze agenda, omdat het registry’s zoals SIDN helpt malafide content sneller offline te halen en zo voorkomen kan worden dat er veel slachtoffers vallen. Voor OV1 zetten we allereerst in op het verder verbeteren van systemen die we eerder hebben ontwikkeld:
Fake webshop Detector (FaDe): met FaDe detecteerden we duizenden nepwebwinkels. We zetten FaDe de komende tijd in om de strategieën van oplichters te monitoren. Dit is relevant, omdat de detectie van nepwebwinkels een kat-en-muis-spel is, waarbij oplichters hun aanpak regelmatig aanpassen.
LogoMotive: helpt abuse-analisten (bijvoorbeeld van de Rijksoverheid) phisingsites op te sporen op basis van logomisbruik. We gaan onderzoeken hoe we de LogoMotive-resultaten breder kunnen inzetten, bijvoorbeeld bij het opsporen van verdachte webwinkels. Onze focus op visuele aspecten van websites is vernieuwend en we verwachten dat dit positief gaat bijdragen aan het detecteren van malafide sites.
Daarnaast gaan we OV1 aanpakken door gecompromitteerde domeinnamen te detecteren met machine learning. Hierbij onderscheiden we 2 typen aanvallen:
Domeinnaamhacks: dit soort aanvallen komen vaak voor en leunen meestal op kwetsbare webtechnologieën, zoals een verouderde WordPress-plug-in. We willen onderzoeken of we dit soort domeinnamen proactief kunnen detecteren door te kijken naar veranderingen in het DNS-verkeer. Dit is uitdagend omdat veranderingen meerdere oorzaken kunnen hebben. Daarnaast kunnen we als TLD-operator verdenkingen lastig beoordelen, omdat we weinig informatie hebben over de websites. We zijn daarom een pilot gestart met een Realtime Register om te verkennen of we verdachte domennamen samen beter kunnen evalueren.
DNS-hijacks: dit zijn aanvallen waarbij criminelen toegang proberen te krijgen tot het beheer van een domeinnaam. Er zijn maar weinig publiek bekende voorbeelden van dit soort aanvallen, maar de impact kan groot zijn. Dit komt omdat een crimineel met beheertoegang tot de nameservers de individuele DNS-records van een domeinnaam kan wijzigen. Hierdoor worden internetters ongemerkt omgeleid naar een andere server, waarop bijvoorbeeld malafide content staat of gegevens worden ontfutseld. DNSSEC biedt in dit soort gevallen helaas geen bescherming. We gaan onderzoeken hoe we DNS-hijacks kunnen opsporen met machine learning-algoritmes. Het ontbreken van voldoende ground truth data is een uitdaging waardoor we mogelijk beginnen met een clusteranalyse of een anomaliedetectie. Hierbij kijken we naar opvallende datapunten die we nader onderzoeken, omdat ze mogelijk duiden op een verdachte wijziging.
Registry’s hebben vaak de beschikking over veel data (bijvoorbeeld domeinnaamregistratie- en DNS-data), maar zijn wel beperkt in hun gezichtspunt. Bij SIDN hebben we voor .nl bijvoorbeeld geen toegang tot de informatie die registrars en hosters over .nl-domeinnamen hebben. Ook kunnen we onze machine learning-modellen verbeteren en de kans op vooringenomenheid verkleinen door samen te werken met andere topleveldomeinen (TLD’s). We willen daarom onderzoeken hoe we technieken zoals federated learning kunnen gebruiken om samen met partners (bijvoorbeeld andere ccTLD’s of .nl-registrars) modellen te trainen, omdat het soms lastig is om privacygevoelige data uit te wisselen. Bijvoorbeeld omdat het veel afstemming en juridische overeenkomsten vereist. Met federated learning trainen deelnemende partijen ieder voor zich een tijdelijk machine learning-model. Deze tijdelijke modellen zijn abstracties en bevatten geen gevoelige informatie, maar zijn wel inaccuraat. Zodra de modellen op de juiste manier worden samengevoegd ontstaat een goed model die alle partijen kunnen gebruiken. Een mogelijke aanpak is het trainen van een model dat verdachte domeinregistraties detecteert samen met een groep ccTLD’s, bijvoorbeeld in CENTR-verband. Criminelen zijn immers niet beperkt tot een enkele TLD of registrar. Door ‘over de schutting’ te kijken vinden we mogelijk andere patronen, zoals criminelen die nepwebwinkels in bulk registreren maar deze bulk verdelen over meerdere TLD’s.
SIDN maakt al enkele jaren gebruik van anycast en sinds vorig jaar heeft SIDN Labs haar eigen een eigen BGP-anycasttestbed die we onder andere gebruiken voor onze NTP-dienst time.nl. Anycast helpt de weerbaarheid en prestaties van onze DNS-infrastructuur te verhogen, maar vergroot ook het aantal systemen en configuraties die beheerd en gemonitord moet worden. We willen daarom verkennen hoe we netwerkbeheerders kunnen ondersteunen bij het monitoren en beheren van hun anycastinfrastructuur met behulp van machine learning-algoritmes. We overwegen bijvoorbeeld om een systeem te ontwikkelen dat waarschuwingen genereert als het netwerkverkeer op een opvallende manier verschuift. Een eenvoudig voorbeeld is een anycastnode die opeens veel meer verkeer ontvangt dan voorheen. Dit soort waarschuwingen helpt beheerders om snel in actie komen. Ze kunnen er bijvoorbeeld voor kiezen om extra nodes toe te voegen of bepaalde routes (on)aantrekkelijker te maken waardoor het verkeer misschien weer afneemt. Daarnaast willen we onderzoeken of we beheerders kunnen helpen bij het duiden van verschuivingen. Hoe komt het bijvoorbeeld dat een node ineens meer verkeer ontvangt? We willen dit doen door verschuivingen in netwerkverkeer te correleren met andere databronnen, zoals RIPEstat waarin veranderingen in BGP-routeringen worden opgeslagen.
Zoals je in deze blog hebt kunnen lezen zijn er nog veel kansen waarbij machine learning kan bijdragen aan het verhogen van de internetveiligheid en het Domain Name System (DNS). De komende 2 jaar pakken we bovenstaande onderzoeksvragen op. Heb je ideeën, feedback of zie je een mogelijkheid om samen te werken? Laat het ons weten via thymen.wabeke@sidn.nl.
Artikel door:
Directeur SIDN Labs
Deel dit artikel