Recursieve resolvers classificeren
Een korte samenvatting en de conclusie van mijn masterscriptie
Kies jouw kleur
Veel bezocht
Veelgestelde vragen
Via de Whois kun je de huidige houder van een domeinnaam opzoeken. Om de persoonsgegevens in te zien moet je vanwege de privacygevoelige informatie eerst de gebruikersvoorwaarden van de Whois accepteren. Gegevens van privé personen kunnen ook afgeschermd zijn vanwege de AVG (Algemene verordening gegevensbescherming).
Op de pagina domeinnaam zoeken lees je meer over wat een domeinnaam is, de werking van de Whois en de privacy van persoonsgegevens.
Je wilt je domeinnaam verhuizen naar een andere registrar. Vraag dan je verhuistoken op bij je huidige registrar. Lees de verhuisstappen op de pagina domeinnaam verhuizen.
Neem contact op met je registrar. Jouw registrar kan de contactgegevens bij je domeinnaam voor je aanpassen. Wij raden je aan het resultaat te controleren via de Whois. Lees meer over het aanpassen van je gegevens bij contactgegevens wijzigen.
Wij weten niet wat de reden van de opheffing is. Neem contact op met je registrar. Het voordeel van de quarantaine is dat je altijd de mogelijkheid hebt om een opheffing die je niet had bedoeld te herstellen.
Voorbeeld: In de voorwaarden van je registrar staat dat je elk jaar je abonnement moet verlengen. Dat gebeurt dan niet automatisch. Zo kan het gebeuren dat je domeinnaam wordt opgeheven zonder dat je er om gevraagd hebt.
Wanneer je een klacht hebt over of een geschil met je registrar dan zijn er verschillende mogelijkheden om tot een oplossing te komen. Hierover lees je meer op pagina klacht over registrar. SIDN heeft geen formele klachtenprocedure voor het behandelen van een klacht over jouw registrar.
Wil je zelf direct domeinnamen kunnen registreren bij SIDN voor je klanten of voor je eigen organisatie? Dan kun je .nl-registrar worden. Lees meer over de voorwaarden en de manier waarop je je kunt inschrijven als registrar via de pagina registrar worden.
Een korte samenvatting en de conclusie van mijn masterscriptie
Recursieve resolvers fungeren als schakel tussen clients en DNS-nameservers. Beheerders van autoritatieve nameservers willen graag beter inzicht krijgen in de recursieve resolvers waardoor ze bevraagd worden, bijvoorbeeld om hun eigen diensten te optimaliseren. Daarom was het bouwen van een classifier voor recursieve resolvers het doel van het onderzoek dat ik in het kader van mijn masterscriptie bij SIDN Labs deed.
Resolvers kunnen allerlei soorten clients bedienen, van eindgebruikers die naar hun favoriete videostreamingsite willen tot scripts die het internet afstruinen voor marketing- of onderzoeksdoeleinden. Een gedegen inzicht in welke resolvers het belangrijkste zijn stelt beheerders van autoritatieve DNS-diensten (zoals SIDN) in staat om te bepalen hoe ze hun serverinfrastructuur moeten inrichten om de interactie met die resolvers te optimaliseren zodat ze de clients die er gebruik van maken zo goed mogelijk van dienst zijn. Daarnaast maakt kennis over de herkomst van de resolvers het onderzoekers mogelijk om de adoptie van nieuwe technieken binnen het DNS in kaart te brengen en zelfs om in te schatten hoeveel gebruikers hinder kunnen ondervinden van ingrijpende veranderingen in het DNS, zoals de root KSK roll-over. Net als mijn collega's bij .nz werkte ik aan een project dat zich bezighoudt met de classificatie van recursieve resolvers met als doel ons inzicht in de bovengenoemde materie te vergroten. Het voornaamste verschil tussen mijn project en het project van .nz is dat ik niet alleen “echte” recursieve resolvers wilde onderscheiden van resolvers die worden gebruikt voor monitoring, maar ook nog andere soorten resolvers wilde identificeren, zoals resolvers van cloudproviders, ISP-resolvers, enzovoort.
Ik heb bij mijn classificatie van recursieve resolvers gebruik gemaakt van querydata die afkomstig waren van de .nl-nameservers, maar in principe zouden data van iedere grote autoritatieve nameserver kunnen worden gebruikt. Recursieve resolvers volgen verschillende patronen bij het bevragen van .nl-domeinnamen. Om een voorbeeld te noemen: waar 82 procent van de queries die door 20 procent van de resolvers worden verstuurd betrekking hebben op A- of AAAA-records, versturen sommige resolvers bijna uitsluitend queries voor NS-records. Ik heb gedurende één dag data verzameld met betrekking tot 27 onderscheidende kenmerken van bijna 1,4 miljoen unieke resolvers. Daarnaast heb ik bekende IP-adressen van bekende bedrijven gekoppeld aan de sector waarin zij actief zijn om te komen tot zeven verschillende typen sectoren: ISP’s, hostingbedrijven, cloudproviders, IT-bedrijven, onderzoekscentra, telecombedrijven en open resolvers. De resulterende dataset diende als mijn grondwaarheid.
Figuur 1 — Bedrijven en hun verkeerspercentages op .nl-nameservers in maart 2019
Het cirkeldiagram in Figuur 1 toont de bedrijven en hun aandeel in het verkeer op .nl-nameservers in maart 2019. Ik bracht de resolvers handmatig onder in categorieën, afhankelijk van het soort autonome systeem waartoe ze behoorden. Op basis van deze handmatige analyse is het duidelijk dat ISP's, grote open DNS-diensten, cloudbedrijven en IT-gerelateerde bedrijven verantwoordelijk zijn voor de helft van het verkeer dat door .nl-nameservers wordt afgehandeld. Daarna gebruikte ik de geannoteerde data, die bestond uit 27 kenmerkkolommen en 39.361 unieke IP-adressen, om te analyseren hoe relevant elk kenmerk was. In het licht van de resultaten besloot ik om voor de classificatie alleen de 15 beste kenmerken te gebruiken, om de dimensionaliteit van de dataset te verminderen en overfitting te voorkomen. De meest significante kenmerken zijn het besturingssysteem dat wordt gebruikt (vastgesteld op grond van het TTL-veld van het IP-pakket), of er door de resolver om DNSSEC-informatie wordt gevraagd, en of er door de resolver om bepaalde recordtypen wordt gevraagd.
Ter afronding van het onderzoek evalueerde ik hoe de verschillende classifiers hadden gepresteerd. Tabel 1 toont de F1-scores van alle gebruikte algoritmen. De F1-score is het harmonisch gemiddelde van precisie en recall, waarbij een F1-score van 1 de beste waarde is. Van de verschillende algoritmen die vaak worden gebruikt voor de classificatie van internetpakketten, liet het Random Forest algoritme voor alle klassetypen de beste F1-score zien. Daarom werd dat gebruikt als hoofdalgoritme voor de analyse van ongeannoteerde data.
Tabel 1 - F1-scores van alle classifiers voor alle klassetypen Voor sommige klassen had ik minder leervoorbeelden dan voor andere, wat de classificatie negatief zou kunnen hebben beïnvloed. Terwijl de groundtruth van open resolvers bijvoorbeeld bestond uit precieze IP-adressen verkregen van bedrijven met open resolvers, koppelde ik de IP-adressen van onderzoeks-, telecom- en hostingbedrijven handmatig aan hun sectoren. Dit resulteerde uiteindelijk in een nauwkeurigheid van 98 procent voor de klasse van de open resolvers en aanmerkelijk lagere nauwkeurigheidspercentages voor de overige klassen. Toch was ik door deze groundtruth op te stellen in staat om de nauwkeurigheid van de in het onderzoek gebruikte classificatie-algoritmen te meten.
Figuur 2 toont de belangrijkste resultaten van mijn classificatie. ISP-resolvers zijn het meest gebruikelijk.
Figuur 2 - Aantal IP-adressen per klasse op 20 maart 2019 en 22 mei 2019 Ik voerde onze classifier op 2 afzonderlijke dagen uit en de resultaten worden weergegeven in Figuur 2. Op beide dagen werden resolvers in de ISP-klasse het meest gebruikt, gevolgd door resolvers in cloudomgevingen en publieke resolverdiensten. In de toekomst zien we mogelijk een verschuiving naar publieke resolverdiensten, als DNS over HTTPS op bredere schaal in applicaties gaat worden gebruikt.
De conclusie is dat het onderzoek de beoogde doelstellingen heeft behaald, maar dat duidelijk is geworden dat een 100 procent nauwkeurige classificatie zelden mogelijk is. Ik hoop dat mijn onderzoek andere onderzoekers naar nieuwe invalshoeken leidt, het onderwerp onder de aandacht brengt en zo bijdraagt aan de verbetering van online DNS-diensten. De resultaten moeten wel met enige voorzichtigheid worden behandeld. Mijn groundtruth was zowel vertekend als meerduidig. Zo kan een autonoom systeem de recursieve resolver van een kleine onderneming maar ook een open resolver hosten. Een belangrijke focus voor toekomstig onderzoek is daarom het vinden van voldoende IP-adressen binnen de verschillende klassen om de classifier te voorzien van een betere klasserepresentatie. Als je vragen en/of opmerkingen hebt, kun je die mailen naar metinacikalinn@gmail.com of mijn begeleider bij SIDN Labs, moritz.muller@sidn.nl.
Voor een gedetailleerd verslag van het onderzoek kun je mijn scriptie doornemen.
Profiling recursive resolvers at authoritative name servers Acikalin MA EEMCS pdf (6.9 MB)Artikel door:
Deel dit artikel