Gecompromitteerde van kwaadaardige domeinnamen onderscheiden met behulp van COMAR

Belangrijkste bevindingen en toekomstige onderzoeksrichtingen

Close-up van iemand die in een donkere ruimte op een laptop werkt

donderdag 22 april 2021
Artikel door: Thymen Wabeke, Cristian Hesselman

Auteurs: Sourena Maroofi (Grenoble Alps University), Maciej Korczyński (Grenoble Alps University), Benoît Ampeau (AFNIC), Thymen Wabeke (SIDN Labs), Cristian Hesselman (SIDN Labs), Andrzej Duda (Grenoble Alps University) De oorspronkelijke blog is in het Engels. Dit is de Nederlandse vertaling. In onze vorige blog introduceerden we het Frans-Nederlandse onderzoeksproject om domeinnaammisbruik automatisch te classificeren met behulp van COMAR. We legden het belang van het project uit en beschreven de doelstellingen. In deze blogpost bespreken we de hoofdbevindingen van ons onderzoeksproject tot dusverre en de richtingen voor de toekomst.

Wat is COMAR?

Kort samengevat, is COMAR een experimenteel systeem dat in staat is automatisch onderscheid te maken tussen domeinnamen die cybercriminelen voor kwade bedoelingen hebben geregistreerd en domeinnamen die worden misbruikt door gebruik te maken van kwetsbaarheden in webtoepassingen.

COMAR stelt allerlei intermediairs, zoals registrars, hostingproviders en registry's van topleveldomeinen (TLD's), in staat hun anti-misbruikprocessen verder te optimaliseren. Een registry of registrar kan een domeinnaam die COMAR heeft aangemerkt als kwaadwillig geregistreerd blokkeren door de naam te verwijderen uit het zonebestand op basis van geldende richtlijnen. Bij een gecompromitteerde legitieme domeinnaam hoeft het domein niet te worden geblokkeerd, maar moet de schadelijke inhoud door de hostingprovider of eigenaar van het domein (registrant) worden verwijderd.

Classificatie met behulp van COMAR

COMAR classificeert domeinnamen in ‘near-realtime’ aan de hand van publiek beschikbare domeinnaamgegevens (zoals WHOIS-, DNS- of hostinggegevens) afkomstig van URL-blocklists. Voor ons onderzoek maakten we gebruik van datasets als de feed van de OpenPhish-community, PhishTank, APWG en URLhaus, maar het systeem kan ook worden gebruikt met andere soorten blocklists, zoals lijsten van nepwebwinkels.

COMAR velt geen oordeel op basis van de ruwe gegevens, maar aan de hand van geselecteerde indicatoren, ook wel features genoemd, die we uitgebreid hebben bestudeerd.

Bij indicatoren die erop wijzen dat een domeinnaam is geregistreerd door een cybercrimineel, gaat het bijvoorbeeld over bepaalde trefwoorden in de domeinnaam, zoals 'verification', 'account' en 'support' (bijvoorbeeld supportaccount-services.com). Aan de hand van onze diepgaande woordfrequentieanalyse hebben we geconstateerd dat cybercriminelen de neiging hebben om dat soort woorden in domeinnamen op te nemen om slachtoffers te verleiden hun inloggegevens (zoals gebruikersnaam en wachtwoord) in te voeren. Een indicator die erop wijst dat een domeinnaam is geregistreerd door een goedwillende gebruiker maar sindsdien is gecompromitteerd, is bijvoorbeeld het aantal technieken (d.w.z. softwareframeworks en -bibliotheken) zoals een WordPress-contentmanagementsysteem dat bij het bouwen van de website is gebruikt. Het idee hierachter is dat legitieme domeineigenaren meer werk steken in het creëren van content om zo grotere interesse te wekken bij gebruikers en daarmee de populariteit van de website en de hoeveelheid webverkeer die het aantrekt te verhogen. Dat soort inspanningen zijn over het algemeen niet vereist voor het goed laten functioneren van kwaadaardige domeinen, die doorgaans met minder technieken werken dan goedaardige sites. In totaal hebben we 38 indicatoren in 7 categorieën voorgesteld, die we nader toelichten in ons onderzoeksartikel dat in 2020 is gepubliceerd op het IEEE European Symposium on Security and Privacy [1].

Belangrijkste bevindingen

We hebben COMAR [1] uitvoerig geëvalueerd met behulp van phishing- en malware-blocklists en aangetoond dat het een hoge mate van nauwkeurigheid kan bereiken: 97% van de domeinnamen werd door de classifier correct gelabeld, zonder gebruik te maken van geprivilegieerde of niet-publiekelijk beschikbare data, waardoor elke organisatie het COMAR-systeem kan gebruiken.
In de steekproef van phishingdomeinen die we handmatig hadden gelabeld ontdekten we dat 58% was geregistreerd door kwaadwillenden en 42% gecompromitteerd was. In de steekproef van malwaredomeinen was 57% gecompromitteerd en 43% geregistreerd door cybercriminelen [1].
We toonden aan dat zogeheten content-based features (bijvoorbeeld het aantal technieken waarmee de website was gebouwd en de lengte van de content op de homepage van het domein) het meest effectief waren bij het bepalen van het ‘niveau van goedaardigheid’ van domeinnamen [1].
We introduceerden een nieuwe methode voor het schatten van het tijdstip waarop een domein is gecreëerd in gevallen waarin er geen WHOIS-informatie beschikbaar is. De methode levert betere resultaten op dan de gebruikelijke statistische methoden voor het invullen van ontbrekende waarden [1].
We bespraken de manieren waarop aanvallers het COMAR-systeem zouden kunnen omzeilen [1]. Hoge kosten en veel werk maken dit voor aanvallers lastiger en kunnen kwaadwillende actoren daarmee mogelijk ontmoedigen.
We constateerden dat de belangrijkste heuristieken voorgesteld in het phishingonderzoek van APWG [2] op zichzelf mogelijk niet volstaan om kwaadwillig geregistreerde domeinnamen juist te classificeren, vooral als de namen geen beroemde merknaam bevatten, een misleidende tekenreeks bevatten, of niet binnen korte tijd na registratie worden gebruikt [1].
Uit eerder onderzoek is gebleken dat kwaadwillenden na registratie van een domein soms maanden wachten alvorens het domein te gebruiken voor phishingaanvallen, zodat ze een hogere reputatiescore van security-organisaties krijgen. Deze tactiek staat bekend als ‘domain aging’ [2, 3]. We toonden aan dat zo'n 12% van de domeinen in de geanalyseerde groep in de eerste drie maanden na registratie werd gecompromitteerd. Deze twee bevindingen suggereren dat domeinreputatiesystemen die uitsluitend gebaseerd zijn op domeinleeftijd, mogelijk niet in staat zijn om kwaadwillig geregistreerde domeinen correct te onderscheiden van gecompromitteerde domeinen [1].
In de loop van het project onderzochten we ook nieuwe methoden die kwaadwillende actoren hanteren om anti-phishingstrategieën te ontwijken. Door handmatig kwaadaardige URL's te bezoeken, kwamen we erachter dat cybercriminelen vaak Google re-CAPTCHA [1] gebruiken om de ware content van schadelijke pagina's te verbergen. Meer informatie over dit onderzoek is te vinden in het artikel dat we in 2020 hebben gepubliceerd op de ACM Internet Measurement Conference [4].

Toekomstige onderzoeksrichtingen

Als we kwaadaardige en gecompromitteerde domeinen van elkaar kunnen onderscheiden, kan dat helpen om helder te krijgen welke praktijken en gedragingen aanvallers vaak toepassen om hun winst te maximaliseren. Een aantrekkelijke richting voor toekomstig onderzoek is dan ook om los van elkaar de patronen te bestuderen die geassocieerd worden met domeinnamen die zijn aangemerkt als kwaadaardig en de patronen die geassocieerd worden met domeinnamen die zijn aangemerkt als gecompromitteerd. Dit met het oog op het beantwoorden van vragen als: Maken cybercriminelen bij het registreren van domeinen gebruik van TLS-certificaten om ze legitiemer te laten lijken? Welk deel van alle domeinen op blocklists bestaat uit kwaadwillig geregistreerde domeinen in verschillende DNS-ecosystemen (zoals ccTLD's, nieuwe en legacy generieke TLD's)? Dit soort onderzoek kan intermediairs helpen om de manieren te identificeren waarop hun domeinnaamecosystemen worden misbruikt, zodat ze effectievere voorzorgsmaatregelen kunnen nemen.

De API van COMAR maakt het al mogelijk om kwaadaardige URL's in te dienen voor analyse en classificatie. We zijn van plan de methode achteraf te evalueren door de domeinen in .fr en .nl handmatig te labelen en te vergelijken met de labels die automatisch door COMAR zijn toegekend. Het uiteindelijke doel van het COMAR-project is het systeem beschikbaar te stellen aan de supportteams bij AFNIC en SIDN – de registry's voor twee toonaangevende Europese ccTLD's – en een systeem voor vroegtijdige waarschuwing op te zetten om het herstel van geblokkeerde URL's te vergemakkelijken.

Verwijzingen

[1] "COMAR: Classification of Compromised versus Maliciously Registered Domains", Sourena Maroofi, Maciej Korczyński, Cristian Hesselman, Benoit Ampeau en Andrzej Duda, IEEE European Symposium on Security and Privacy (IEEE EuroS&P 2020), Virtual Conference, september 2020
[2] "Global Phishing Survey: Trends and Domain Name Use in 2016", Greg Aaron en Rod Rasmussen, juni 2017
[3] "Cybercrime After the Sunrise: A Statistical Analysis of DNS Abuse in New gTLDs", Maciej Korczynski, Maarten Wullink, Samaneh Tajalizadehkhoob, Giovane C.M. Moura, Arman Noroozian, Drew Bagley, Cristian Hesselman, ACM Asia Conference on Computer and Communications Security (ACM AsiaCCS 2018), Zuid-Korea, juni 2018
[4] "Are You Human? Resilience of Phishing Detection to Evasion Techniques Based on Human Verification", Sourena Maroofi, Maciej Korczyński en Andrzej Duda, ACM Internet Measurement Conference (ACM IMC 2020), Virtual Conference, oktober 2020.

Artikel door: