De COMAR-classifier toepassen op 35.000 unieke phishing-URL's

Onderzoek belicht kenmerken van gecompromitteerde en malafide geregistreerde domeinnamen

Creditcard die met behulp van een vishaak van een toetsenbord gelicht wordt

De oorspronkelijke blog is in het Engels. Dit is de Nederlandse vertaling. Het onderzoek is uitgevoerd door Universiteit van Grenoble Alpes in samenwerking met AFNIC en SIDN Labs.

In onze vorige blogs [1, 2] bespraken we de COMAR-classifier, die op een zwarte lijst geplaatste (oftewel 'blacklisted') URL's automatisch groepeert in gecompromitteerde of malafide geregistreerde domeinnamen. In deze blog richten we ons op het toepassen van de COMAR-classifier op URL's die op een zwarte lijst zijn geplaatst omdat ze phishingpagina's weergeven. We namen een selectie van 4 kenmerken van de domeinnamen van schadelijke URL's onder de loep en onderzochten in welke mate deze in de verschillende soorten topleveldomeinen (TLD's) voorkomen. Op basis van de geanalyseerde datasets zien we bijvoorbeeld dat 84% van de malafide geregistreerde domeinnamen minder dan een jaar oud is. Aan de andere kant zien we dat ongeveer 57% van de gecompromitteerde domeinen minstens 6 jaar oud zijn voordat ze op een zwarte lijst terechtkwamen, meestal door een hack op websiteniveau. Omdat COMAR een volledig geautomatiseerd systeem is dat classificatie uitvoert op basis van meerdere kenmerken, is het bestand tegen manipulatie (zoals 'domain aging').

Samenvatting

Dit zijn onze belangrijkste bevindingen:

  • Ongeveer een kwart van de domeinnamen die worden misbruikt om een phish uit te voeren, is gecompromitteerd en kan over het algemeen niet worden geblokkeerd op DNS-niveau.

  • Terwijl voor legacy gTLD's en ccTLD's geldt dat tussen 26% en 32% van de domeinnamen goedaardig is maar mogelijk op websiteniveau is gehackt, is de overgrote meerderheid van domeinnamen in nieuwe gTLD's malafide geregistreerd.

  • De trefwoorden die het meest worden gebruikt in domeinnamen die malafide actoren registreerden om slachtoffers te verleiden hun inloggegevens in te vullen, zijn 'online', 'bank', 'service', 'info', 'support', 'secure' en 'paypal'.

  • Bij 84% van de malafide geregistreerde domeinnamen zit er minder dan een jaar tussen de registratiedatum en de datum waarop het domein op een zwarte lijst kwam te staan en bij 13% daarvan gebeurde dat op een en dezelfde dag.

  • Maar liefst 71,8% van de malafide geregistreerde domeinnamen gebruikt geen specifieke techniek op de homepage. Daarentegen werden bij 67,7% van de gecompromitteerde domeinen meer dan 6 verschillende frameworks en plugins gebruikt om de website te bouwen, wat hen kwetsbaar maakte voor aanvallen op webtoepassingen.

Overzicht van het COMAR-systeem

COMAR (classification of COmpromised versus MAliciously Registered domains) [3] is een machinelearningsysteem dat onderscheid kan maken tussen malafide domeinnamen die cybercriminelen speciaal voor frauduleuze doeleinden registreerden en goedaardige domeinnamen die gehackt zijn en vooral op hostingniveau worden misbruikt. Dit gebeurt vaak door gebruik te maken van kwetsbaarheden in webtoepassingen. In beide gevallen worden deze domeinnamen door cybercriminelen misbruikt om schadelijke content te verspreiden, zoals malware of phishingwebsites. De COMAR-classifier is een nauwkeuriger methode [3] om dit onderscheid te maken dan alleen aan de hand van heuristieken zoals de domeinleeftijd, waar in de praktijk vaak naar wordt gekeken. Een website kan immers ook vlak na de registratie van de domeinnaam worden gehackt of cybercriminelen kunnen een domeinnaam registreren maar deze pas maanden later in een phish gebruiken. In dit soort gevallen bestaat de kans dat de kwaadaardigheid van de domeinnaam verkeerd wordt ingeschat. COMAR heeft daar geen last van, omdat het minder afhankelijk is van individuele kenmerken zoals de registratiedatum (slechts een van 38 voorgestelde kenmerken) [3].

De COMAR-classifier is bedoeld om actoren in de domeinregistratie- en hostingsectoren te helpen hun anti-abuseprocessen te verbeteren. Om precies te zijn, als COMAR een domeinnaam classificeert als malafide geregistreerd, kunnen registry's en registrars de domeinnaam vervolgens blokkeren* en kan de hostingprovider de schadelijke content van de hostingserver verwijderen. Classificeert COMAR een domeinnaam als goedaardig maar gecompromitteerd op hostingniveau, dan moeten registry's en registrars de naam juist niet blokkeren op DNS-niveau, want dan ondervinden de legitieme gebruikers van het domein (dus de domeinnaamhouder en de bezoekers van de website) daar ook hinder van. In plaats daarvan moet, afhankelijk van of de hosting onbeheerd of beheerd is, de webmaster of de hostingprovider de schadelijke inhoud verwijderen en de kwetsbare toepassing repareren.

Als we onderscheid maken tussen malafide domeinnamen en goedaardige maar gecompromitteerde domeinnamen, kan dat ook meer inzichten in het gedrag van de aanvallers opleveren. Hier hebben we in de praktijk veel aan. Met behulp van COMAR is het bijvoorbeeld mogelijk om een lijst op te stellen van populaire termen (zoals 'support', 'online', 'bank') in domeinnamen die bij phishingaanvallen gebruikt zijn en zijn aangemerkt als malafide geregistreerd. Zo'n lijst kan worden gebruikt om een proactief domeinbewakingssysteem te bouwen dat pas geregistreerde domeinen op dat soort trefwoorden controleert om potentiële nieuwe phishes te identificeren.

Classificatieresultaten

Voor deze blog analyseerden we phishing-URL's die we in de eerste 6 maanden van 2021 verzamelden. We voerden een automatische evaluatie uit van 35.519 unieke phishing-URL's (met unieke onderliggende domeinnamen in verschillende TLD's) afkomstig van APWG en PhishTank.

Figuur 1 laat de algemene classificatieresultaten zien: 76% van de domeinnamen werd specifiek voor malafide doeleinden geregistreerd en 24% werd geclassificeerd als geregistreerd door goedwillende gebruikers maar gecompromitteerd. Als deze domeinnamen op hosting- en niet op DNS-niveau zijn gecompromitteerd, zouden ze niet door TLD-registry's of -registrars moeten worden geblokkeerd.

Cirkeldiagram dat het percentage algemene classificatieresultaten voor de phishing-URL's laat zien.

Figuur 1: Algemene classificatieresultaten voor de phishing-URL's.

Figuur 2 toont de classificatieresultaten voor phishingsites in verschillende TLD-typen:

  • legacy gTLD's (zoals .com, .net of .org)

  • nieuwe gTLD's (zoals .top, .report of .xyz)

  • ccTLD's (landdomeinen zoals .nl, .fr of .br).

Diagram dat het percentage classificatieresultaten voor de phishing-URL's per TLD-type laat zien.

Figuur 2: Classificatieresultaten voor de phishing-URL's: per TLD-type.

Zoals Figuur 2 laat zien, is in nieuwe gTLD's bijna 96% van de domeinnamen van blacklisted phishing-URL's waarschijnlijk malafide geregistreerd, tegen 69% in legacy gTLD's en ongeveer 74% in ccTLD's. De vraag is nu: waarom zijn er in vergelijking met ccTLD's en legacy gTLD's in nieuwe gTLD's in verhouding zoveel meer malafide geregistreerde domeinnamen dan gecompromitteerde domeinnamen? Eerdere studies [4, 5]hebben aangetoond dat een relatief groot deel van de domeinnamen in nieuwe gTLD's meestal ofwel geparkeerd staat ofwel geen inhoud bevat (DNS- of HTTP-fouten), vergeleken met legacy gTLD's. Vermoedelijk heeft het ermee te maken dat alleen domeinnamen met inhoud mogelijk kwetsbaar zijn voor bepaalde vormen van misbruik en daardoor op websiteniveau kunnen worden gehackt. Dat zou een plausibele verklaring zijn voor het feit dat slechts een fractie van de domeinnamen van nieuwe gTLD's lijkt te worden gecompromitteerd. Deze hypothese moet in de toekomst echter nog systematisch worden onderzocht, want tot op heden heeft geen enkele studie een dergelijke vergelijkende analyse uitgevoerd.

De gepresenteerde resultaten moeten uitsluitend worden gezien als trendindicatoren en zijn mogelijk vertekend door de gebruikte zwarte lijsten en de kortetermijntrends in de keuzes die door aanvallers worden gemaakt. Sommige zwarte lijsten kunnen bijvoorbeeld effectiever zijn in het detecteren van malafide geregistreerde domeinnamen (bijvoorbeeld op basis van verdachte trefwoorden), terwijl andere effectiever zijn in het detecteren van gecompromitteerde sites. Soms bieden registrars die geaccrediteerd zijn door een TLD-registry gedurende een korte periode voordelige registratietarieven aan om nieuwe klanten aan te trekken. Malafide actoren kunnen van deze speciale aanbiedingen profiteren om op grote schaal domeinnamen te registreren. Dit kan van invloed zijn op de waargenomen percentages van gecompromitteerde en malafide geregistreerde domeinen.

Analyse van geselecteerde indicatoren waarop COMAR de classificatie baseert

Zoals besproken in onze vorige blog [2], classificeert COMAR op basis van 38 indicatoren, ook wel features genoemd, die een blacklisted URL en de geregistreerde domeinnaam karakteriseren. In deze blog leggen we uit hoe COMAR gecompromitteerde en malafide geregistreerde domeinnamen van elkaar onderscheidt aan de hand van vier geselecteerde indicatoren: populaire termen in domeinnamen, het aantal gebruikte webtechnieken, de leeftijd van de domeinnaam en het gebruik van HTTPS-certificaten.

Bij indicatoren die erop wijzen dat een domeinnaam is geregistreerd door een cybercrimineel (en niet door een goedwillende gebruiker), gaat het onder meer om speciale trefwoorden in de domeinnaam, zoals 'verification', 'payment', 'support' of een merknaam (bijvoorbeeld paypal-online-support.com). Figuur 3 toont een woordfrequentieanalyse van domeinnamen binnen de phishingdataset die automatisch zijn geclassificeerd als malafide geregistreerd (rood) of gecompromitteerd (blauw).

Staafdiagram dat populaire zoekwoorden die worden gebruikt in phishing-domeinnamen toont.

Figuur 3: Populaire zoekwoorden die worden gebruikt in phishing-domeinnamen.

We zien dat cybercriminelen inderdaad de neiging hebben om dit soort woorden in domeinnamen op te nemen om slachtoffers te verleiden hun inloggegevens in te voeren. De trefwoorden die het vaakst door malafide actoren worden gebruikt, zijn 'online', 'bank', 'service', 'info', 'support', 'secure' en 'paypal'. De domeinnamen van gecompromitteerde sites bevatten daarentegen zelden zulke speciale trefwoorden. Daarom maakt COMAR bij de classificatie gebruik van lexicale indicatoren als 'special word in domain name' of 'name of a well-known brand in domain name'.

Een andere indicator waar COMAR op let, is 'number of web technologies': het aantal JavaScript-, CSS- of CMS-frameworks en -plugins waarmee de homepage van gecompromitteerde en malafide geregistreerde domeinnamen is gebouwd. Ontwikkelaars van professioneel ontworpen, prominente websites vermijden meestal het gebruik van al te veel bibliotheken en frameworks. Dat geldt echter niet voor minder complexe websites. Het aantal technieken dat wordt gebruikt voor het ontwikkelen van een website kan een afspiegeling zijn van de tijd en aandacht die de ontwerper heeft besteed aan het creëren van een volledig functionele website. Figuur 4 toont de resultaten voor gecompromitteerde en malafide geregistreerde domeinnamen.

Staafdiagram dat het aantal technieken voor malafide geregistreerde en gecompromitteerde phishingdomeinen toont.

Figuur 4: Aantal technieken voor malafide geregistreerde en gecompromitteerde phishingdomeinen.

Bij maar liefst 67,7% van de gecompromitteerde domeinen zijn meer dan 6 verschillende technieken, frameworks en plugins gebruikt om de website te bouwen. Daarentegen heeft 71,8% van de malafide geregistreerde domeinnamen geen specifieke techniek op de homepage. We hebben gemerkt dat veel malafide geregistreerde domeinen geen homepage hebben (en de standaard indexpagina van de website laten zien), omleiden naar een ander domein (bijvoorbeeld de landingspagina van een phish) of een aangepaste foutmelding weergeven (bijvoorbeeld 'forbidden page'). Vaak serveren ze de phishingpagina op een URL-pad of op subdomeinniveau.

Staafdiagram dat de leeftijd van gecompromitteerde en malafide geregistreerde domeinnamen toont.

Figuur 5: Leeftijd van gecompromitteerde en malafide geregistreerde domeinnamen.

De leeftijd van een domeinnaam, gedefinieerd als de tijd tussen het moment waarop de domeinnaam is geregistreerd en het moment waarop deze op een zwarte lijst komt te staan, is een belangrijke indicator voor de COMAR-classifier. Intuïtief is het zo dat hoe ouder de domeinnaam is, des te waarschijnlijker het is dat deze is geregistreerd door een goedwillende gebruiker, maar op een later tijdstip is gecompromitteerd. Maar hoewel cybercriminelen meestal de neiging hebben om een domeinnaam te registreren en die dan kort daarna te misbruiken, kunnen ze net zo goed gebruikmaken van domeinen die ze kort na hun registratiedatum hackten [3]. Bovendien 'verouderen' criminelen geregistreerde domeinen soms door weken of zelfs maanden te wachten voordat ze deze misbruiken, een tactiek die bekend staat als 'domain aging'. Omdat COMAR echter een volledig geautomatiseerd systeem is dat classificatie uitvoert op basis van meerdere indicatoren (waarvan 'domain name age' er slechts één is), is het bestand tegen dit soort tactieken.

Figuur 5 toont de leeftijd van domeinnamen voor alle TLD's die een registratiedatum verstrekken als onderdeel van hun WHOIS-gegevens. De waarde '0' betekent dat een domein op dezelfde datum is geregistreerd en op een zwarte lijst is geplaatst. '1' betekent dat het verschil tussen beide datums maximaal een jaar is en '>6' betekent dat het verschil minimaal 6 jaar is. Bij 84% van de malafide geregistreerde domeinnamen is het verschil tussen de datums minder dan een jaar en bij 13% daarvan verschenen de domeinen op de dag van registratie op een zwarte lijst. Voor gecompromitteerde domeinnamen gold dat ongeveer 57% al minstens 6 jaar geregistreerd was voordat ze op een zwarte lijst kwamen te staan. Een mogelijke verklaring voor dit fenomeen is dat websites die worden gehost met behulp van oudere domeinnamen eerder gebruik zullen maken van verouderde technologie of contentmanagementsystemen (bijvoorbeeld kwetsbare versies van CMS'en zoals WordPress) en dus gemakkelijker te hacken zijn.

Diagram dat het percentage TLS-certificaten toont, dat is uitgegeven voor malafide geregistreerde en gecompromitteerde phishingdomeinen.

Figuur 6: Uitgegeven TLS-certificaten voor malafide geregistreerde en gecompromitteerde phishingdomeinen.

Nog een interessante, maar volgens onze analyse [3] minder belangrijke indicator waar de COMAR-classifier naar kijkt, is het gebruik van het TLS-protocol (Transport Layer Security). Volgens een rapport van PhishLabs [9] gebruikte in 2020 driekwart van alle phishingsites HTTPS (HTTP over TLS) 'om een laag van legitimiteit toe te voegen, de doelsite in kwestie beter na te bootsen en detectie of blokkering door bepaalde browsers te voorkomen of verminderen'. In dit rapport wordt echter geen onderscheid gemaakt tussen gecompromitteerde en malafide geregistreerde domeinnamen. Om vast te stellen of cybercriminelen inderdaad steeds vaker met TLS-certificaten werken, is het nodig om dat onderscheid wél te maken en het TLS-gebruik in de groep malafide geregistreerde domeinnamen afzonderlijk te analyseren. Anders is het onduidelijk of het TLS-certificaat is uitgegeven op verzoek van een crimineel om een malafide website legitiemer te laten lijken of dat het door een legitieme domeineigenaar is aangevraagd voor een goedaardig domein dat later door een crimineel is gehackt en misbruikt.

Figuur 6 toont het percentage TLS-certificaten dat is uitgegeven voor malafide en legitieme (en later gecompromitteerde) domeinnamen die betrokken waren bij phishingaanvallen. Het gebruik van TLS-certificaten komt bij phishers minder vaak voor dan bij goedaardige (maar gecompromitteerde) domeinnamen. Bij 75% van de phishingaanvallen waarbij gebruik wordt gemaakt van gecompromitteerde domeinen, worden TLS-certificaten gebruikt die zijn uitgegeven op verzoek van de goedwillende domeineigenaren (bijvoorbeeld het groene slotje in de adresbalk van de browsers), terwijl 64% van de malafide geregistreerde domeinen met TLS-certificaten werkt die opzettelijk door malafide actoren worden ingezet om hun slachtoffers te misleiden.

Conclusies

In deze blog presenteerden we de resultaten van het toepassen van COMAR op phishingwebsites en het classificeren van geregistreerde domeinen als schadelijk of gecompromitteerd. We pasten COMAR van januari tot juni 2021 toe op malafide URL's die door bekende providers, te weten APWG en PhishTank, op de zwarte lijst waren gezet. We lieten zien dat 76,2% van de domeinnamen malafide geregistreerd was en 23,8% gecompromitteerd. Daarnaast brachten we aan het licht dat het gebruik van bepaalde trefwoorden in domeinnamen, de leeftijd van de domeinnaam en het aantal gebruikte technieken significante discriminatoren zijn bij het onderscheid tussen gecompromitteerde en malafide geregistreerde domeinen. Ook constateerden we dat malafide actoren minder vaak gebruikmaken van TLS-certificaten dan eigenaren van legitieme (en gecompromitteerde) domeinnamen. COMAR is een volledig geautomatiseerd systeem dat classificatie uitvoert op basis van meerdere zogeheten features. Hierdoor is het bestand tegen manipulatie (zoals 'domain aging'), praktisch en veel nauwkeuriger dan op regels gebaseerde heuristische methoden. Al met al kan het de verschillende entiteiten die betrokken zijn bij domeinnaamregistratie en hosting helpen om het proces van het mitigeren van DNS-misbruik te stroomlijnen.

Afronding van het COMAR-project

Met deze blog ronden we het COMAR-project af, dat eind 2018 startte en werd gefinancierd door AFNIC en SIDN. COMAR heeft geleid tot een succesvol proefschrift aan de Universiteit van Grenoble Alpes en in totaal 4 wetenschappelijke papers. Een hiervan werd gepubliceerd op het (zeer gerenommeerde) IEEE European Symposium on Security and Privacy 2020 [3], een op de (al net zo gerenommeerde) ACM Internet Measurement Conference 2020 [6], een op Traffic Measurement and Analysis 2020 [7] (Best Paper Award) en de uitgebreide versie daarvan op IEEE Transactions on Network and Service Management 2021 [8]. AFNIC en SIDN zijn momenteel bezig om het prototype van de door de Universiteit van Grenoble Alpes ontwikkelde COMAR-classifier te integreren in hun productiesystemen om het gemakkelijker te maken om malafidegeregistreerde of gecompromitteerde domeinnamen met schadelijke inhoud onschadelijk te maken.

We kijken uit naar de verdere samenwerking tussen de Universiteit van Grenoble Alpes, AFNIC en SIDN!

Verwijzingen

  1. Franco-Dutch research project on automatic classification of domain name abuse Cristian Hesselman, Benoît Ampeau en Maciej Korczyński, oktober 2018.

  2. Gecompromitteerde van kwaadaardige domeinnamen onderscheiden met behulp van COMAR Sourena Maroofi, Maciej Korczyński, Benoît Ampeau, Thymen Wabeke, Cristian Hesselman, Andrzej Duda, april 2021

  3. COMAR: Classification of Compromised versus Maliciously Registered Domains, Sourena Maroofi, Maciej Korczyński, Cristian Hesselman, Benoît Ampeau en Andrzej Duda, IEEE European Symposium on Security and Privacy (IEEE EuroS&P 2020), Virtual Conference, september 2020

  4. Cybercrime After the Sunrise: A Statistical Analysis of DNS Abuse in New gTLDs, Maciej Korczyński, Maarten Wullink, Samaneh Tajalizadehkhoob, Giovane C.M. Moura, Arman Noroozian, Drew Bagley, Cristian Hesselman, ACM Asia Conference on Computer and Communications Security (ACM AsiaCCS 2018), Zuid-Korea, juni 2018

  5. From .academy to .zone: An Analysis of the New TLD Land Rush, T. Halvorson, M. F. Der, I. Foster, S. Savage, L. K. Saul en G. M. Voelker, ACM Internet Measurement Conference, oktober 2015

  6. Are You Human?: Resilience of Phishing Detection to Evasion Techniques Based on Human Verification Sourena Maroofi en Maciej Korczyński en Andrzej Duda, ACM Internet Measurement Conference, oktober 2020

  7. From Defensive Registration to Subdomain Protection: Evaluation of Email Anti-Spoofing Schemes for High-Profile Domains, Sourena Maroofi, Maciej Korczyński en Andrzej Duda, Network Traffic Measurement and Analysis Conference (TMA 2020), juni 2020 (Best Paper Award)

  8. Adoption of Email Anti-Spoofing Schemes: A Large Scale Analysis, Sourena Maroofi, Maciej Korczyński, Arnold Holzel en Andrzej Duda, IEEE Transactions on Network and Service Management, 2021

  9. Abuse of HTTPS on Nearly Three-Fourths of all Phishing Sites (2020), PhishLabs.

*Dit betekent dat de domeinnaam uit het TLD-zonebestand moet worden verwijderd of dat de nameserver moet worden verwijderd om te voorkomen dat het domein op het openbare internet wordt omgezet.