Výrazem spam se označuje nevyžádaný, obtěžující, hromadně rozesílaný, zpravidla reklamní email. To, že spam zbytečně zatěžuje naši počítačovou síť je zanedbatelné ve srovnání se hlav ubohých adresátů spamu. Rozpoznávání a mazání spamu je otravné, připravuje nás o čas a odvádí nás od smysluplnější činnosti. Dodejme, že spam nemusí být jen komerční, v širším významu existuje i spam politický, akademický, náboženský a jistě mnoho dalších.

Protiklad spamu, tj. legitimní email, se někdy označuje slovem ham.

SPF: Sender Policy Framework

Protokol SPF poskytuje vlastníkovi domény možnost publikovat v systému DNS informaci o tom, které počítače (IP adresy) mají právo odesílat zprávy s kontrolovanou doménou v adrese odesílatele. Můžeme tedy například stanovit, že zprávy z domény example.org smějí být odesílány pouze z naší firemní sítě. Protože spammer nemá do naší sítě přístup, musí své falšované zprávy odesílat odjinud. Kontrola SPF záznamu na straně příjemce potom snadno odhalí, že zpráva nebyla odeslána z autorizovaného počítače.

DomainKeys

Dalším protokolem pro autentizaci odesílatele e-mailové zprávy je DomainKeys. Plní podobnou funkci jako SPF, funguje však jinak – používá princip elektronického podpisu. Servery, které mají oprávnění odesílat zprávy z dané domény, vytvářejí signaturu pro každou odchozí zprávu a ukládají ji do speciální hlavičky v odesílané zprávě. Veřejné klíče, kterými lze tyto signatury ověřit, publikuje vlastník domény v systému DNS, podobně jako SPF.
Signatura se počítá z těla zprávy a několika vybraných hlaviček. Dojde-li během transportu k pozměnění zprávy, například nějakým antivirem nebo filtrem, signatura samozřejmě nebude souhlasit. To je jeden z nedostatků celého systému. DomainKeys se tomuto problému snaží předcházet tím, že tělo zprávy prochází před podepsáním určitým preprocessingem (např. odstraňují se nadbytečné mezery), a také tím, že signaturu počítá jen z několika zvolených hlaviček.

DNSBL

DNSBL neboli DNS-based Blackhole List je metoda, jak pomocí systému DNS publikovat na internetu veřejný seznam IP adres, ve kterém lze snadno vyhledávat pomocí jakéhokoliv DNS klienta. První DNS blacklist vytvořil v roce 1997 Paul Vixie, když založil službu MAPS (Mail Abuse Prevention Systems), která publikovala IP adresy SMTP serverů, ze kterých je posílán spam. Spammeři totiž často vyhledávají špatně nakonfigurované nebo napadené SMTP servery na internetu a ty potom zneužívají k rozesílání svého spamu. Dostane-li se takový server na blacklist, může ho každý uživatel blacklistu snadno blokovat a odmítat veškerou poštu z něj odeslanou. To jednak omezí množství spamu, které od tohoto serveru přijmeme, jednak vyburcuje správce napadeného serveru k rychlé nápravě situace a odstranění z blacklistu, poté co velká část internetu odmítne přijímat poštu z jeho serveru.

Greylisting

Greylisting je jednoduchá ochrana SMTP serveru před spamem využívající některé vlastnosti protokolu SMTP. Tento protokol umožňuje přijímajícímu serveru „dočasně odmítnout“ jakoukoliv zprávu. Správně nakonfigurovaný klient se pokusí takto odmítnutou zprávu znovu doručit po uplynutí určitého timeoutu (v řádu desítek minut). Trik je v tom, že spammeři se o opakované doručení téměř nikdy nepokusí, protože nemají zdroje a čas k tomu, aby si udržovali frontu nedoručených zpráv a snažili se o stoprocentní doručení.

Hash-based antispam: DCC

Systém DCC (Distributed Checksum Clearinghouse) je databáze, která ukládá hashe (krátké jedinečné identifikátory vypočítané z obsahu zprávy) nevyžádaných zpráv, které byly do systému nahlášeny. Uživatel systému DCC potom spočítá hash z každé přijaté zprávy a pomocí něj se zeptá DCC serveru, zda zná tuto zprávu a jestli se jedná o spam. Myšlenka je taková, že každý spam je rozeslán do internetu v mnoha kopiích a poté, co první příjemce identifikuje zprávu jako spam a pošle ji do systému DCC, můžou všichni tuto sdílenou informaci využít.

Bayesiánské filtry

Nejpoužívanější antispamovou metodou jsou v dnešní době bayesiánské filtry. Tuto metodu poprvé navrhl v roce 2002 Paul Graham ve svém článku Plan for Spam. Bayesiánský filtr je provádí statistickou analýzu zpráv a snaží se podle obsahu zprávy vypočítat pravděpodobnost toho, že daná zpráva je spam. Práce s bayesiánským filtrem má dvě fáze: učení a klasifikaci.
Během učení předkládáme filtru zprávy, o kterých už víme, zda se jedná o spamy, nebo ne. Filtr si tyto zprávy rozdělí na jednotlivá slova (tokeny) a tyto tokeny si ukládá do databáze. Ke každému tokenu si ukládá informaci o tom, kolikrát se vyskytnul ve spamech a kolikrát v normálních zprávách. Dejme tomu, že jsme bayesiánskému filtru předložili k učení sto zpráv, ve kterých se vyskytuje slovo „Viagra“. O 99 z nich jsme řekli, že je to spam a jedna zpráva byla normální. Databáze bayesiánského filtru si tuto informaci uloží a ví, že 99 % výskytů slova „Viagra“ se nachází ve spamech. Tokeny nemusí být jen slova – lze klasifikovat v podstatě jakoukoliv vlastnost zprávy. Můžeme například ověřovat SPF záznamy pro příchozí zprávy a výsledky ověření (SPF:fail, SPF:success, SPF:unknown) použít jako další tokeny při učení a klasifikaci.
Druhá fáze je klasifikace, kdy filtru předkládáme příchozí zprávy a chceme od něj odpověď, zda jsou tyto zprávy spamy. Testovaná zpráva je opět rozdělena na tokeny a z databáze filtru zjistíme spamové pravděpodobnosti jednotlivých tokenů. Známe-li jednotlivé pravděpodobnosti, pomocí metod matematické statistiky můžeme vypočítat celkovou pravděpodobnost, že zpráva jako celek je spam. Obor, který se zabývá řešením problémů tohoto typu, se jmenuje bayesiánská statistika – odtud pochází také název filtru.

Doporučení na závěr

Nakládejte se svojí e-mailovou adresou od počátku svědomitě. Nezveřejňuje ji na stránkách (namísto toho použijte např. kontaktní formuláře) a vyvarujte se nejrůznějším řetězovým e-mailům, jejichž primární účel nebývá pobavení příjemců, ale sběr e-mailových adres. Jedině striktním dodržováním základních pravidel se nedostane do databází spammerů a nemusíte být dotěrnými SPAMy vůbec obtěžováni.

Naposledy změněno: neděle, 24. listopadu 2019, 08.38