Antispamový filtr DSPAM (viz http://dspam.nuclearelephant.com/ )
(popis a krátký návod k obsluze)
DSPAM je adaptivní statistický antispamový filtr (dále odkazováno
jako AS) schopný "se učit" z obsahu zprávy.
Dosahuje běžně přesnosti 99.5% - 99.95%, autor sám dosahuje 99.987% přesnost,
tj. asi o řád větší než člověk, a jsou reportované ještě lepší výsledky.
DSPAM je ideální jako centrální serverové řešení s malými nároky na údržbu
ze strany správce i uživatelů.
Na počátku po instalaci má DSPAM jen velmi omezenou databázi vědomostí (antispamovou
databázi - DB) o tom, co je spam. Naučit jej musí sám uživatel tím, že mu řekne,
v které zprávě se spletl (typicky kterou DSPAM označil za dobrou zatímco se
jednalo o spam; opačná možnost (označení dobré zprávy za spam) je velmi řídká.
Spamové zprávy (e-maily DSPAMem určené jako spam) nejsou v implicitním nastavení doručeny,
ale umístěny v tzv. karanténním boxu, přístupném přes webové rozhraní.
Uživatel by měl jednou za čas karanténní box prohlédnout a
- ověřit zda nebyla omylem zachycena žádná "dobrá" zpráva (pokud ano, je
třeba ji označit a odeslat k doručení. DSPAM se zároveň poučí z omylu).
- vybrané nebo všechny spamy v karanténním boxu smazat, aby jeho velikost
příliš nenarůstala (administrátor serveru většinou nastaví automatické mazání
karantény při překročení určitého limitu - to si pište !!!)
Pozn.: Kromě výše popsaného a nejčastěji používaného umisťování spamů do karanténního
boxu je možné DSPAM nakonfigurovat také tak, že spamy doručuje s označením "Subjektu"
(implicitně řetězcem [SPAM]) nebo je spam jen označen v hlavičce zprávy.
Z hlediska učení a obsluhy karanténního boxu je možné DSPAM konfigurovat:
- Každý uživatel si jede "na svém písečku", tj. má svůj karanténní box a svoji
antispamovou znalostní databázi a sám si DSPAM učí na specifické chování své
pošty.
- Je definována jedna (nebo více) skupina uživatelů, která má svoji společnou
antispamovou znalostní databázi, ale každý uživatel má svůj karanténní box o
který se sám stará. Vhodné pro skupiny stejného charakteru pošty, díky společné
znalostní databázi se může DSPAM rychleji učit.
- Jako v předchozím případě je definována skupina(-y) uživatelů se společnou
antispamovou znalostní databázi, ale navíc ještě s jedním uživatelem (reálným
nebo fiktivním) určeným jako správce karantény a řízení DSPAMu pro tuto skupinu.
Ostatní uživatelé nemají možnost přístupu k webovému rozhraní, mohou pouze
DSPAM uvědomit a poučit o jim chybně doručených spamech. Tato varianta je
vhodná v menších uzavřenějších skupinách a tam, kde se uživatelé sami chtějí
antispamem zabývat co nejméně.
Jak již bylo zmíněno, uživatelé mohou (přímo musí, chtějí-li dosáhnout
dobré přesnosti filtrace spamu) s DSPAMem komunikovat - aby jej učili
a opravovali jeho omyly, sledovali statistiky jeho činnosti, případně i
nedej pánbů nastavovali parametry jeho činnosti. Základní, nejdůležitější
a alespoň zpočátku neopomenutelná činnost je informování DSPAMu, že se spletl
a propustil spam. Toto lze provést dvěma způsoby:
- přeposláním (v grafických mailových klientech tlačítkem "Forward",
"Přeposlat", "Poslat dál" či podobným) došlého spamu na adresu
"spam-UŽIVATELSKÉ_LOGIN_JMĚNO@DOMÉNA_UŽIVATELE"
(tj. před e-mail adresu uživatele předřadit řetězec "spam-")
! POZOR na případy, kdy uživatel používá ještě další tzv.
mailové přezdívky (aliasy) - ty není možno použít pro volání DSPAMu !
V případě pochybností je nutno se poradit se správcem pošty.
Tento způsob přeposlání je možný vždy, ať uživatel spadá do jakékoliv z tří výše
uvedených konfiguračních skupin.
- přes WWW rozhraní DSPAMu. Je dostupné z webového prohlížeče na URL které má
většinou tvar (váš správce sítě vám poskytné přesné informace) :
https://nospam.jméno_domény.cz:4433/
(prohlížeči se asi nebude líbit certifikát serveru - jednak nejsem příliš
důvěryhodná certifikační autorita, jednak se liší jména serveru při pohledu
zevnitř firmy a zvenku. Je třeba jej uklikat až se přestane vzpouzet :)).
K webovému rozhraní je třeba se přihlásit - přihlašovací jméno
a heslo je stejné jako k přístupu k poště.
Webové rozhraní umožňuje plnou kontrolu antispamu, uživatel je má
ale přístupné pouze v případě konfigurace jako samostatný subjekt nebo skupina
bez správce (viz výše). Jeho základní obsluhu viz následující odstavec.
Základní pravidla pro přeposílání spamů/identifikaci spamů:
- Poměrně často doptávaný dotaz: Dostal jsem evidentní spam, adresa
odesilatele jsem já nebo (lidi z práce|kamarái|...) . Mám jej antispamu
forwardovat jako spam? Nezablokuji si tím příjem z těchto adres?:
Odpověď: Ne, nezablokujete. Takovýto mail je třeba přeposlat
jako každý jiný spam.
- Je na každém uživateli aby vyhodnotil co je spam a co nikoliv. Jiný
charakter pošty bude mít pošta maminky komunikující s dítětem o pár
kilometrů dále, a jiný bude mít pošta provozovatele nevěstinců (používá
se ještě tento výraz?
- Jestliže si je uživatel není jistý zda jde o spam či ne, je lépe (mail
v přišlé poště, tzn. AS vyhodnocený jako dobrý) mail ignorovat. Je-li mail v
neznámé řeči, zvážím zda nemůže jít o firemní obchodní korespondenci a ev.
se poradím se znalcem příslušného jazyka.
- Přeposílám-li spam na učící se centrum, je třeba přesně znát svoji
"přeposílací" adresu (viz první bod předchozího odstavce). Pokud přeposlání
spamu skončí chybou, kontaktujte správce systému.
- Pokud je DSPAM nakonfigurován pro užití centrální znalostní spamové databáze
a jeden a tentýž mail-spam přijde několika uživatelům, z nichž jeden jej
přepošle jako spam a ostatní se na to vyprdnou, nepovede to k naučení AS !
- A nakonec pár zásad pro psaní e-mailů (nejen pro dobro antispamu)
- Každý mail by měl mít vyplněné pole "Subjekt:" zprávy - několik slov
popisujích zhruba oč v mailu jde.
- Je vhodné mít (a většina poštovních klientů to podporuje) vyplněné svoje
vlastní jméno (které se dává do pole "From:" (="Od") hlavičky mailu.
- Používání diakritiky ve jméně a subjektu: Nepovede-li to k nejasnostem,
tak raději ne. Národní ne US-ASCII znaky se přenášejí kódovaně speciálním
formátem a nejsou běžně čitelné.
- Používání diakritiky v těle mailu: Proč ne, není problém. Většina
klientů regulérně informuje jaká znaková sada byla použita a stejně dobře si
poradí s došlým mailem. Pokud vás ovšem váš protějšek neupozorní, že
diakritiku nechce.
- Psát zprávu ve formátu HTML nebo jako čistý (plain) text? : Plain text
je srozumitelný pro všechny klienty, je to standard od počátku internetové
pošty, řada mailing listů akceptuje pouze tento formát, řada lidí jej pro
komunikaci vyžaduje také, je většinou vhodnější pokud má být mail dále strojově
zpracováván. Stejná zpráva v HTML formátu bývá také několikrát větší než
stejná v čistém textu - je to dáno spoustou balastu HTML značek, které
zprávu obalují. Většina poštovních klientů opět umožňuje zvolit výchozí
formát zpráv, změnit jej pro konkrétní mail, a v adresáři u jednotlivých
kontaktů si určit, jaký formát zpráv akceptují.
Webové rozhraní umožňuje mj. sledovat různé statistiky DSPAMu, grafy rozložení
a časového průběhu pošty a spamu v ní, práci s karanténním boxem a s historií
příchozích zpráv. Poslední dvě činnosti jsou pro činnost a učení DSPAMu
nejdůležitější, proto je zmíním blíže:
- v sekci "Quarantine" (Karanténa) je vypsán obsah karanténního boxu, jednotlivé
položky (box se podle nich nechá také třídit) jsou :
- Rating - pravděpodobnost spamu: 50% znamená že je to na vážkách, 75% je spam s
velkou pravděpodobností, 95% je spam (téměř) nabeton.
- Date - datum doručení zprávy
- From - začátel jména a e-mail adresy odesílatele zprávy
- Subject - začátek řádky zkráceného obsahu zprávy. Pozor: Tento subjekt
je "klikací" a po odkliknutí se v prohlížeči zobrazí "zdrojový" text mailu - oceníte
to v případě, kdy ze zobrazených údajů nelze jednoznačně určit, zda je zpráva opravdu spam.
U každé zprávy je také zaškrtávací políčko, zaškrtnutím jednoho nebo více políček
zpráv a následným kliknutím na jedno ze tří tlačítek nahoře je možné provést:
- "Deliver Checked" (Doruč zaškrtnuté) - slouží k vyjmutí zpráv(-y) z karanténního
boxu, jejich doručení a zároveň poučení DSPAMu že tyto zprávy nejsou spam.
- "Delete Checked" (Smaž zaškrtnuté) - pouze smaže označené zprávy z karanténního
boxu.
- "Delete All" (Smaž vše) - tady není třeba zaškrtávat políčka u zpráv, kliknutím
na toto tlačítko se vymaže celý karanténní box.
- v sekci "History" (Historie) je možné zobrazit přehled všech posledních došlých
zpráv, jak dobrých tak spamů.
Pole datumu (Date), odesílatele (From) a obsahu
(Subject) mají stejný význam jako ve výpise karantény. Důležitý je levý sloupec s
označením typu zprávy v barevném poli, vedle něj vpravo zaškrtávací pole "Retrain"
(přeučení, opětné učení) a ještě více vpravo textové klikací pole říkající DSPAMu
za co má po odeslání zprávu považovat.
Učit DSPAM odesláním informací o jeho omylech
můžeme dvěma způsoby - individuálně u každé zprávy kliknutím na textový odkaz
vpravo od zaškrtávacího pole nebo
můžeme zaškrtnout více zpráv najednou a pak informaci odeslat hromadně kliknutím na
tlačítko "Retrain Checked" ("Znovu se nauč zaškrtnuté") nahoře nad výpisem.
Popis nejčastějších hodnot typu zprávy v levém poli "Type":
- "Good" v zeleném - DSPAM si myslí, že zpráva je OK
- "SPAM" v červeném - DSPAM si myslí, že zpráva je spam
- "Whitelist" ve fialovém - opakující se podobné OK zprávy se mohou časem dostat na
automaticky vytvářený "Bílý seznam" dobrých zpráv.
- "Miss" v červeném poli - zpráva kterou DSPAM původně měl za dobrou, ale uživatel
mu ji následně přeznačil na spam.
- "Miss" v zeleném poli - zpráva kterou DSPAM původně měl za spam, ale uživatel
mu ji následně přeznačil na dobrou.
- "Resend" v hnědém - jedna zpráva byla rozeslána vícekrát. Stává se to pokud
jsou definované skupiny sdílející jeden karanténní box a zpráva přijde více uživatelům
nebo zpráva byla zaslána na alias (poštovní přezdívku) která adresovala více uživatelů.
V těsném sousedství (nad nebo pod) této zprávy by měla být stejná se zřejmým typem
zprávy (zda je považována za spam či dobrou). Zda jde o spam či nikoliv je
zřejmé i z odkazu napravo od "Resend" - pokud je tam klikací odkaz "As
Innocent", je zpráva považována za spam, pokud je tam odkaz "As Spam", je
považována za regulérní nespamový mail.
Za jakou je zpráva považována je vidět i z klikacího textového odkazu vedle zaškrtávacího
políčka, kde může být:
- "As Spam" (/určit/ "Jako spam") - zpráva je DSPAMem považována za dobrou. Kliknutím
sem to může uživatel změnit.
- "As Innocent" (/určit/ "Jako nevinnou") - DSPAM zprávu považuje za spam. Kliknutím
na tento text mu uživatel řekne že se spletl a zpráva je OK. Kromě poučení se DSPAM vyjme
zprávu z karanténního boxu a doručí ji.
- Textové pole může mít také tvar "Retrained (Undo)" ("Přeučeno (vrátit zpět)") -
uživatel či správce již uvědomil DSPAM o mylném vyhodnocení zprávy. Pokud se ale
uživatel spletl, kliknutím na "(Undo)" může stav vrátit zpět.
Zpětná vazba (ale pozor aby to nezačalo houkat): Pokud zjistíte v tomto pamfletu
nepřesnosti nebo chybějící informace, či budete mít dotaz k funkci SW DSPAM, napište na adresu
Franty Hanzlíka
Poslední aktualizace: 12.3.2008 Štěnovice | ©
Franta Hanzlík |