Hodžův blog

10 Srp

Antispam na pdf a xls soubory

O PDF spamu jste se mohli dočíst například na stránkách Lupy ve článku Dokumenty PDF, o které nikdo nestojí. Přestože si myslím, že PDF spam nebude mít dlouhou budoucnost, je potřeba s ním bojovat. Už kdysi dávno jsem do svých serverů doinstaloval OCR plugin. Ten doposud funguje poměrně spolehlivě. Je však nutno říct, že kvůli výkonu se scanuji pouze obrázkové emaily, které prošli SpamAssasinem „bez ztráty květinky“ (to se mi doposud docela dařilo díky sadám pravidel z rulesemporium.com). Bohužel spameři jsou neskutečně vynalézaví lidé a tak postupem času zjišťuji, že čím dál tím více obrázkových emailů je nutno prohánět OCR-kem (a zatěžovat tak systém). Naštestí se našlo několik nadšenců, kteří obrázky sbírají a provozují distribuovanou databázi „spam obrázků“ a jiných „sraček“. Instalace je více než triviální:

Nejprve si stáhneme script, který se stará o pravidelný update ClamAVu (a nastavíme mu práva pro spuštění)
cd /usr/bin
wget http://www.sanesecurity.co.uk/clamav/ss-msrbl.sh
chmod +x ss-msrbl.sh

V dalším kroku upravíme některé parametry podle systému (u mě například)
# vi ss-msrbl.sh
clamscan="/usr/bin/clamdscan"
clam_sigs="/var/clamav"
clam_user="clamav"

Na konec script spustíme
./ss-msrbl.sh

V případě, že je vše ok (tail /var/log/clamav/clamd.log, tail /var/log/clamav/freshclam.log ), nezbývá nám nic jiného, než celý proces zautomatizovat pomocí cronu.
# crontab -e
59 04 * * * /usr/bin/ss-msrbl.sh &> /dev/null

Po týdením sledování můžu konstatovat, že počet obrázků, které prolezli SpamAssassinem, ale nedostali se díky výše uvedenému filtru do OCR je 22,5%, což mi přijde jako docela velké číslo.

Leave a Reply

Hodžův blog is is proudly powered by Wordpress and the Magellan Theme