Atpakaļ uz pirmo lapu

laacz » 2004 » 27. aprīlis

Tech stuff again :)

06:40 @ 2004-04-27 = 10 blabla  

Ir tāda štelle, kā SpamAssassin. Šī uzparikte cīnās ar spamu. It kā esmu to uzlicis uz sava pasta servera, lai filtrē uz nebēdu spamos un nespamos.

Ilgi mani prieki nebija. Reālais rezultāts jo nedēļu jo kļuva sliktāks. Bet nu neko. Lielu daļu tas nofiltrēja, tad nu lai jau stāv.

Kādu laiku es ar roku filtrēju tos spamus, kurus SpamAssassin nenoķēra. Nevis dzēsu, bet liku atsevišķā mapītē. Kad mapīte bija izaugusi, nolēmu apskatīt, vai tad nu tiešām neko nevar darīt lietas labā.

Izrādās, ka šim pašam SpamAssassin ir tāda nevainīga opcija — mācīties (izmantojot Bayesian algoritmu. T.n. — iebarojam tam kaudzi ar meiliem, pasakam, vai šī kaudze ir spams, vai nav un viņš iemācās pa savējam atpazīt līdzīgas vēstules. Es ar lielu entuziasmu uz visiem dažtūkstoš meiliem palaidu šo mācīšanos (izeksportēju meilus no The Bat!, iecēlu uz servera un tad aidā — sa–learn -spam spam/*.MSG).

Pēc kāda pailgāka laika process beidzās. Un, ticiet vai nē, man līdz pat šim brīdim ir ienākušies tikai trīs nenoķerti spami. Parasti pa nakti uzrodas kādi simts. Paskatījos noķerto sarakstu — nekas, ko varētu klasificēt kā nespamu tur nebija iekritis.

Nu jau izskatās, ka pat ir vērts cīnīties :)

1 bush @ 07:50 (2004. gada 27. aprīlis)

ahā. tomēr paskatījies. tas nozīmē, ka cīņa pret spamu ir bijusi bezjēdzīga

2 e-remit @ 08:23 (2004. gada 27. aprīlis)

Vienīgā spamassassin nelaime ir tā, ka lielās sistēmās viš ir par monstrīgu — ja uz gatru vēstuli tiek veidots savs child process (kurš nav maziņš), bet pasta serverī mails ienāk vidēji reizi sekundē (tas ir vidēji), tad dažos dienas brīžos pasta serveris vienkārši pārslogojas.

3 laacz @ 08:26 (2004. gada 27. aprīlis)

e–remit: Vai tad spamd nav daemons? :) Tiesa, MailScanner'is jamo neprot juuzaat. Bet daemons kaa taads SpamAssasinam iraid.

4 misame @ 08:41 (2004. gada 27. aprīlis)

Aha, tā nu tas ir, ka spamassassina "pattern matching" metode diemžēl ir izrādījusies stipri neveiksmīga, jo var taču rakstīt via.gra, nevis viagra. Toties pret Beiesa filtriem šāda metode nedarbosies, ja vien pietiekami daudzi spameri sāks lietot šādu rakstību.
Faktiski spamassassins bez bayesian filtra atbalsta netiek arī galā ar variantu, kad mailā ir ielikta milzīga bilde, kurā tad nu ir maziem burtiņiem sadrukāti visi sliktie teksti. Bayesian filtrs to tomēr spēj, jo vēstules teksts satur ļauno burtu virknīti "<img" , kas savukārt skaitās ļoti spamīga.
Ja ir interese, iesaku palasīties pie vīra, kas to lietu apsmadzeņoja un izveidoja pirmo (manuprāt) Beiesa filtru — http://www.paulgraham.com/spam.html
Un jā, ja vajag vēl spam paraugus, varu izeksportēt no bata kādus dažus tūkstošus gadu gaitā rūpīgi kolekcionēto spamu.
Un vēl kādus dažus tūkstošus, kas man ir plaintextā pieejami.
Jā, un btw, Laacz — pagaidām spamboti (vismaz tie, kam trial versijas tīklā pieejamas) tiešām nespēj no laacz.lv izvilināt nevienu prātīgu mailadresi. Izņemot janis@laacz, kura kaut kādā vienā articlī ierakstīta ;))

5 e-remit @ 10:16 (2004. gada 27. aprīlis)

Laacz varētu nodarboties ar spama kolekcionēšanu — visiem postiem uzrādīt adresi, piemēram meduspods@laacz , un visus mailus, kas pienāk uz šo adresi, automātiski publicēt, lai visi savus filtrus var papildināt. ;)

6 e-remit @ 10:19 (2004. gada 27. aprīlis)

laacz: spamd ir dēmons (ļaunais), bet uz katru e–mailu tas taisa child procesu. Nelielam pasta serverim tas pofig, bet lielam korporatīvam, kur daudz mailu staigā, tas diemžēl ir par traku, un lielā ātrumā spēj paņemt pat dažus GB atmiņas. :(

7 Janekuss @ 12:00 (2004. gada 27. aprīlis)

Bayesian ir labs. Izmantoju Outlooka pluginu (http://spambayes.sourceforge.net/).
Filtrē pat ļoti labi, tomēr sākumposmā iesaku tomēr paskatīties, ko īsti viņš tur ir atzīmējis kā spamu. Gadās, ka kādu derīgu vēstuli uzskata par spamu, ja subjects ir angliski un ir attačments piemēram.
Ietrenēju filtru uz 3000 spama vēstulēm un pašlaik saņemu apmēram 3 spama vēstules mēnesī + kādas 10 "Spam Suspects", no kurām puse ir spams, puse — nē.

8 pozrak @ 17:22 (2004. gada 27. aprīlis)

re ku', Metafilter par SpamAssassin:
http://www.metafilter.com/mefi/32697

9 hQuse @ 14:29 (2004. gada 29. aprīlis)

hm. Būsim zināt, paldies.

Es, savukārt padalīšos ar savu pieredzi — kā nenoslogot SpamAssassinu ar regulāru vīrusainu spammailu.

Tas eleganti realizējams, ja vien tiek izmantots postfix. — /etc/postfix.in/header_checks un /etc/postfix.in/body_checks

Tas viss ir regexpi un teikšu tā — kopš ieviesu šādu lietu, sūdmaili tiek rejectoti un pat līdz SpamAssassinam nenonāk, līdz ar to sistēma nav lieki noslogota, skanējot sūdmailus.

10 Mulders @ 16:06 (2004. gada 30. aprīlis)

eē veci… tagad palaidīsi garām visas labās iespējas nopelnīt miljonus, palielināt čibriku un nodzīt liekos kg :)

psveicu!

Kā tu saucies:
Tava e-pasta adresīte:
(nevienam netiks rādīta, vai dota; pat pie komentāra ne)
Ko teiksi?
FYI
* Formatēšana: iekļaujot tekstu no abām pusēm iekā '//', tas iznāks kursīvā: //teksts// (teksts), bet treknu tekstu var dabūt ar '**' katrā pusē: **teksts** (teksts), savukārt pasvītrotu ar '__': __teksts__ (teksts).
* Enteri tiek automātiski pārtaisīti par enteriem. Jebkurš HTML (izņemot <BR.*>) tiek parādīts, kā ievadīts (ne HTML'iski)
* E-pastu var vadīt droši iekšā, ja ir bailes no spambotiem. Tas tiek aizsargāts no jamajiem.
* Jebkurš url'is (www.kaka.com, http://kaka.com/, …) tiek automātiski pārtaisīts par spiežamu prieku (www.kaka.com, http://kaka.com/, …)
* Ko nozīmē 'detransliterēšana'? Manuprāt sen jau ir laiks sākt rakstīt nevis translitā (aaboljiishi), bet gan normāliem letiņu burtiem (āboļīši). Tad nu tieši to arī dara attiecīgā poga - pārveido tekstu no translita uz parastu. Gadās kļūmītes, bet labāk šitā nekā nekā.
 

Valid CSS! Valid XHTML 1.0 Transitional! Valid RSS! Valid Atom!
Tātad tā. Kopīraita notice. Viss materiāls, kas atrodams šajā saitā nedrīkst tikt izplatīts, kopēts, jebkādi citādi reproducēts vai izmantots bez manas (laacz) rakstiskas atļaujas. šīs tiesības man laipni piedāvā Autortiesību Likums.
Jebkura informācija, kuru kāds labprātīgi publicē šajā saitā (piemēram, komentāri), pieder tās autoram. Taču, ievietojot infromāciju šajā saitā, tās autors sniedz saita īpašniekam tiesības to daļēji vai pilnā apjomā lietot, izplatīt, reproducēt, modificēt, adaptēt, publicēt, tulkot, publiski demonstrēt. Saita īpašnieks ir tiesīgs jebkuru komentāru jebkurā brīdī dzēst, vai modificēt.
© 1996 — 2025 laacz. Visas tiesības… nu jūs jau zināt, kur.
Spēcināts ar SPP (S Pivom Potjaņet) v2.0b (code name Marasmus)
Hostingu laipni piedāvā DEAC.

laacz blog activity

Top.LV

 

Lapa izlīdusi no servera dzīlēm 0.02946 sekundē(s)