No, s tim filtrem to neni tak jednoduche. Ale v zasade jde o to, ze je to adaptivni filtr ktery se uci podle toho, s jakou pravdepodobnosti se vyskytuje jake slovo v spamu, pripadne v hamu. Na zaklade bayesovy vety pak muze vypocitat jaka je pravdepodobnost toho, ze pokud slovo najdeme ve zprave, indikuje to spam nebo naopak ham. (viz odkaz, H_1 a H_2 jsou jevy "prispevek je spam" a "prispevek neni spam - je ham").
Jako spam se berou jen pripevky s extremnim skore na vice slovech, cimz se vyvarujeme prave popsaneho problemu, ze si nebudeme moci psat o lolitkach.
Pokud totiz napises prispevek kulturni cestinou a budes mluvit o lolitkach a brutal anal perverz fekalu, tak ruzna ceska bezne pouzivana slova, ktera ve spamech nebyvaji, zapricini to, ze bude prispevek vyhodnocen jako ham (to je presne duvod proc se bayesovske filtry pouzivaji).
Diskuse - odpověď na příspěvek
Příspěvek
RRe: Prispevky od botu.
So, 20. října 2007 17:33