настроить фильтр байсет

24.02.2004, 16:58

Как научить байсет и Бет удалять спам с почтового ящика, распознавая их по заголовкам и не закачивая?

24.02.2004, 17:10

никак. это противоречит логике BayesIt. Он анализирует все письмо, следовательно, ему приходиться их скачивать.
Однако, есть возможность с его помощью настроить выборочное скачивание. Прочти соответствующий раздел на сайте плагина.

06.04.2004, 12:47

Благодаря версии gm и выборочному скачиванию - удалилась оч
важная бизнес-корреспонденция!!! Похоже что сынок KIRILIKA- недоуч! И в версии 04.07 - где он встроенным поставляеться - он не поддаеться обучению MARK AS и все..... поэтому по моему версия fm работает намного отточеннее - ОБУЧАЕТЬСЯ и НЕ стирает письма с сервака! Кстати ВЫБОРОЧНОЕ СКАЧИВАНИЕ выбирает только по теме письма или и по содержанию и емайлу ??? У меня бывает спам приходит от моего же почтового ящика )) :'(

06.04.2004, 13:59

Поверьте это не его сын, а ваши руки…
Плагин кром повемки письма спам или не спам, больше ничего не делает… А уж что Вы дальше делаете с письмом - это Ваши руки…

06.04.2004, 15:30

Я уже не раз это делал, но, наверное, повторение - мать учения.

Итак, ещё раз несколько слов о том, как устроено "выборочное скачивание" на базе BayesIt.

При получении письма фильтр делит его на токены и составляет из них частотный словарь. При том различаются токены из заголовков письма и из его тела. Таким образом (путём слияния большого количества таких словарей) получается словарная база фильтра (а точнее - две базы, поскольку словари из "спама" и "не-спама" сливаются в отдельные файлы).

Далее. Фильтр проверяет все токены, которые из словарной базы спама, которые попали туда из заголовков спамовых писем и отбирает некоторые из них по следующим критериям: во-первых, чтобы тестируемый токен _отсутствовал_ среди заголовочных токенов базы не-спама, во-вторых, чтобы в базе спама он также встречался достаточно часто (по умолчанию - не менее пяти раз).

Наконец, к извлечённым токенам добавляются "языки" и "хвосты", а также в них меняются некоторые символы, и в результате из каждого токена получается отдельное регулярное выражение для фильтрации. Эти выражения сливаются в отдельный текстовый файл - это и есть база для фильтра "выборочного скачивания".

Очевидно, что здесь делаются несколько предположений: во-первых, о том, что если в спаме настырно появлялось в заголовках какое-то слово, а в не-спаме его ни разу не было - значит, и далее все письма с таким словом в заголовках можно сразу расценивать как спам. Фильтр выражает эту "мысль" помещая соответствующий токен, преобразованный в регулярное выражение в файл фильтрации - а БАТ пользуется им как правилом скачивания. Проблема здесь в том, что байесов метод "предсказывает" спамность письма на основании нескольких токенов, и оценка ведётся комплексно по всей совокупности слов письма, в то время как в данном случае судьбу письма может решить один-единственный токен. Именно поэтому метод отбора токенов для фильтра сделан довольно строгим. И всё равно он может ошибаться, причём теоретически - довольно часто. (например, если раньше с mail.ru вам сыпался исключительно спам, а тут вдруг ваш друг завёл там адрес - то чтобы "убедить" фильтр исключить токен mail.ru из списка выборочного скачивания, вам нужно пометить по крайней мере одно такое письмо как не-спам. Однако здесь другая проблема - если фильтр скачивания работает, то это самое письмо, которое вам надо пометить, вы попросту не получите - оно будет отфильтровано).

Второй момент - такой строгий отбор токенов для "выборочного скачивания" явно не способствует эффективной работе фильтра. Процент отсеиваемых писем никак не мониторился, и я не могу ничего сказать, сколько именно писем могут быть таким образом отфильтрованы (вполне может оказаться, что автоматический фильтр "выборочного скачивания" задерживает лишь 1% спама, а вдобавок убивает 10% нужных писем - расценивайте эту фразу, как хотите - это худшее предположение, но объективных данных по этому поводу попросту вообще нет).

Третий момент - при достаточно большой базе фильтра "выборочного скачивания" БАТ начинает с ним тормозить и зачастую сам провоцирует ошибки фильтрации. Такое поведение было замечено одним из западных бета-тестеров - если при делении файла списка пополам некое письмо проходило через фильтр, то на неразделённом файле списка оно уже было почему-то отсеяно.

Всё, что я могу сказать по этому поводу - никакой гарантии в нормальной работе "выборочного скачивания" я не даю и в принципе дать не могу (ввиду вышеупомянутых причин). Сам я только тестировал эту функцию, но в повседневной работе ей не пользуюсь (на диалапе простое скачивание кучи писем занимает гораздо меньше времени, чем скачивание заголовков, фильтрация и последующее скачивание лишь выбранных писем).

Поэтому - кроме данных объяснений о работе системы и комментариев, ничем другим в этом вопросе я помочь, увы, не могу.

Тема: настроить фильтр байсет

настроить фильтр байсет

Re:настроить фильтр байсет

Re:настроить фильтр байсет

Re:настроить фильтр байсет

Re:настроить фильтр байсет

Похожие темы

Фильтр BayesIt.

Помогите настроить фильтр!

Не срабатывает фильтр

Фильтр по RFC-822 headers?

MOVED: настроить фильтр байсет