Как научить байсет и Бет удалять спам с почтового ящика, распознавая их по заголовкам и не закачивая?
Как научить байсет и Бет удалять спам с почтового ящика, распознавая их по заголовкам и не закачивая?
никак. это противоречит логике BayesIt. Он анализирует все письмо, следовательно, ему приходиться их скачивать.
Однако, есть возможность с его помощью настроить выборочное скачивание. Прочти соответствующий раздел на сайте плагина.
Благодаря версии gm и выборочному скачиванию - удалилась оч
важная бизнес-корреспонденция!!! Похоже что сынок KIRILIKA- недоуч! И в версии 04.07 - где он встроенным поставляеться - он не поддаеться обучению MARK AS и все..... поэтому по моему версия fm работает намного отточеннее - ОБУЧАЕТЬСЯ и НЕ стирает письма с сервака! Кстати ВЫБОРОЧНОЕ СКАЧИВАНИЕ выбирает только по теме письма или и по содержанию и емайлу ??? У меня бывает спам приходит от моего же почтового ящика )) :'(
Поверьте это не его сын, а ваши руки…
Плагин кром повемки письма спам или не спам, больше ничего не делает… А уж что Вы дальше делаете с письмом - это Ваши руки…
Я уже не раз это делал, но, наверное, повторение - мать учения.
Итак, ещё раз несколько слов о том, как устроено "выборочное скачивание" на базе BayesIt.
При получении письма фильтр делит его на токены и составляет из них частотный словарь. При том различаются токены из заголовков письма и из его тела. Таким образом (путём слияния большого количества таких словарей) получается словарная база фильтра (а точнее - две базы, поскольку словари из "спама" и "не-спама" сливаются в отдельные файлы).
Далее. Фильтр проверяет все токены, которые из словарной базы спама, которые попали туда из заголовков спамовых писем и отбирает некоторые из них по следующим критериям: во-первых, чтобы тестируемый токен _отсутствовал_ среди заголовочных токенов базы не-спама, во-вторых, чтобы в базе спама он также встречался достаточно часто (по умолчанию - не менее пяти раз).
Наконец, к извлечённым токенам добавляются "языки" и "хвосты", а также в них меняются некоторые символы, и в результате из каждого токена получается отдельное регулярное выражение для фильтрации. Эти выражения сливаются в отдельный текстовый файл - это и есть база для фильтра "выборочного скачивания".
Очевидно, что здесь делаются несколько предположений: во-первых, о том, что если в спаме настырно появлялось в заголовках какое-то слово, а в не-спаме его ни разу не было - значит, и далее все письма с таким словом в заголовках можно сразу расценивать как спам. Фильтр выражает эту "мысль" помещая соответствующий токен, преобразованный в регулярное выражение в файл фильтрации - а БАТ пользуется им как правилом скачивания. Проблема здесь в том, что байесов метод "предсказывает" спамность письма на основании нескольких токенов, и оценка ведётся комплексно по всей совокупности слов письма, в то время как в данном случае судьбу письма может решить один-единственный токен. Именно поэтому метод отбора токенов для фильтра сделан довольно строгим. И всё равно он может ошибаться, причём теоретически - довольно часто. (например, если раньше с mail.ru вам сыпался исключительно спам, а тут вдруг ваш друг завёл там адрес - то чтобы "убедить" фильтр исключить токен mail.ru из списка выборочного скачивания, вам нужно пометить по крайней мере одно такое письмо как не-спам. Однако здесь другая проблема - если фильтр скачивания работает, то это самое письмо, которое вам надо пометить, вы попросту не получите - оно будет отфильтровано).
Второй момент - такой строгий отбор токенов для "выборочного скачивания" явно не способствует эффективной работе фильтра. Процент отсеиваемых писем никак не мониторился, и я не могу ничего сказать, сколько именно писем могут быть таким образом отфильтрованы (вполне может оказаться, что автоматический фильтр "выборочного скачивания" задерживает лишь 1% спама, а вдобавок убивает 10% нужных писем - расценивайте эту фразу, как хотите - это худшее предположение, но объективных данных по этому поводу попросту вообще нет).
Третий момент - при достаточно большой базе фильтра "выборочного скачивания" БАТ начинает с ним тормозить и зачастую сам провоцирует ошибки фильтрации. Такое поведение было замечено одним из западных бета-тестеров - если при делении файла списка пополам некое письмо проходило через фильтр, то на неразделённом файле списка оно уже было почему-то отсеяно.
Всё, что я могу сказать по этому поводу - никакой гарантии в нормальной работе "выборочного скачивания" я не даю и в принципе дать не могу (ввиду вышеупомянутых причин). Сам я только тестировал эту функцию, но в повседневной работе ей не пользуюсь (на диалапе простое скачивание кучи писем занимает гораздо меньше времени, чем скачивание заголовков, фильтрация и последующее скачивание лишь выбранных писем).
Поэтому - кроме данных объяснений о работе системы и комментариев, ничем другим в этом вопросе я помочь, увы, не могу.