Показано с 1 по 5 из 5

Тема: настроить фильтр байсет

  1. #1
    VadimV
    VadimV вне форума
    Новичок
    Регистрация
    29.08.2003
    Сообщений
    7

    настроить фильтр байсет

    Как научить байсет и Бет удалять спам с почтового ящика, распознавая их по заголовкам и не закачивая?

  2. #2
    Doctor
    Doctor вне форума
    Участник
    Регистрация
    21.02.2003
    Сообщений
    610

    Re:настроить фильтр байсет

    никак. это противоречит логике BayesIt. Он анализирует все письмо, следовательно, ему приходиться их скачивать.
    Однако, есть возможность с его помощью настроить выборочное скачивание. Прочти соответствующий раздел на сайте плагина.

  3. #3
    john
    john вне форума
    Новичок
    Регистрация
    06.04.2004
    Сообщений
    4

    Re:настроить фильтр байсет

    Благодаря версии gm и выборочному скачиванию - удалилась оч
    важная бизнес-корреспонденция!!! Похоже что сынок KIRILIKA- недоуч! И в версии 04.07 - где он встроенным поставляеться - он не поддаеться обучению MARK AS и все..... поэтому по моему версия fm работает намного отточеннее - ОБУЧАЕТЬСЯ и НЕ стирает письма с сервака! Кстати ВЫБОРОЧНОЕ СКАЧИВАНИЕ выбирает только по теме письма или и по содержанию и емайлу ??? У меня бывает спам приходит от моего же почтового ящика )) :'(

  4. #4
    Vadim
    Vadim вне форума
    Участник Аватар для Vadim
    Регистрация
    01.11.2002
    Сообщений
    4,711

    Re:настроить фильтр байсет

    Поверьте это не его сын, а ваши руки…
    Плагин кром повемки письма спам или не спам, больше ничего не делает… А уж что Вы дальше делаете с письмом - это Ваши руки…

  5. #5
    klirik
    klirik вне форума
    Участник
    Регистрация
    16.02.2003
    Сообщений
    180

    Re:настроить фильтр байсет

    Я уже не раз это делал, но, наверное, повторение - мать учения.

    Итак, ещё раз несколько слов о том, как устроено "выборочное скачивание" на базе BayesIt.

    При получении письма фильтр делит его на токены и составляет из них частотный словарь. При том различаются токены из заголовков письма и из его тела. Таким образом (путём слияния большого количества таких словарей) получается словарная база фильтра (а точнее - две базы, поскольку словари из "спама" и "не-спама" сливаются в отдельные файлы).

    Далее. Фильтр проверяет все токены, которые из словарной базы спама, которые попали туда из заголовков спамовых писем и отбирает некоторые из них по следующим критериям: во-первых, чтобы тестируемый токен _отсутствовал_ среди заголовочных токенов базы не-спама, во-вторых, чтобы в базе спама он также встречался достаточно часто (по умолчанию - не менее пяти раз).

    Наконец, к извлечённым токенам добавляются "языки" и "хвосты", а также в них меняются некоторые символы, и в результате из каждого токена получается отдельное регулярное выражение для фильтрации. Эти выражения сливаются в отдельный текстовый файл - это и есть база для фильтра "выборочного скачивания".

    Очевидно, что здесь делаются несколько предположений: во-первых, о том, что если в спаме настырно появлялось в заголовках какое-то слово, а в не-спаме его ни разу не было - значит, и далее все письма с таким словом в заголовках можно сразу расценивать как спам. Фильтр выражает эту "мысль" помещая соответствующий токен, преобразованный в регулярное выражение в файл фильтрации - а БАТ пользуется им как правилом скачивания. Проблема здесь в том, что байесов метод "предсказывает" спамность письма на основании нескольких токенов, и оценка ведётся комплексно по всей совокупности слов письма, в то время как в данном случае судьбу письма может решить один-единственный токен. Именно поэтому метод отбора токенов для фильтра сделан довольно строгим. И всё равно он может ошибаться, причём теоретически - довольно часто. (например, если раньше с mail.ru вам сыпался исключительно спам, а тут вдруг ваш друг завёл там адрес - то чтобы "убедить" фильтр исключить токен mail.ru из списка выборочного скачивания, вам нужно пометить по крайней мере одно такое письмо как не-спам. Однако здесь другая проблема - если фильтр скачивания работает, то это самое письмо, которое вам надо пометить, вы попросту не получите - оно будет отфильтровано).

    Второй момент - такой строгий отбор токенов для "выборочного скачивания" явно не способствует эффективной работе фильтра. Процент отсеиваемых писем никак не мониторился, и я не могу ничего сказать, сколько именно писем могут быть таким образом отфильтрованы (вполне может оказаться, что автоматический фильтр "выборочного скачивания" задерживает лишь 1% спама, а вдобавок убивает 10% нужных писем - расценивайте эту фразу, как хотите - это худшее предположение, но объективных данных по этому поводу попросту вообще нет).

    Третий момент - при достаточно большой базе фильтра "выборочного скачивания" БАТ начинает с ним тормозить и зачастую сам провоцирует ошибки фильтрации. Такое поведение было замечено одним из западных бета-тестеров - если при делении файла списка пополам некое письмо проходило через фильтр, то на неразделённом файле списка оно уже было почему-то отсеяно.

    Всё, что я могу сказать по этому поводу - никакой гарантии в нормальной работе "выборочного скачивания" я не даю и в принципе дать не могу (ввиду вышеупомянутых причин). Сам я только тестировал эту функцию, но в повседневной работе ей не пользуюсь (на диалапе простое скачивание кучи писем занимает гораздо меньше времени, чем скачивание заголовков, фильтрация и последующее скачивание лишь выбранных писем).

    Поэтому - кроме данных объяснений о работе системы и комментариев, ничем другим в этом вопросе я помочь, увы, не могу.

Похожие темы

  1. Фильтр BayesIt.
    от Gallogen в разделе The Bat!: вопросы и ответы
    Ответов: 1
    Последнее сообщение: 31.08.2006, 17:40
  2. Помогите настроить фильтр!
    от I-Salt в разделе The Bat!: вопросы и ответы
    Ответов: 1
    Последнее сообщение: 27.07.2005, 12:36
  3. Не срабатывает фильтр
    от SLV в разделе The Bat!: вопросы и ответы
    Ответов: 14
    Последнее сообщение: 11.02.2005, 09:07
  4. Фильтр по RFC-822 headers?
    от alosito в разделе The Bat!: вопросы и ответы
    Ответов: 0
    Последнее сообщение: 17.04.2004, 00:44
  5. MOVED: настроить фильтр байсет
    от Vadim в разделе The Bat!: вопросы и ответы
    Ответов: 0
    Последнее сообщение: 24.02.2004, 20:54