Показано с 1 по 10 из 11

Тема: selective.txt - вопрос

  1. #1
    Geza
    Geza вне форума
    Новичок
    Регистрация
    20.09.2003
    Сообщений
    2

    selective.txt - вопрос

    А что должно быть (появляться) в этом файле? Он у меня неделю уже пустой. Разъясните плиз.

  2. #2
    Antonio
    Antonio вне форума
    Участник
    Регистрация
    22.10.2003
    Сообщений
    31

    Re:selective.txt - вопрос

    у меня тоже самое. Я так понял, что в этом файле должны храниться правила для выборочного скачивания, но как они там должны появляться - непонятно. Хотелось бы услышать разъяснение Клирика.

  3. #3
    akiselev
    akiselev вне форума
    Участник
    Регистрация
    02.11.2002
    Сообщений
    796

    Re:selective.txt - вопрос

    Часть моего файла выглядит так:
    Код:
    (?-i)[\r\t\s\,\.\;\:\/\=\\\"\(\)\{\}\[\]\']aol[\r\t\s\,\.\;\:\/\=\\\"\(\)\{\}\[\]\']
    (?-i)[\r\t\s\,\.\;\:\/\=\\\"\(\)\{\}\[\]\']athene[\r\t\s\,\.\;\:\/\=\\\"\(\)\{\}\[\]\']
    (?-i)[\r\t\s\,\.\;\:\/\=\\\"\(\)\{\}\[\]\']client2\.attbi[\r\t\s\,\.\;\:\/\=\\\"\(\)\{\}\[\]\']
    (?-i)[\r\t\s\,\.\;\:\/\=\\\"\(\)\{\}\[\]\']cliff[\r\t\s\,\.\;\:\/\=\\\"\(\)\{\}\[\]\']
    (?-i)[\r\t\s\,\.\;\:\/\=\\\"\(\)\{\}\[\]\']comcast[\r\t\s\,\.\;\:\/\=\\\"\(\)\{\}\[\]\']
    Размер файла -- более 3 кб. Идеология такая: когда вы устанавливаете БайесИт!, вы изначально обучаете плагин на базе "плохих" и "хороших" писем. При этом из некоторых математических соображений, в которые я вдаваться сейчас не хочу, нужно, чтобы количество "хороших" и "плохих" писем было примерно одинаковым (достаточно по 100-200 писем обоих сортов). В процессе работы плагин самообучается: пришедшее письмо, классифицированное плагином как "хорошее", добавляется в базу "хороших" писем, аналогично -- с "плохими". Ручная переклассификация (mark as junk/not junk)вносит необходимые изменения в этот процесс. При этом конкретный токен (слово, к примеру) из набора "плохих" (статистически) "активизируется" лишь в том случае, если оно встретилось более 3х (кажется, теоретически это должно настраиваться, но настроек пока нет) раз. В этот момент данный токен начинает трактоваться как "статистически значимый" и соответственно попадает в файл selective.txt.

    То, что в вашем случае файл пуст, может означать лишь то, что самообучение (и/или начальное обучение) не привело (пока) к образованию списка статистически значимых слов. Паки повторяю: если нет достаточного набора спама для самообучения плагина, наивно думать, что плагин сможет работать так, как ему положено…

  4. #4
    Geza
    Geza вне форума
    Новичок
    Регистрация
    20.09.2003
    Сообщений
    2

    Re:selective.txt - вопрос

    Спасибо за разъяснения. Но тогда возникает вопрос другого плана: у меня есть файл спам.txt который до установки плагина был подставлен в выборочное скачивание с сортировкой по теме, с удалением спама. Можно ли слова из этого файла переместить в файл selective.txt?
    А то как-то получаеться нехорошо - либо опять начинать качать весь спам на комп, чтобы обучать BayesIt, либо подключить старый файл - тогда BayesIT не на чем обучать будет (почти) =))))

  5. #5
    Antonio
    Antonio вне форума
    Участник
    Регистрация
    22.10.2003
    Сообщений
    31

    Re:selective.txt - вопрос

    2Geza: На сайте у Клирика есть архивчик. В нем есть файлы для Байеса (3 штуки) можешь их просто поставить себе и все будет работать. Хотя лично мне приятнее, чтобы у меня он сам обучился.
    2Клирик: Скажи а не может быть так, что обученный Байес будет отметать не только спам, но и полезные письма, если я их не помечал как спам?

  6. #6
    akiselev
    akiselev вне форума
    Участник
    Регистрация
    02.11.2002
    Сообщений
    796

    Re:selective.txt - вопрос

    Отвечу за клирика: даже обученный байес может пометить хорошее письмо, как спам. Но если он хорошо обучен, вероятность такого происшествия пренебрежимо мала: порядка 1 письма на 1000 или еще меньше.

    Использование _собственного_ спама для обучения плагина является безусловно хорошей идеей. Вся иделогия байеса построена на том, что спам индивидуален, и плагин в каждом конкретном случае будет считать спамом разные вещи. Скажем, я математик, и если мне приходит письмо "бухгалтеру", это однозначно спам. Но вот если такое письмо приходит бухгалтеру… Наоборот: если бухгалтеру кто-то напишет про интегралы, это скорее всего спам. Не так для меня.

    Иными словами, идея фильтрования по статистически значимым токенам устраняет возможность для спамеров внести в текст письма какие-то вещи, которые могли бы теоретически "обмануть" фильтрацию. Ибо фильтрация в каждом конкретном случае индивидуальна и спамеру неизвестна.

  7. #7
    klirik
    klirik вне форума
    Участник
    Регистрация
    16.02.2003
    Сообщений
    180

    Re:selective.txt - вопрос

    По поводу selective - фильтр берёт токены из заголовков, которые встретились только в спамерских письмах, и не менее заданного количества раз (число настраивается пока только в реестре, описание настроек есть на странице фильтра). Этот токен преобразуется в регулярное выражение, отражающее фактический принцип, по которому фильтр разбивает письмо на токены, и список этих регулярных выражений сохраняется в текстовый файл. Этот файл автоматически обновляется при каждом изменении базы (происходит это "безопасным" способом - т.е. создаётся новый файл ~selective.txt, в который записывается обновлённый список, а затем уже готовый файл переименовывается в selective.txt и затирает старый. Способ "безопасен" с точки зрения возможных "вылетов" Бата).

    Сдаётся мне, однако, что где-то я напортачил с регэксповыми "хвостами" - так что иногда фильтрация глючит и гонит лишнее. Однако узнать это не так просто, увы…

  8. #8
    ShurilloM
    ShurilloM вне форума
    Новичок
    Регистрация
    18.02.2004
    Сообщений
    1

    Re:selective.txt - вопрос

    Скачал сегодня The Bat с сайта ritlabs.com (2.02.3 CE)
    А куда там подключать selective.txt ? Может есть другие варианты как удалять ненужную почту сразу с сервера с помощью BayesIt (обычными правила из фильтра непременимы ввиду большого количества спама)

  9. #9
    Scratch
    Scratch вне форума
    Участник
    Регистрация
    21.02.2004
    Сообщений
    15

    Re:selective.txt - вопрос

    Та же фигня. Байес последний стоит, файлы со спамным словарем я взял с сайта Клирика Selective.txt уже битый месяц пустой… Он создается из писем или как-то можно его создать из уже имеющихся баз???

  10. #10
    Vadim
    Vadim вне форума
    Участник Аватар для Vadim
    Регистрация
    01.11.2002
    Сообщений
    4,711

    Re:selective.txt - вопрос

    Н сколько я помню его подключают в выборочное скачивание обычных правил бата… У меня кстати он нормально обновляется при кажном приеме почты…

Похожие темы

  1. О создании selective.txt
    от tccb в разделе Антиспам плагин BayesIt
    Ответов: 1
    Последнее сообщение: 29.06.2005, 12:32
  2. Вопрос про selective download и Sorting Office
    от ag в разделе The Bat!: вопросы и ответы
    Ответов: 4
    Последнее сообщение: 07.07.2004, 22:53
  3. Не создается selective.txt
    от vitali в разделе Антиспам плагин BayesIt
    Ответов: 2
    Последнее сообщение: 19.05.2004, 10:11
  4. Глюки с Selective Download, 2.02.3 CE
    от keu в разделе The Bat!: вопросы и ответы
    Ответов: 2
    Последнее сообщение: 19.01.2004, 10:49
  5. Selective download?
    от rihis в разделе The Bat!: вопросы и ответы
    Ответов: 1
    Последнее сообщение: 12.06.2003, 17:26