А что должно быть (появляться) в этом файле? Он у меня неделю уже пустой. Разъясните плиз.
А что должно быть (появляться) в этом файле? Он у меня неделю уже пустой. Разъясните плиз.
у меня тоже самое. Я так понял, что в этом файле должны храниться правила для выборочного скачивания, но как они там должны появляться - непонятно. Хотелось бы услышать разъяснение Клирика.
Часть моего файла выглядит так:
Размер файла -- более 3 кб. Идеология такая: когда вы устанавливаете БайесИт!, вы изначально обучаете плагин на базе "плохих" и "хороших" писем. При этом из некоторых математических соображений, в которые я вдаваться сейчас не хочу, нужно, чтобы количество "хороших" и "плохих" писем было примерно одинаковым (достаточно по 100-200 писем обоих сортов). В процессе работы плагин самообучается: пришедшее письмо, классифицированное плагином как "хорошее", добавляется в базу "хороших" писем, аналогично -- с "плохими". Ручная переклассификация (mark as junk/not junk)вносит необходимые изменения в этот процесс. При этом конкретный токен (слово, к примеру) из набора "плохих" (статистически) "активизируется" лишь в том случае, если оно встретилось более 3х (кажется, теоретически это должно настраиваться, но настроек пока нет) раз. В этот момент данный токен начинает трактоваться как "статистически значимый" и соответственно попадает в файл selective.txt.Код:(?-i)[\r\t\s\,\.\;\:\/\=\\\"\(\)\{\}\[\]\']aol[\r\t\s\,\.\;\:\/\=\\\"\(\)\{\}\[\]\'] (?-i)[\r\t\s\,\.\;\:\/\=\\\"\(\)\{\}\[\]\']athene[\r\t\s\,\.\;\:\/\=\\\"\(\)\{\}\[\]\'] (?-i)[\r\t\s\,\.\;\:\/\=\\\"\(\)\{\}\[\]\']client2\.attbi[\r\t\s\,\.\;\:\/\=\\\"\(\)\{\}\[\]\'] (?-i)[\r\t\s\,\.\;\:\/\=\\\"\(\)\{\}\[\]\']cliff[\r\t\s\,\.\;\:\/\=\\\"\(\)\{\}\[\]\'] (?-i)[\r\t\s\,\.\;\:\/\=\\\"\(\)\{\}\[\]\']comcast[\r\t\s\,\.\;\:\/\=\\\"\(\)\{\}\[\]\']
То, что в вашем случае файл пуст, может означать лишь то, что самообучение (и/или начальное обучение) не привело (пока) к образованию списка статистически значимых слов. Паки повторяю: если нет достаточного набора спама для самообучения плагина, наивно думать, что плагин сможет работать так, как ему положено…
Спасибо за разъяснения. Но тогда возникает вопрос другого плана: у меня есть файл спам.txt который до установки плагина был подставлен в выборочное скачивание с сортировкой по теме, с удалением спама. Можно ли слова из этого файла переместить в файл selective.txt?
А то как-то получаеться нехорошо - либо опять начинать качать весь спам на комп, чтобы обучать BayesIt, либо подключить старый файл - тогда BayesIT не на чем обучать будет (почти) =))))
2Geza: На сайте у Клирика есть архивчик. В нем есть файлы для Байеса (3 штуки) можешь их просто поставить себе и все будет работать. Хотя лично мне приятнее, чтобы у меня он сам обучился.
2Клирик: Скажи а не может быть так, что обученный Байес будет отметать не только спам, но и полезные письма, если я их не помечал как спам?
Отвечу за клирика: даже обученный байес может пометить хорошее письмо, как спам. Но если он хорошо обучен, вероятность такого происшествия пренебрежимо мала: порядка 1 письма на 1000 или еще меньше.
Использование _собственного_ спама для обучения плагина является безусловно хорошей идеей. Вся иделогия байеса построена на том, что спам индивидуален, и плагин в каждом конкретном случае будет считать спамом разные вещи. Скажем, я математик, и если мне приходит письмо "бухгалтеру", это однозначно спам. Но вот если такое письмо приходит бухгалтеру… Наоборот: если бухгалтеру кто-то напишет про интегралы, это скорее всего спам. Не так для меня.
Иными словами, идея фильтрования по статистически значимым токенам устраняет возможность для спамеров внести в текст письма какие-то вещи, которые могли бы теоретически "обмануть" фильтрацию. Ибо фильтрация в каждом конкретном случае индивидуальна и спамеру неизвестна.
По поводу selective - фильтр берёт токены из заголовков, которые встретились только в спамерских письмах, и не менее заданного количества раз (число настраивается пока только в реестре, описание настроек есть на странице фильтра). Этот токен преобразуется в регулярное выражение, отражающее фактический принцип, по которому фильтр разбивает письмо на токены, и список этих регулярных выражений сохраняется в текстовый файл. Этот файл автоматически обновляется при каждом изменении базы (происходит это "безопасным" способом - т.е. создаётся новый файл ~selective.txt, в который записывается обновлённый список, а затем уже готовый файл переименовывается в selective.txt и затирает старый. Способ "безопасен" с точки зрения возможных "вылетов" Бата).
Сдаётся мне, однако, что где-то я напортачил с регэксповыми "хвостами" - так что иногда фильтрация глючит и гонит лишнее. Однако узнать это не так просто, увы…
Скачал сегодня The Bat с сайта ritlabs.com (2.02.3 CE)
А куда там подключать selective.txt ? Может есть другие варианты как удалять ненужную почту сразу с сервера с помощью BayesIt (обычными правила из фильтра непременимы ввиду большого количества спама)
Та же фигня. Байес последний стоит, файлы со спамным словарем я взял с сайта Клирика Selective.txt уже битый месяц пустой… Он создается из писем или как-то можно его создать из уже имеющихся баз???
Н сколько я помню его подключают в выборочное скачивание обычных правил бата… У меня кстати он нормально обновляется при кажном приеме почты…