Показано с 1 по 10 из 11

Тема: 60-70% ошибок по спаму - что не так?

  1. #1
    dima3310
    dima3310 вне форума
    Новичок
    Регистрация
    06.04.2006
    Сообщений
    4

    60-70% ошибок по спаму - что не так?

    Поставил себе The Bat! v3.71.04 Professional и включил BayesIt!. Обучил по 2000 писем спама и не спама. Потестил в течении недели - непорядок, много пропускает. Снес базы, обучил по 200 писем спама и не спама. Потестил в течении недели - аналогично. Ладно, думаю, сделаем по другому. Снес базы и стал обучать по получению писем, даже кнопочку вывел на панель. Прошло больше недели - то же самое.
    В чем может быть проблема?

    Информация о фильтре BayesIt!
    Данные об оценочной базе:

    Частотный словарь спама:
    ° C:\Program Files\The Bat!\Mail\\base\spamdict.bye
    ° Размер: 626 писем.
    ° Ёмкость: 63489 слов.
    Частотный словарь НЕ-спама:
    ° C:\Program Files\The Bat!\Mail\\base\nspamdict.bye
    ° Размер: 449 писем.
    ° Ёмкость: 92338 слов.
    Текущий активный словарь:
    ° Текущий активный словарь содержит 31089 слов.
    ° Статус: OK
    Статистика за последние сутки
    Основные числа
    ° Трафик спама (байт): 1110037
    ° Писем спама: 60
    ° Трафик НЕ-спама (байт): 1285639
    ° Писем НЕ-спама: 39
    ° Всего трафика (байт): 2395676
    ° Всего писем: 99

    ° Процент спама в общем числе писем: 60.61%.
    ° []
    ° []
    °
    ° Процент спама в общем почтовом трафике (байт): 46.34%.
    ° []
    ° []
    °

    Ошибки
    ° Ошибок по спаму (в письмах): 70%.
    ° []
    ° []
    °
    ° Ошибок по спаму (в трафике): 65.43%.
    ° []
    ° []
    °
    ° Ошибок по не-спаму (в письмах): 0%.
    ° []
    °
    ° Ошибок по не-спаму (в трафике): 0%.
    ° []
    °
    ° Всего ошибок (в письмах): 42.42%.
    ° []
    ° []
    °
    ° Всего ошибок (в трафике): 30.32%.
    ° []
    ° []
    °

    Статистика за последнюю неделю
    Основные числа
    ° Трафик спама (байт): 5335672
    ° Писем спама: 329
    ° Трафик НЕ-спама (байт): 16639000
    ° Писем НЕ-спама: 152
    ° Всего трафика (байт): 21974672
    ° Всего писем: 481

    ° Процент спама в общем числе писем: 68.4%.
    ° []
    ° []
    °
    ° Процент спама в общем почтовом трафике (байт): 24.28%.
    ° []
    ° []
    °

    Ошибки
    ° Ошибок по спаму (в письмах): 69.91%.
    ° []
    ° []
    °
    ° Ошибок по спаму (в трафике): 62.79%.
    ° []
    ° []
    °
    ° Ошибок по не-спаму (в письмах): 0%.
    ° []
    °
    ° Ошибок по не-спаму (в трафике): 0%.
    ° []
    °
    ° Всего ошибок (в письмах): 47.82%.
    ° []
    ° []
    °
    ° Всего ошибок (в трафике): 15.25%.
    ° []
    ° []
    °

    Статистика за последний месяц
    Основные числа
    ° Трафик спама (байт): 9565562
    ° Писем спама: 558
    ° Трафик НЕ-спама (байт): 28664487
    ° Писем НЕ-спама: 253
    ° Всего трафика (байт): 38230049
    ° Всего писем: 811

    ° Процент спама в общем числе писем: 68.8%.
    ° []
    ° []
    °
    ° Процент спама в общем почтовом трафике (байт): 25.02%.
    ° []
    ° []
    °

    Ошибки
    ° Ошибок по спаму (в письмах): 62.37%.
    ° []
    ° []
    °
    ° Ошибок по спаму (в трафике): 54.68%.
    ° []
    ° []
    °
    ° Ошибок по не-спаму (в письмах): 0.4%.
    ° []
    ° []
    °
    ° Ошибок по не-спаму (в трафике): 0.14%.
    ° []
    °
    ° Всего ошибок (в письмах): 43.03%.
    ° []
    ° []
    °
    ° Всего ошибок (в трафике): 13.78%.
    ° []
    ° []
    °
    Плагин написан Алексеем Виноградовым (antispam@ritlabs.com)
    Информация и обновления: https://www.ritlabs.com/ru/solutions/BayesIt.php
    Текущая версия 0.8.4

  2. #2
    XYZ
    XYZ вне форума
    Участник Аватар для XYZ
    Регистрация
    23.10.2003
    Сообщений
    572

    Re: 60-70% ошибок по спаму - что не так?

    а базы создались ?
    должно быть так:
    Код:
    cashe.rgd
    nspamdict.bye
    nspamdict.idx
    nspamdict.lst
    selective.txt
    spamdict.bye
    spamdict.idx
    spamdict.lst
    transact
    transact\autotrain.idx

  3. #3
    dima3310
    dima3310 вне форума
    Новичок
    Регистрация
    06.04.2006
    Сообщений
    4

    Re: 60-70% ошибок по спаму - что не так?

    Да, с базами все ОК.

    C:\Program Files\The Bat!\Mail\base\
    |---cashe.rgd
    |---nspamdict.bye
    |---nspamdict.idx
    |---nspamdict.lst
    |---selective.txt
    |---spamdict.bye
    |---spamdict.idx
    |---spamdict.lst
    `---transact
    |---autotrain.bys
    `---autotrain.idx

  4. #4
    kwn
    kwn вне форума
    Участник
    Регистрация
    19.04.2005
    Сообщений
    48

    Re: 60-70% ошибок по спаму - что не так?

    Для улучшения работы Байсита первое, что я сделал это уменьшил параметр "regarding threshold" в файле advanced.ini. По умолчанию он равен 2, у меня он 1.2 (этот параметр означает, что слова в неспамовой базе в 2 раза тяжелее, чем в спамовой). Очень сильно помогают правила для белых, черных и игнор списков. В игнор списки я вписал все рассылки и информационные письма рассылаемые роботами. В черном списке у меня два правила по часто встречающимся словам в теме письма и собственно в письме:

    #тема
    Subject matches :товар|ejaculation|penis|rolex|vibrator|заработ\w{ 2,4}|порно|приколись|сексуальную|pharmaceutical|Ан екдоты|Software

    #не спам
    Body :письмо не является спамом

    После такого обучения процент ошибок стал очень маленьким и я отключил Байсит от автообучения. Теперь добавляю в базы только вручную ошибочно определенные письма (нормальные письма ни разу не попадали в спам).

  5. #5
    dima3310
    dima3310 вне форума
    Новичок
    Регистрация
    06.04.2006
    Сообщений
    4

    Re: 60-70% ошибок по спаму - что не так?

    По поводу списков: я рассылки занес в белый список, значит ли что Байсит их постоянно сканирует и слова из них заносит в не спам? Если это так - то надо будет пробовать в игнор.
    По рассылкам сигнальную строку лучше по отправителю делать (см.рис.)?
    В черном списке у меня пусто, темы спама все какие-то неповторяющиеся.

    А как делается "отключил Байсит от автообучения" и "добавляю в базы только вручную"?

  6. #6
    Vadim
    Vadim вне форума
    Участник Аватар для Vadim
    Регистрация
    01.11.2002
    Сообщений
    4,711

    Re: 60-70% ошибок по спаму - что не так?

    Он эти письма просто пропускает!

  7. #7
    kwn
    kwn вне форума
    Участник
    Регистрация
    19.04.2005
    Сообщений
    48

    Re: 60-70% ошибок по спаму - что не так?

    В режиме автообучения все письма отвечающие белым или черным спискам автоматически берутся для обучения, поэтому рассылки лучше отметить в игнор-списке. Да, сигнальную строку я делал по отправителю.
    Отключать от автообучения, на мой взгляд, надо когда процент ошибок достигнет 3-5%. Отключение делается в том же файле advanced.ini, параметр "use autotrain". Обучение вручную - кнопками в Бате.
    Советую почитать: https://www.ritlabs.com/ru/solutions/…tadv.php#sect9

  8. #8
    Xamm
    Xamm вне форума
    Новичок
    Регистрация
    17.05.2006
    Сообщений
    1

    Re: 60-70% ошибок по спаму - что не так?

    60-70% - ошибок по спаму!!! У меня вообще 100% ошибок!!! Ни одного спамерского письма не отловил. Помню была старая версия, сейчас не помню какой номер ,0.4???, все было ОК. Сейчас бред какой-то, скормил кучу писем, все базы создались.
    Но больше всего меня умиляет подсчет статистики. Оказывается за неделю ошибок по спаму 87.5%. Не знаю как он подсчитывает, но повторюсь, ни ОДНОГО письма спама фильтр не отловил, все письма я перемещал вручную методом "пометить как СПАМ". Что не так делаю???
    Вроде все "нычки" о перемещении в папку для спама стоят. Что делать? Внизу мой файл информации

    Данные об оценочной базе:

    Частотный словарь спама:
    ° C:\vital\mailerbat\\base\spamdict.bye
    ° Размер: 576 писем.
    ° Ёмкость: 50447 слов.
    Частотный словарь НЕ-спама:
    ° C:\vital\mailerbat\\base\nspamdict.bye
    ° Размер: 2155 писем.
    ° Ёмкость: 480907 слов.
    Текущий активный словарь:
    ° Текущий активный словарь содержит 111939 слов.
    ° Статус: OK
    Статистика за последние сутки
    Основные числа
    ° Трафик спама (байт): 8550
    ° Писем спама: 2
    ° Трафик НЕ-спама (байт): 348612
    ° Писем НЕ-спама: 6
    ° Всего трафика (байт): 357162
    ° Всего писем: 8

    ° Процент спама в общем числе писем: 25%.
    ° []
    ° []
    °
    ° Процент спама в общем почтовом трафике (байт): 2.39%.
    ° []
    ° []
    °

    Ошибки
    ° Ошибок по спаму (в письмах): 100%.
    ° []
    °
    ° Ошибок по спаму (в трафике): 100%.
    ° []
    °
    ° Ошибок по не-спаму (в письмах): 0%.
    ° []
    °
    ° Ошибок по не-спаму (в трафике): 0%.
    ° []
    °
    ° Всего ошибок (в письмах): 25%.
    ° []
    ° []
    °
    ° Всего ошибок (в трафике): 2.39%.
    ° []
    ° []
    °

    Статистика за последнюю неделю
    Основные числа
    ° Трафик спама (байт): 512706
    ° Писем спама: 16
    ° Трафик НЕ-спама (байт): 21600821
    ° Писем НЕ-спама: 98
    ° Всего трафика (байт): 22113527
    ° Всего писем: 114

    ° Процент спама в общем числе писем: 14.04%.
    ° []
    ° []
    °
    ° Процент спама в общем почтовом трафике (байт): 2.32%.
    ° []
    ° []
    °

    Ошибки
    ° Ошибок по спаму (в письмах): 87.5%.
    ° []
    ° []
    °
    ° Ошибок по спаму (в трафике): 88.77%.
    ° []
    ° []
    °
    ° Ошибок по не-спаму (в письмах): 0%.
    ° []
    °
    ° Ошибок по не-спаму (в трафике): 0%.
    ° []
    °
    ° Всего ошибок (в письмах): 12.28%.
    ° []
    ° []
    °
    ° Всего ошибок (в трафике): 2.06%.
    ° []
    ° []
    °

    Статистика за последний месяц
    Основные числа
    ° Трафик спама (байт): 3086245
    ° Писем спама: 98
    ° Трафик НЕ-спама (байт): 61987822
    ° Писем НЕ-спама: 397
    ° Всего трафика (байт): 65074067
    ° Всего писем: 495

    ° Процент спама в общем числе писем: 19.8%.
    ° []
    ° []
    °
    ° Процент спама в общем почтовом трафике (байт): 4.74%.
    ° []
    ° []
    °

    Ошибки
    ° Ошибок по спаму (в письмах): 95.92%.
    ° []
    ° []
    °
    ° Ошибок по спаму (в трафике): 97.47%.
    ° []
    ° []
    °
    ° Ошибок по не-спаму (в письмах): 0%.
    ° []
    °
    ° Ошибок по не-спаму (в трафике): 0%.
    ° []
    °
    ° Всего ошибок (в письмах): 18.99%.
    ° []
    ° []
    °
    ° Всего ошибок (в трафике): 4.62%.

  9. #9
    dima3310
    dima3310 вне форума
    Новичок
    Регистрация
    06.04.2006
    Сообщений
    4

    Re: 60-70% ошибок по спаму - что не так?

    Я составил игнор список, но серьезных улучшений не увидел.
    По совету Экслера поставил себе Bayes Filter Plugin от winklera и что-то тоже не в восторге.
    Вот и думал что делать, а тут поставили на сервер фильтр IP по блэк листам и стало счастье ), теперь проходит 10% спама, поэтому пока вручную удаляю.

  10. #10
    kwn
    kwn вне форума
    Участник
    Регистрация
    19.04.2005
    Сообщений
    48

    Re: 60-70% ошибок по спаму - что не так?

    Цитата Сообщение от Xamm
    Данные об оценочной базе:

    Частотный словарь спама:
    ° C:\vital\mailerbat\\base\spamdict.bye
    ° Размер: 576 писем.
    ° Ёмкость: 50447 слов.
    Частотный словарь НЕ-спама:
    ° C:\vital\mailerbat\\base\nspamdict.bye
    ° Размер: 2155 писем.
    ° Ёмкость: 480907 слов.
    На мой взгляд, у вас очень большой разбаланс в базах спам/не-спам. Рекомендуется чтобы количество писем в базах было примерно одинаковым. Разбаланс допустим, но не более чем двухкратный, причем лучше в сторону спама. Это моя точка зрения, возможно специалисты меня поправят. Рекомендую добавить в сортировщике Бата несколько собственных антиспамовских фильтров.
    Как комментарий к последнему утверждению. Недавно получил письмо, которое было выловлено не Байситом, а дополнительным фильтром. При внимательном рассмотрении увидел, что спамерский текст вставлен в письмо в виде картинки, которая естественно не анализируется Байситом, в тоже время в теле письма присутствует в виде невидимого текста кусочек из романа "Властелин колец". Подобные письма я получал неоднократно. Так что спамеры тоже умеют воевать с анти-спам фильтрами.

Похожие темы

  1. Ошибки по спаму должны быть или нет?
    от Greg Savelieff в разделе Антиспам плагин BayesIt
    Ответов: 3
    Последнее сообщение: 21.06.2005, 13:34
  2. Преложение по спаму
    от Tvirus в разделе Антиспам плагин BayesIt
    Ответов: 3
    Последнее сообщение: 05.11.2004, 14:48
  3. Несколько ошибок viewmodes
    от alxt в разделе The Bat!: вопросы и ответы
    Ответов: 4
    Последнее сообщение: 10.02.2004, 07:08
  4. Ищу плагин для проверки грамматических ошибок
    от white в разделе The Bat!: вопросы и ответы
    Ответов: 2
    Последнее сообщение: 08.02.2004, 13:02