Показано с 1 по 4 из 4

Тема: Фильтруется в спам нормальное письмо

  1. #1
    SLV
    SLV вне форума
    Участник
    Регистрация
    21.04.2003
    Сообщений
    35

    Фильтруется в спам нормальное письмо

    Совершенно нормальное письмо фильтруется в спам

    Почему для "нормальных" слов, которые типичны для заголовков и содержания выставляется рейтинг 0.99 (я так понимаю, что это вероятность спама)

    Ниже приведу фрагмент журнала bayesit.log

    : -------------------------------------------
    16.08.2005 17:18:52 <006101c5a26d$c46ed520$3821fea9@
    Грэхем: 1
    Спамность: 1
    Значение для The Bat!: 99
    Использована расширенная оценка с числом токенов: 150
    : -------------------------------------------
    #000000: 0.99
    #800000: 0.99
    #e4e4e4: 0.99
    #ffffff>: 0.99
    &gt: 0.99
    -----: 0.99
    01: 0.99
    0px: 0.99
    10pt: 0.99
    12px: 0.99
    16,: 0.99
    16px: 0.99
    2005: 0.99
    2px: 0.99
    400: 0.99
    5: 0.99
    57: 0.99
    5px: 0.99
    6: 0.99
    6.00.2800.1505: 0.99
    7: 0.99
    9: 0.99
    <A: 0.99
    <B>: 0.99
    <BLOCKQUOTE: 0.99
    <BODY: 0.99
    <BR>: 0.99
    <DIV: 0.99
    <STYLE>: 0.99
    A>: 0.99
    AM: 0.99
    August: 0.99
    B>: 0.99
    BACKGROUND: 0.99
    BLOCKQUOTE>: 0.99
    BORDER-LEFT: 0.99
    COLOR: 0.99
    Courier: 0.99
    FONT: 0.99
    FONT-FAMILY: 0.99
    FONT-SIZE: 0.99
    H ----: 0.99
    H -0400: 0.99
    H 128.192.1.109: 0.99
    H 128.192.125.76: 0.99
    H 19: 0.99
    H 195.39.197.124: 0.99
    H 2005: 0.99
    H 29: 0.99
    H 3.5.9-GR: 0.99
    H 4.50: 0.99
    H 6.00.2800.1506: 0.99
    H 8.8.6: 0.99
    H 8.9.1: 0.99
    H <vza@mindspring: 0.99
    H Aug: 0.99
    H EDT: 0.99
    H MOS: 0.99
    H References: 0.99
    H Sendmail: 0.99
    H V6.00.2800.1506: 0.99
    H Victor: 0.99
    H X-MSMail-Priority: 0.99
    H Za: 0.99
    H alternative: 0.99
    H ccits67: 0.99
    H col@zd: 0.99
    H edu: 0.99
    H edu>: 0.99
    H imena: 0.99
    H localdomain: 0.99
    H puntd3.cc: 0.99
    H uga: 0.99
    MARGIN-LEFT: 0.99
    MARGIN-RIGHT: 0.99
    New: 0.99
    Original: 0.99
    PADDING-LEFT: 0.99
    PADDING-RIGHT: 0.99
    SPAN: 0.99
    STYLE>: 0.99
    Tuesday: 0.99
    VZ&gt: 0.99
    VZ>: 0.99
    Victor: 0.99
    WINDOWS-1251: 0.99
    ZED: 0.99
    Za: 0.99
    arial: 0.99
    bat0: 0.99
    bat0>: 0.99
    bat1: 0.99
    bgColor: 0.99
    black: 0.99
    class: 0.99
    @ 0.99
    font-color: 0.99
    h 0ce65827: 0.99
    href: 0.99
    is: 0.99
    size: 0.99
    solid: 0.99
    style: 0.99
    text: 0.99
    title: 0.99
    ua: 0.99
    В: 0.99
    Виктор: 0.99
    Виктор!: 0.99
    Дата: 0.99
    На: 0.99
    Сергей: 0.99
    Т: 0.99
    Я: 0.99
    билетов: 0.99
    бы: 0.99
    вторник: 0.99
    города: 0.99
    гостиницы: 0.99
    дата: 0.99
    должен: 0.99
    если: 0.99
    забрать: 0.01
    к: 0.99
    какой: 0.99
    комфортабельные: 0.99
    лучше: 0.99
    месте: 0.99
    можем: 0.99
    назад: 0.99
    ночей: 0.99
    обратно: 0.99
    перевода: 0.99
    понедельник: 0.99
    превышает: 0.99
    проживание: 0.99
    сентября: 0.99
    сколько: 0.99
    сможешь: 0.01
    стоимость: 0.99
    счет: 0.99
    т: 0.99
    также: 0.99
    только: 0.99
    ту: 0.99
    хотел: 0.99
    центру: 0.99
    части: 0.99
    четверг: 0.99
    я: 0.99
    : -------------------------------------------

  2. #2
    Vadim
    Vadim вне форума
    Участник Аватар для Vadim
    Регистрация
    01.11.2002
    Сообщений
    4,711

    Re: Фильтруется в спам нормальное письмо

    Видать набор слов в письме частно встречается в спаме ;-)

  3. #3
    AlexandrW
    AlexandrW вне форума
    Участник
    Регистрация
    11.01.2004
    Сообщений
    32

    Re: Фильтруется в спам нормальное письмо

    Первый вопрос - сколько писем спама и неспама в базах плагина?
    Второй вопрос - зачем у Вас так много токенов для оценки - 150?

  4. #4
    klirik
    klirik вне форума
    Участник
    Регистрация
    16.02.2003
    Сообщений
    180

    Re: Фильтруется в спам нормальное письмо

    Судя по числу токенов для оценки - писем спама и неспама в базе много . Ситуация, на самом деле, следующая: при отборе "максимально интересных" слов (т.е. слов с оценками 0.99 или 0.01) их может оказаться намного больше, чем предполагает фильтр (особенно если он хорошо обучен). Если брать лишь последние из них, а остальные отсеивать - то спамеру будет достаточно в конец письма приписать какой-нибудь анекдот, чтобы сразу заставить фильтр "забыть" все предыдущие замеченные спам-слова (в зависимости от реализации - м.б. наоборот, учитывать только первые "максимально интересные" слова, пока не наберётся нужное количество, а остаток письма отбрасывать).

    Расширенная оценка - это в том случае, когда фильтр распознаёт подобную ситуацию, берутся _все_ "интересные" слова, и все они участвуют в оценке (т.е. в случае "расширенной" оценки слова в логе будут иметь вес либо 0.01, либо 0.99 - и никаких других). Функция, на самом деле, экспериментальная - я набираю статистику, насколько такой подход себя оправдывает.

Похожие темы

  1. Спам - НЕ Спам
    от xJoker в разделе The Bat!: вопросы и ответы
    Ответов: 0
    Последнее сообщение: 26.03.2014, 15:31
  2. Ответов: 1
    Последнее сообщение: 16.07.2012, 17:50
  3. "Пометить как спам" = перемещению письма в папку "СПАМ"?
    от q-post в разделе Антиспам плагин BayesIt
    Ответов: 4
    Последнее сообщение: 06.09.2005, 22:28
  4. Случайно пометил как СПАМ не то письмо…
    от Lukk в разделе Антиспам плагин BayesIt
    Ответов: 3
    Последнее сообщение: 09.12.2004, 02:32
  5. Про спам
    от M0rFium в разделе The Bat!: вопросы и ответы
    Ответов: 11
    Последнее сообщение: 10.07.2003, 09:19