Показано с 1 по 5 из 5

Тема: Объясните почему так

  1. #1
    Askold
    Askold вне форума
    Участник
    Регистрация
    29.03.2004
    Сообщений
    21

    Объясните почему так

    1. стоит regarding threshold="2". Письмо, имеющее 11 токенов с оценкой 0.01 и 14 с 0.99 попадает в спам. Я так полагал, что при regarding threshold="2" соотношение плохих токенов к хорошим должно быть как минимум 2:1, я не прав?

    2. мечу это письмо как "не спам" и пересылаю его себе повторно для проверки - оно опять попадает в спам. Ну это ладно, но почему в логе у него опять обнаруживается 14 токенов с оценкой 0.99? Мне казалось, что раз с этими тегами есть хоть одно не спамное письмо, то оценки 0.99 быть не должно. recalculating strategy="1". Смотрю в директорию с базами и вижу, что обновлялись файлы только в transact, а базы нет. Автообучение у меня отключено, так что - ручное обучение при этом тоже не работает????

  2. #2
    klirik
    klirik вне форума
    Участник
    Регистрация
    16.02.2003
    Сообщений
    180

    Re:Объясните почему так

    1. Regarding threshold влияет на вычисление значений токенов. Если, скажем, слово дважды встретилось в спаме и не-спаме, то при regarding threshold=1 его "спамность" будет 0,5, а при regarding threshold=2 - 0,33.
    2. Фильтр ориентирован на реальную работу, а не на эксперименты с "пометил как"… "проверил". Пометка писем и пересчёт баз не происходят одновременно - и ввиду статистического характера работы в "синхронности" этих действий просто нет необходимости. "Пометить как не-спам" означает то, что фактические изменения в базе наступят лишь через какое-то время (в вырожденном случае частого переобучения (autotraining strategy) - примерно через полминуты-минуту, но вообще рекомендуется подобрать значение autotraining strategy таким, чтобы пересчёт баз происходил примерно раз в сутки). Если установить это значение, скажем, в 0.001, то пересчёт базы будет планироваться после получения ("число писем в базе спама" + "число писем в базе не-спама")*0.001 - т.е. вплоть до сбора 1000 писем - после каждого письма, а затем реже.

  3. #3
    Askold
    Askold вне форума
    Участник
    Регистрация
    29.03.2004
    Сообщений
    21

    Re:Объясните почему так

    Цитата Сообщение от klirik
    1. Regarding threshold влияет на вычисление значений токенов. Если, скажем, слово дважды встретилось в спаме и не-спаме, то при regarding threshold=1 его "спамность" будет 0,5, а при regarding threshold=2 - 0,33.
    IMHO это не очень хорошо. Потому как на слова, которые до сих пор встречались только в спаме или только в неспаме этот параметр не влияет, а именно эти слова и выбираются для оценки в первую очередь. Лучше было бы значение токенов не трогать, а смещать порог.

  4. #4
    klirik
    klirik вне форума
    Участник
    Регистрация
    16.02.2003
    Сообщений
    180

    Re:Объясните почему так

    Цитата Сообщение от Askold
    IMHO это не очень хорошо. Потому как на слова, которые до сих пор встречались только в спаме или только в неспаме этот параметр не влияет, а именно эти слова и выбираются для оценки в первую очередь. Лучше было бы значение токенов не трогать, а смещать порог.
    Пожалуйста - настройки The Bat! "перемещать в папку "Спам" если значение больше, чем…".

  5. #5
    Askold
    Askold вне форума
    Участник
    Регистрация
    29.03.2004
    Сообщений
    21

    Re:Объясните почему так

    Цитата Сообщение от klirik
    Пожалуйста - настройки The Bat! "перемещать в папку "Спам" если значение больше, чем…".
    Если больше чем что? У меня в оценках ничего, кроме 0.99 или 0.01 не бывает. Ниже я писал, что в спаме оказалось письмо с 14 токенами по 0.99 и 11-ю 0.01. Результирующая оценка у него была 99.

Похожие темы

  1. Объясните плиз
    от -=Koluchii=- в разделе The Bat!: вопросы и ответы
    Ответов: 1
    Последнее сообщение: 15.11.2004, 22:44
  2. Объясните дураку, как мне вернуть imap4 ?
    от 0xFF в разделе The Bat!: вопросы и ответы
    Ответов: 1
    Последнее сообщение: 26.10.2003, 10:41
  3. Объясните заголовки
    от Andy в разделе The Bat!: вопросы и ответы
    Ответов: 3
    Последнее сообщение: 16.09.2003, 18:45
  4. Почему в HTML
    от Contact в разделе Архив первого форума
    Ответов: 1
    Последнее сообщение: 20.01.2002, 16:43