Показано с 1 по 10 из 13

Тема: Автообучение: баги? фичи?

  1. #1
    MOXHATOE
    MOXHATOE вне форума
    Участник
    Регистрация
    21.04.2004
    Сообщений
    82

    Автообучение: баги? фичи?

    В процессе переобучения базы заметил следующую особенность:

    Работаем с нуля. Первые несколько (3 - 4) спамных писем метим как спам.

    База пересчитывается, и с этого момента вся входящая почта валится в спам.

    ВАЖНО!
    Все неспамные письма валятся в спам, при этом в базу они автоматом отмечаются как спам (т.к. автообучение включено).

    Руками метим нормальные письма как НЕ спам и,..
    ВАЖНО!
    Письма отмеченные как НЕ спам попадают в базу НЕ спама, но при этом остаются в базе спама!
    Оценка спамности при этом у него лишь немного смещается в сторону неспамности.
    Из-за этого еще как минимум с десяток таких писем все равно попадает в спам, и опять же автоматом добавляются в базу спама.

    Обучение при этом происходит крайне медленно, и процент ошибок просто ужасающий.
    Стоит хотя бы одному адресату попасть в базу спама (а в начале обучения они практически все туда летят автоматом благодаря вышеописанному эффекту), его оценка потом очень долго будет перекошенной в сторону спамности.

    Уж не знаю, баг это или фича такая…
    Что народ думает по этому поводу?

  2. #2
    hlopetz
    hlopetz вне форума
    Участник
    Регистрация
    08.05.2004
    Сообщений
    10

    Re:Автообучение: баги? фичи?

    Думаю, что это ограничения алгоритма (медленное обучение "с нуля") и его реализации (если поверить, что "Письма отмеченные как НЕ спам попадают в базу НЕ спама, но при этом остаются в базе спама").

    Совет стандартный - обучать на уже отобранных вручную кучках спама и не спама, т.к. статистичемкие (частотные) методы хороши только на больших объемах информации.

  3. #3
    MOXHATOE
    MOXHATOE вне форума
    Участник
    Регистрация
    21.04.2004
    Сообщений
    82

    Re:Автообучение: баги? фичи?

    Ага. Согласен, только я не совета хотел. Что делать - и так очевидно.
    Я хотел обратить внимание общественности на такую вот особенность этого фильтра, а так же, по возможности, обратить внимание на серьезную недоработку: на начальной стадии использования автообучение пользы не несет никакой, скорее наоборот.
    Выход: либо его отключать на время накопления базы достаточной для работы фильтра без ложных срабатываний, либо более корректно отрабатывать ситуацию, когда ошибочно попавшие в базу спама НЕ спамные письма (в результате автообучения) должны при отмечании как НЕ спам - УДАЛЯТЬСЯ из базы спама!

    Если у кого-то есть возможность донести этот трэд до автора, я был бы признателен.

    Думаю это должно пойти на пользу и без того неплохому плагину.

  4. #4
    AlexandrW
    AlexandrW вне форума
    Участник
    Регистрация
    11.01.2004
    Сообщений
    32

    Re:Автообучение: баги? фичи?

    я использую версию плагина 0.5.5
    где можно отключить автообучение? я не нашел

    базы пухнут, приходится каждые месяца три обнулять, иначе слишком разрастаются и начинает тормозить Bat.

  5. #5
    MOXHATOE
    MOXHATOE вне форума
    Участник
    Регистрация
    21.04.2004
    Сообщений
    82

    Re:Автообучение: баги? фичи?

    Цитата Сообщение от AlexandrW
    я использую версию плагина 0.5.5
    где можно отключить автообучение? я не нашел
    bayesit\advanced.ini
    use autotrain="1" изменяем на use autotrain="0"

    Цитата Сообщение от AlexandrW
    базы пухнут, приходится каждые месяца три обнулять, иначе слишком разрастаются и начинает тормозить Bat.
    А вот тормозить по идее не должно…
    По крайней мере так декларируется автором.

    Если есть время - почитай тут: https://www.ritlabs.com/ru/solutions/BayesIt.php
    Может найдешь чего полезного… Да и вообще, статья очень хорошо описывает все механизмы работы программы.

  6. #6
    AlexandrW
    AlexandrW вне форума
    Участник
    Регистрация
    11.01.2004
    Сообщений
    32

    Re:Автообучение: баги? фичи?

    тормозит из-за размера баз. Бат у меня принимает фидо-конференции. Писем много. Когда в базу попадает 100000 писем, то Бат уже занимает очень много памяти. А у меня ноутбук и памяти всего 128М. Вот и тормозит.

  7. #7
    MOXHATOE
    MOXHATOE вне форума
    Участник
    Регистрация
    21.04.2004
    Сообщений
    82

    Re:Автообучение: баги? фичи?

    Цитата Сообщение от AlexandrW
    …писем много. Когда в базу попадает 100000 писем, то Бат уже занимает очень много памяти. А у меня ноутбук и памяти всего 128М. Вот и тормозит.
    Ну, тогда совет простой: отключаем автообучение, ручками заносим в соответствующие базы спама и НЕ спама все письма, например, за последнюю неделю (в качестве начального обучения), а дальше специально тренируем только на тех письмах, которые отфильтровались ошибочно.

  8. #8
    klirik
    klirik вне форума
    Участник
    Регистрация
    16.02.2003
    Сообщений
    180

    Re:Автообучение: баги? фичи?

    Цитата Сообщение от MOXHATOE
    Руками метим нормальные письма как НЕ спам и,..
    ВАЖНО!
    Письма отмеченные как НЕ спам попадают в базу НЕ спама, но при этом остаются в базе спама!
    Это в корне неверное предположение.

    Содержимое папки "Спам" в БАТе никак не связано с текущей базой фильтра. На неё влияют лишь действия "пометить как", а перемещение писем по папкам - это "внутреннее" дело БАТа.

  9. #9
    MOXHATOE
    MOXHATOE вне форума
    Участник
    Регистрация
    21.04.2004
    Сообщений
    82

    Re:Автообучение: баги? фичи?

    Цитата Сообщение от klirik
    Это в корне неверное предположение.
    Содержимое папки "Спам" в БАТе никак не связано с текущей базой фильтра. На неё влияют лишь действия "пометить как", а перемещение писем по папкам - это "внутреннее" дело БАТа.
    Я это отлично понимаю.
    Я не имел в виду батовские ПАПКИ, я имел в виду именно байсовские БАЗЫ.

    До тех пор пока письмо однозначно не будет идентифицироваться как НЕ спам, оно, при включенном автообучении, всегда попападает в обе базы - и спама и Не спама.

    Происходит это следующим образом:

    После того как фильтр выдаст оценку письму достаточную, чтобы письмо считалось спамом, токены этого письма попадают в базу спама (так написано в описании фильтра, в разделе про автообучение).
    Далее мы руками метим письмо как НЕ спам и письмо добавляется и в базу НЕ спама (при этом оно остается в базе спама).

    То есть, теоретически, оценка токенов таких писем с увеличением числа писем, медленно стремится к нейтральной, вместо того, чтобы меняться в сторону НЕ спамности.

    Единственное, что спасает ситуациию, это "коэффициент перекоса базы" - regarding threshold, который по умолчанию равен 1.5.

    Но даже с полуторным коэффициентом улучшение такой ситуации происходит крайне медленно.

    Поэтому автообучение без возможности удалять из базы ошибочно занесенные токены, смысле не имеет.

    IMHO, на практике это подтверждается…


  10. #10
    klirik
    klirik вне форума
    Участник
    Регистрация
    16.02.2003
    Сообщений
    180

    Re:Автообучение: баги? фичи?

    Цитата Сообщение от MOXHATOE
    После того как фильтр выдаст оценку письму достаточную, чтобы письмо считалось спамом, токены этого письма попадают в базу спама (так написано в описании фильтра, в разделе про автообучение).
    Далее мы руками метим письмо как НЕ спам и письмо добавляется и в базу НЕ спама (при этом оно остается в базе спама).
    Ещё раз повторяю: это НЕВЕРНОЕ утверждение. Оно в корне не соответствует действительности. Уж кому, как не мне, автору фильтра, это знать .

Похожие темы

  1. баги The Bat и коллективное письмо…
    от Tvirus в разделе The Bat!: вопросы и ответы
    Ответов: 11
    Последнее сообщение: 10.10.2006, 11:42
  2. Нектороые баги рождественской версии
    от Юрист в разделе The Bat!: вопросы и ответы
    Ответов: 1
    Последнее сообщение: 31.12.2005, 20:10
  3. Баги
    от gerser в разделе The Bat!: вопросы и ответы
    Ответов: 2
    Последнее сообщение: 23.12.2005, 09:44
  4. Злостное игнорирование баги :(
    от Labutin в разделе The Bat!: вопросы и ответы
    Ответов: 31
    Последнее сообщение: 12.09.2005, 16:40
  5. Отслеженные баги в IMAP в TheBat 2.0
    от Lotto в разделе The Bat!: вопросы и ответы
    Ответов: 2
    Последнее сообщение: 10.09.2003, 06:55