В процессе переобучения базы заметил следующую особенность:
Работаем с нуля. Первые несколько (3 - 4) спамных писем метим как спам.
База пересчитывается, и с этого момента вся входящая почта валится в спам.
ВАЖНО!
Все неспамные письма валятся в спам, при этом в базу они автоматом отмечаются как спам (т.к. автообучение включено).
Руками метим нормальные письма как НЕ спам и,..
ВАЖНО!
Письма отмеченные как НЕ спам попадают в базу НЕ спама, но при этом остаются в базе спама!
Оценка спамности при этом у него лишь немного смещается в сторону неспамности.
Из-за этого еще как минимум с десяток таких писем все равно попадает в спам, и опять же автоматом добавляются в базу спама.
Обучение при этом происходит крайне медленно, и процент ошибок просто ужасающий.
Стоит хотя бы одному адресату попасть в базу спама (а в начале обучения они практически все туда летят автоматом благодаря вышеописанному эффекту), его оценка потом очень долго будет перекошенной в сторону спамности.
Уж не знаю, баг это или фича такая…
Что народ думает по этому поводу?