Писал её за пять минут - исключительно чтобы отловить один баг. Утилита преобразовывает список писем BayesIt в читабельный текстовый формат. Применяется к одиночному файлу .lst и создаёт в той же папке файд .lst1.
Файл состоит из строк вида:
---------- 520498519***<JytVPbo98cYqLPqJJBFl>_0FDBD165
Несколько минусов в начале - маркер нового хэша (если его нет, а сразу идёт число - значит, это коллизия с предыдущим хэшем, при этом числа должны совпадать.
Далее идёт числовое отображение первых четырёх символов хэша (на самом деле, хэш состоит из 11 символов, но поскольку они могут включать в себя и "непечатные", первые четые символа просто отображаются как значение типа DWORD)
Наконец, идёт MessageID во внутреннем представлении фильтра. То, о чём я упоминал, когда анонсировал версию 0.4gmSE7, заключается в следующем: ранее в списке хранились значения вида
---------- 520498519***<JytVPbo98cYqLPqJJBFl>
а теперь -
---------- 520498519***<JytVPbo98cYqLPqJJBFl>_0FDBD165
В конце добавился дополнительный хэш. То, что в угловых скобках - это MessageID письма - его можно найти по этому значению в БАТе.
"Правильный" lst должен содержать хэши, монотонно возрастающие от начала файла к концу. Если в этом порядке встречаются сбои, значит, во время обучения когда-то произошла проблема. В этом-то и был баг…
Если у кого-то сохранилась база от "старой" версии (например, той, что идёт в дистрибутиве с БАТом), попробуйте проверить последнее утверждение (о возрастании хэшей) этой утилитой.
Собственно, утилита - во вложении.