Все, что вы хотели узнать о тонкостях настройки Spamassassin

Спам, без преувеличения, одна из серьезнейших проблем современного Интернета. На борьбу с этим явлением мобилизованы десятки программ. И наиболее успешным продуктом является, пожалуй, Spamassassin.

Пакет Spamassassin – один из самых популярных инструментов для борьбы со спамом, свободно распространяемый под лицензией Apache. Будучи написанным на языке Perl, он имеет высокий уровень переносимости и наверняка будет работать на любой UNIX-подобной операционной системе. Этим же обусловлена и относительная медлительность этого фильтра. В данной статье будет рассмотрено использование Spamassassin на FreeBSD, однако основные принципы работы сохранятся неизменными и на других платформах.

Тактика и используемые системы вооружения

В основе Spamassassin лежит метод детектирования спама по ряду характерных признаков. Некоторые из них представлены в таблице 1. Каждому признаку назначается определенное количество баллов. В процессе анализа сообщения баллы для найденных соответствий суммируются, и окончательное решение принимается в зависимости от того, превысил ли итоговый результат некоторое пороговое значение. Помимо простых признаков, наподобие приведенных выше, Spamassassin использует и ряд довольно сложных, основанных на других методах детектирования спама. Так, в состав Spamassassin входит статистический обучаемый анализатор, работающий на основе байесового классификатора. В отличие от таких инструментов, как DSPAM, письмо не признается однозначно спамом в случае «положительного результата» такого анализа, а лишь получает некоторый «довесок» к общему баллу. Причем вы можете самостоятельно настраивать величину этого довеска в зависимости от того, насколько вы доверяете статистическим анализаторам.

Таблица 1. Примеры характерных признаков спама

Правило Описание Балл
HEAD_LONG Заголовок сообщения слишком длинный 2,5
REPLY_TO_EMPTY Поле заголовка «Replay-To» пустое 1,274
SUBJ_YOUR_FAMILY Тема сообщения содержит фразу «Your Family» 1,648
ALL_TRUSTED Сообщение передавалось только через доверенные узлы -2,4

Spamassassin также может проверять принадлежность адреса отправителя одному или нескольким блок-листам реального времени (RBL). Опять-таки результат такой проверки лишь добавит баллы в общую копилку.

Рассматриваемый фильтр умеет взаимодействовать и с системами, основанными на сигнатурном анализе (Razor, Pyzor, DCC). По умолчанию включен только Pyzor, поскольку DCC не является открытой системой, а сервис Razor полностью бесплатен только в случае персонального использования.

Благодаря такому интегральному подходу вы получаете возможность очень гибко настраивать методы детектирования спама в зависимости от конкретных задач, которые вы ставите перед фильтром. При этом ни один из методов (если, конечно, ему не присвоить балл, заведомо превышающий порог срабатывания) не выносит окончательного решения о признании сообщения спамом, что при грамотной настройке способствует снижению числа ложных срабатываний.

Развертывание комплекса на местности

Установка выполняется традиционно: на FreeBSD лучше всего воспользоваться коллекцией портов; пользователи Linux могут установить Spamassassin из исходных кодов либо поискать в сети готовый прекомпилированный пакет для своего дистрибутива. Более того, поскольку Spamassassin разработан на Perl, его можно установить непосредственно из коллекции CPAN, как и любой другой Perl-модуль:

root# perl -MCPAN -e shell

cpan> o conf prerequisites_policy ask

cpan> install Mail::SpamAssassin

cpan> quit

Далее мы будем предполагать, что пакет устанавливается из коллекции портов:

# cd /usr/ports/mail/p5-Mail-SpamAssassin

# make

# make install

Вместе с командами make и make install вы можете указать ряд дополнительных параметров (см. таблицу 2).

Таблица 2. Некоторые опции, полезные при инсталляции

Назначение параметра Ключ для make
Отключить поддержку SSL -DWITHOUT_SSL
Включить поддержку MySQL -DWITH_MYSQL
Включить поддержку PostgreSQL -DWITH_PGSQL
Включить поддержку сигнатурного анализатора Vipul’s Razor -DWITH_RAZOR
Включить поддержку запросов SPF -DWITH_SPF_QUERY
Использовать Yahoo DomainKeys -DWITH_DOMAINKEYS
Использовать базу IP-адресов с географической привязкой -DWITH_RELAY_COUNTRY
Устанавливать вспомогательные инструменты -DWITH_TOOLS

Замечание: при первой установке из коллекции портов вы получите представленное на рис. 1 диалоговое окно, где сможете отметить нужные параметры визуально, без ввода дополнительных параметров в командной строке. Ваш выбор будет сохранен в /var/db/ports/p5-Mail-SpamAssassin/options, и при последующих установках (например, при обновлении версии пакета) вы уже не будете получать этот диалог.

Рисунок 1. Конфигурационный диалог

Поясню смысл приведенных выше опций.

Поддержка SSL позволяет клиенту и серверу Spamassassin взаимодействовать друг с другом по защищенному каналу. Если и клиентское, и серверное ПО предполагается использовать только в пределах одной и той же машины, эту опцию можно отключить.

Если вы планируете использовать байесовый анализатор, то поддержка MySQL или PostgreSQL позволит вам хранить статистические данные, накапливаемые анализатором, в базе данных. Кроме того, в БД могут храниться настройки пользователей и автоматически формируемый «белый» список. Если ни одна из СУБД не поддерживается, будут использоваться «плоские» файлы.

Включение поддержки Razor позволит вам стать активным участником этой системы. То есть Spamassassin сможет не только проверять принадлежность сигнатуры сообщения к базе спама, но и отправлять извещения (рапорты) об обнаруженном спаме или ложных срабатываниях.

Запросы SPF (Sender Policy Framework, см. http://spf.pobox.com) позволяют использовать систему DNS для проверки того, является ли IP-адрес источника сообщения легитимным SMTP-сервером. Для SMTP-серверов администратор размещает в соответствующей зоне DNS запись типа TXT, информирующую о том, что с данного IP-адреса предусмотрена отправка сообщений электронной почты. Если для адреса источника такая TXT-запись отсутствует, то получатель вправе отклонить запрос на соединение.

Yahoo DomainKeys (см. https://antispam.yahoo.com/domainkeys) действует аналогично SPF, но вместо простой пометки хранит в соответствующей зоне публичный ключ SMTP-сервера, позволяющий верифицировать цифровые подписи получаемых электронных сообщений (которые подписываются автоматически при отправке).

Поддержка базы IP-адресов, сопоставленных со странами, позволит вам использовать фильтрацию по географическому признаку. Однако нельзя забывать, что некоторые компании могут использовать зарубежный хостинг. Поэтому не следует придавать подобным проверкам слишком большой вес.

Наконец, установка дополнительного инструментария позволит вам получить ряд вспомогательных программ (подробнее о них будет рассказано в следующем разделе).

Если вы выполняете установку вручную, будьте готовы к тому, что в процессе инсталляции придется удовлетворить большое число зависимостей (различные модули Perl). Список необходимых модулей можно найти в файле INSTALL дистрибутива.

Также не забудьте добавить следующую строчку в /etc/rc.conf:

spamd_enable="YES"

Это необходимо для того, чтобы демон Spamassassin мог запускаться из стартового сценария /usr/local/etc/rc.d/sa-spamd.sh.

Дислокация и приведение в полную боевую готовность

По умолчанию (установка из портов, prefix не используется) исполнимые файлы пакета размещаются в /usr/local/bin. Размещение и назначение основных конфигурационных файлов разъясняется в таблице 3.

Таблица 3. Размещение конфигурационных файлов

Файл Назначение
/usr/local/etc/mail/spamassassin/local.cf Основной файл конфигурации (общесистемный)
/usr/local/etc/mail/spamassassin/*.cf Прочие рабочие файлы конфигурации
/usr/local/etc/mail/spamassassin/init.pre Загружаемые модули (plugins),  совместимые с версией 3.0
/usr/local/etc/mail/spamassassin/v310.pre Загружаемые модули (plugins), совместимые с новой версией 3.1
/usr/local/share/spamassassin/*.cf Конфигурация по умолчанию
/.spamassassin/* Пользовательские настройки и файлы данных

Обратите внимание, что настоятельно не рекомендуется вносить изменения в файлы, размещаемые в каталоге /usr/local/share/spamassassin, поскольку они будут перезаписаны при обновлении версии пакета, и вы потеряете все свои настройки. Если вам нужно что-то изменить, просто укажите строку с нужными параметрами в рабочем конфигурационном файле в каталоге /usr/local/etc/mail/spamassassin.

Следующие подразделы описывают некоторые наиболее полезные параметры конфигурации.

Настройка набора тестов

  • required_score N – «Порог срабатывания» фильтра, то есть количество баллов, при достижении которого сообщение признается спамом. N – число с плавающей запятой. Значение по умолчанию – 5.0.
  • score <имя_теста> nL [nN nB nBN] – баллы, назначаемые тесту <имя_теста>. Может быть указано одно значение (общее) или четыре: nL – локальный балл, nN – при работающих сетевых тестах, nB – при включенном байесовом анализаторе, nBN – при работающих сетевых тестах и статистическом анализаторе.

Имена тестов и значения по умолчанию можно узнать в файле /usr/local/share/spamassassin/50_scores.cf. Чтобы полностью отключить какой-либо тест, присвойте ему значение 0.0.

Сами тесты (как правило – регулярные выражения) находятся в этом же каталоге в других cf-файлах. При желании вы можете создавать и свои проверки по аналогии с имеющимися. Как вы можете увидеть, для этого существует несколько групп правил (header, body, rawbody, meta, uri и др.).

Подробно синтаксис правил описывается на странице справки perldoc Mail::SpamAssassin::Conf.

Белые и черные списки

Spamassassin можно настроить для особой обработки сообщений от конкретного отправителя или адресованных конкретному получателю.

Для этого существует группа параметров, определяющих «белые» и «черные» списки:

  • whitelist_from <адрес_или_шаблон> – отправители, почтовый адрес которых соответствует шаблону, рассматриваются как доверенные, и почта от них не подвергается проверке на спам. Под шаблоном в данном случае понимается запись в стиле командной строки, где символ «*» обозначает любое количество символов, «?» – любой один символ. Например, «*@contora.ru» занесет в «белый» список всех пользователей домена contora.ru.
  • blacklist_from <адрес_или_шаблон> – аналогично «белому» списку, но теперь отправитель априори рассматривается как спамер, и все письма от него помечаются как спам без дальнейшего анализа.
  • whitelist_to <адрес_или_шаблон> – все сообщения на указанный адрес будут передаваться без фильтрации. Можно использовать, если владелец адреса желает получать всю почту, адресованную ему. Также рекомендуется устанавливать этот параметр для адреса abuse, чтобы даже в случае неправильной настройки фильтра с вами можно было связаться.
  • blacklist_to <адрес_или_шаблон> – все сообщения на указанный адрес будут рассматриваться как спам. Например, таким образом можно организовать «прививки» для статистического анализатора, создав специальный адрес для спама и максимально «засветив» его на просторах Интернета (при этом должно быть включено автообучение, см. ниже).

Существуют и другие параметры, позволяющие более гибко работать со списками пользователей. Подробности смотрите в документации.

Опции сетевых проверок

Фильтр Spamassassin умеет проводить ряд сетевых тестов, таких как проверка на принадлежность адреса отправителя доверенной сети, поиск IP-адреса в списках RBL, и т. п.

Некоторые параметры, которые вы можете использовать в своем конфигурационном файле, приведены ниже:

  • trusted_networks <список_сетей> – перечисленные здесь сети (в формате CIDR, например: 12.34.56.78/24) будут рассматриваться как доверенные.
  • skip_rbl_checks 1 | 0 – этим правилом вы можете отключить (значение 1) проверку на принадлежность адреса отправителя спискам RBL. Это может быть полезно, если такие проверки вы предпочитаете выполнять другими средствами (например, с помощью spamd или непосредственно правилами MTA), а также если риск потери легальных сообщений для вас неприемлемо высок.

Параметры обучения статистического анализа

Статистическому анализатору в Spamassassin отводится весьма важная роль, поскольку только благодаря ему удается достичь непревзойденной точности срабатывания. Так как этот инструмент довольно сильно нагружает систему, то его тонкая подстройка может иметь решающее значение.

Некоторые параметры:

  • use_bayes 1 | 0 – включает использование статистического анализатора.
  • bayes_auto_learn 1 | 0 – разрешает автообучение фильтра, в ходе которого письма, признанные спамом либо набравшие минимальный балл, автоматически обрабатываются для обучения анализатора как спам (spam) или не спам (ham) соответственно.
  • bayes-ignore-header <тэг_заголовка> – не анализировать письма, содержащие указанный тэг в заголовке. Может оказаться полезным для отмены повторного анализа уже обработанных (например, вышестоящим провайдером) сообщений.
  • bayes_ignore_from <адрес> – не подвергать анализу письма от указанного адресата.
  • bayes_ignore_to <адрес> – не анализировать сообщения, предназначенные указанному пользователю.

Прочие параметры

Если вы получаете письма преимущественно на одном (или нескольких) конкретном языке (например, русском), то может быть полезным указать такой параметр:

ok_locales ru en

В данном примере разрешенными языками объявляются русский и английский, сообщения же в других локалях будут попадать под действие ряда правил (например, CHARSET_FARAWAY) и получать соответствующий балл.

Параметр report_safe указывает на то, что следует делать с оригинальным сообщением, если оно будет признано спамом: либо оставить как есть (значение 0), либо приложить к отчету как вложение (значение 1), либо добавить к отчету как текст (значение 2).

Настройки администратора

Помимо описанных выше параметров, влияющих на процесс обработки входящих сообщений, существует ряд настроек, с помощью которых администратор может управлять способом хранения данных или загрузкой подключаемых модулей:

  • bayes_path <путь_к_базе> – указывает путь к каталогу, в котором будут храниться данные, накапливаемые статистическим анализатором.
  • bayes_file_mode <права_доступа> – задаются права доступа для вновь создаваемых файлов данных анализатора.
  • bayes_sql_* – группа правил для настройки доступа к внешней БД в случае, если она используется для хранения данных анализатора. Подробнее взаимодействие с СУБД будет рассмотрено в одном из следующих разделов.
  • loadplugin <имя_модуля> [<путь_к_модулю>] – так можно подключить дополнительный модуль.

Вспомогательные скрипты

Если вы устанавливали вспомогательные инструменты, то найти их можно будет в каталоге /usr/local/share/spamassassin/tools. Все они снабжены подробными комментариями или POD-документацией в самом тексте сценария. Здесь я приведу лишь краткое описание некоторых скриптов:

  • sa-stats.pl – формирует статистику работы фильтра на основе почтового лог-файла (по умолчанию /var/log/maillog). Пример вывода сценария:

# ./sa-stats.pl -s 20051013

Report Title     : SpamAssassin — Spam StatisticsReport Date      : 2005-10-13

Period Beginning : четверг, 13 октября 2005 г. 00:00:00

Period Ending    : пятница, 14 октября 2005 г. 00:00:00

Reporting Period : 24.00 hrs

--------------------------------------------------

Note: «ham» = «nonspam»

Total spam detected    :      737 (  54.51%)

Total ham accepted     :      615 (  45.49%)

                        -------------------

Total emails processed :     1352 (   56/hr)

Average spam threshold :       12.00

Average spam score     :       17.85

Average ham score      :        4.66

Spam kbytes processed  :     5255   (  219 kb/hr)

Ham kbytes processed   :    10632   (  443 kb/hr)

Total kbytes processed :    15887   (  662 kb/hr)

Spam analysis time     :     2057 s (   86 s/hr)

Ham analysis time      :     1434 s (   60 s/hr)

Total analysis time    :     3491 s (  145 s/hr)

Statistics by Hour

----------------------------------------------------

Hour                          Spam               Ham

-------------    -----------------    --------------

2005-10-13 00            12 ( 27%)         32 ( 72%)

2005-10-13 01           102 ( 75%)         33 ( 24%)

... ... ... ...

2005-10-13 23             0 (  0%)          0 (  0%)

Done. Report generated in 25 sec by sa-stats.pl, version 6256.

Этот отчет позволяет оценить долю спама в общем объеме электронной почты, нагрузку на систему и канал связи, а также распределение нагрузки по времени суток.

  • check_whitelist – проверяет или очищает автоматически сформированный «белый» список, позволяя удалить из него редко используемые адреса.

# ./check_whitelist

-1.4        (-4.3/3)  --  user@myserver.ru|ip=none11.1        (22.2/2)  --  rrryyy@mail.ru|ip=8x.2yy

 0.0         (0.0/2)  --  security-advisories@freebsd.org|ip=216.136

-2.3    (-394.9/171)  --  mailer-daemon@myserver.ru|ip=none

... ... ... ...

Первый столбец показывает средний балл писем от указанного адресата, во втором столбце выводится расшифровка того, как именно этот балл был получен. Обратите внимание, что в качестве IP-адреса используются лишь первые два октета, то есть оценивается только принадлежность отправителя к некоторой сети. Подробнее про автоматический «белый» список рассказано в следующем разделе.

  • convert_awl_dbm_to_sql – преобразует базу «белого» списка в SQL-команды для заливки данных во внешнюю БД.

Подразделение AWL

AWL (Auto White List) – система, используемая в Spamassassin по умолчанию, начиная с версии 3.0. Принцип работы AWL заключается в следующем: для всех отправителей ведется база данных, в которой сохраняется число обработанных сообщений и набранный в сумме балл. При получении письма с адреса, фигурирующего в базе AWL, рассчитывается его «чистый» балл (без учета AWL), а окончательный балл проставляется как производное значение от рассчитанного «чистого» и взятого из базы исторического значения.

Например, если ранее с адреса rrryyy@mail.ru было получено два сообщения, набравших в сумме 22.2 балла (см. листинг в предыдущем разделе, поясняющий работу утилиты check_whitelist), и приходит третье письмо с «чистым» баллом 1.8, то итоговый балл будет равняться:

St = (Th / Ch — Sc) * f + Sc = (22.2 / 2 — 1.8) * 1 + 1.8 = 11.1

где:

  • St – итоговый балл;
  • Th – суммарный «исторический» балл;
  • Ch – количество «исторических» писем;
  • Sc – «чистый» балл текущего письма (без учета AWL);
  • – весовой коэффициент системы AWL.

Таким образом, система AWL учитывает «кредитную историю» отправителя, доверяя в большей степени тем, кто в прошлом вел себя хорошо.

Отключить использование AWL можно, указав в конфигурационном файле следующую строку:

use_auto_whitelist 0

Кроме того, вы можете подстраивать работу системы, указывая весовой коэффициент для расчета итогового балла, отличный от 1:

auto_whitelist_factor 0.5

Теперь итоговый балл для приведенного выше примера будет равен 6.45, то есть находиться ближе к «чистому» значению.

Взаимодействие с MTA

SpamAssassin может быть подключен практически ко всем популярным почтовым серверам: Sendmail, Postfix, Qmail, Exim, Courier-MTA, Communigate Pro и некоторым другим. Подробные инструкции можно получить на странице https://wiki.apache.org/spamassassin/IntegratedInMta.

Для работы с Sendmail Spamassassin обычно подключается через milter. В сети можно найти несколько «мильтеров» для работы со Spamassassin.

Мы будем использовать имеющийся в коллекции портов spamass-milter:

# cd /usr/ports/mail/spamass-milter-0.3.0

# make install

После установки нужно будет добавить в /etc/rc.conf строку для автоматического запуска spamass-milter при загрузке системы:

spamass_milter_enable="YES"

Наконец, добавляем поддержку этой программы в конфигурационный mc-файл Sendmail (обычно соответствует доменному имени сервера, например /etc/mail/myserver.ru.mc):

MAIL_FILTER (`spamassassin’, `S=local:/var/run/spamass-milter.sock, F=, T=C:15m;S:4m;R:4m;E:10m’) dnl

define (`confINPUT_MAIL_FILTERS’, `spamassassin’) dnl

Если вы используете и другие фильтры (например, clmilter из пакета ClamAV), то перечислите их в одной строке «confINPUT_MAIL_FILTERS», поскольку такая запись должна быть только одна.

Как вариант, вместо строк MAIL_FILTER можно использовать INPUT_MAIL_FILTER. В этом случае второе определение не потребуется.

Теперь осталось пересобрать cf-файл, запустить Spamassassin и spamass-milter и перезагрузить Sendmail:

# cd /etc/mail

# make

# make install

# /usr/local/etc/rc.d/sa-spamd.sh start

# /usr/local/etc/rc.d/spamass-milter.sh start

# make restart

Последние три команды можно заменить полной перезагрузкой сервера, если режим его работы позволяет это сделать.

В процессе работы каждое сообщение анализируется, в него добавляются заголовки, отражающие результат проверки, однако независимо от того, признается письмо спамом или нет, оно передается дальше. Вопросы обработки таких сообщений рассматриваются в следующем разделе.

Помимо приведенного выше способа, большой эффективности можно достичь, используя procmail. Ниже приведен пример конфигурации:

# Отправляем все сообщения (до 256000 байт) на обработку

:0fw: spamassassin.lock

* < 256000

| spamassassin

# Все сообщения с X-Spam-Status = Yes помещаем в карантин

:0:

* ^X-Spam-Status: Yes

carantine

Если у вас запущен демон spamd, то вместо вызова spamassassin лучше использовать клиент spamc, который будет обращаться к находящемуся в памяти серверу. Это позволит избежать запуска отдельного экземпляра скрипта для обработки каждого входящего сообщения.

Помимо возможности индивидуальной настройки для каждого пользователя, вы можете здесь же организовать обработку сообщений, о чем мы сейчас и поговорим.

Дальнейшая участь спама

Пакет Spamassassin предназначен только лишь для пометки анализируемых сообщений (в заголовке или модифицируя тему письма). Дальнейшие действия, такие как удаление спама или перемещение его в карантин, требуют подключения внешних программ, умеющих это делать.

Наиболее популярным решением является уже упоминавшийся в предыдущем разделе procmail (там же приведен пример занесения спама в отдельный почтовый ящик). Этот способ можно использовать как глобально (для всех пользователей сервера организовать один карантин), что может быть удобно в пределах одной организации, так и индивидуально, настроив каждому пользователю свой карантин (эту возможность по достоинству оценят провайдеры). Недостатком такого подхода является отсутствие удобного инструмента для работы с карантином, так как если периодически закачивать содержимое карантина с помощью почтового клиента и обрабатывать его таким образом, то это сводит на нет все преимущества использования фильтра.

На странице https://wiki.apache.org/spamassassin/SpamQuarantine предлагается два других решения: использование веб-интерфейса Maia Mailguard и программы SpamAssassin Quarantine (SAQ). Чтобы не перегружать статью, оставлю их вам для самостоятельного изучения (возможно, об особенностях этих программ мы поговорим в другой раз).

На своем сервере я ограничился только пометкой спама, предоставив пользователям возможность самостоятельно решать, что делать с ним дальше.

Проверка боеготовности и обучение личного состава

После того как Spamassassin будет установлен и настроен, убедиться в его работоспособности можно, просмотрев заголовки приходящих сообщений. Для писем, прошедших обработку, в заголовке должно присутствовать что-то похожее:

X-Spam-Status: No, score=-0.7 required=12.0 tests=ALL_TRUSTED,AWL,    MAILTO_TO_SPAM_ADDR,NO_REAL_NAME autolearn=ham version=3.1.0

X-Spam-Checker-Version: SpamAssassin 3.1.0 (2005-09-13) on myserver.ru

Из этого заголовка видно следующее: сообщение было обработано фильтром Spamassassin, запущенным на вашем сервере (тэг X-Spam-Checker-Version). Письмо не было признано спамом (No), набрало -0.7 балла при необходимых 12.0, положительный результат был дан перечисленными после tests тестами. Автоматическое обучение статистического фильтра было выполнено для этого письма в режиме ham (не спам).

Таким образом, можно считать, что фильтр работает.

Для писем, признанных спамом, будет формироваться отчет (пример приведен на рис. 2). Текст сообщения можно изменять в настройках фильтра (используются строки report в конфигурационном файле). Помимо текста, извещающего пользователя, что сообщение было признано спамом, ниже дается подробная расшифровка того, какой тест сколько баллов внес в итоговый результат. Подобная детализация очень полезна для анализа причин ложного срабатывания, если оно произойдет. Оригинальное сообщение по умолчанию прикладывается к отчету как вложение (это поведение можно настроить с помощью параметра конфигурации report_safe).

Рисунок 2. Так для пользователя выглядит спам

Несколько слов нужно сказать о работе байесового анализатора. Если его работа разрешена и включено автообучение, то он будет анализировать каждое сообщение и инициировать обучение для писем, признанных спамом или набравших минимальный балл. Однако заметьте, что результаты статистического анализа станут учитываться фильтром только после того, как будет набрана достаточная учебная база (по умолчанию, по 200 экземпляров спама и не спама). Тренировать фильтр вы можете как вручную, так и положившись на автообучение (что потребует некоторого времени).

После того как будет накоплена достаточная база, в заголовках обработанных писем будет появляться и информация о выполнении тестов BAYES_xx:

X-Spam-Status: Yes, score=14.9 required=12.0 tests=BAYES_99,EXTRA_MPART_TYPE,    FORGED_OUTLOOK_TAGS,FORGED_RCVD_HELO,HTML_IMAGE_ONLY_16,HTML_MESSAGE,

    RCVD_IN_NJABL_DUL,RCVD_IN_SORBS_DUL,RCVD_NUMERIC_HELO,

    SUBJECT_ENCODED_TWICE autolearn=no version=3.1.0

X-Spam-Level: **************

X-Spam-Checker-Version: SpamAssassin 3.1.0 (2005-09-13) on myserver.ru

Как видите, для этого сообщения байесовый тест дал результат от 99 до 100% вероятности того, что письмо – спам. Совместно с другими тестами письмо набрало 14.9 баллов, что позволило отнести его к спаму, несмотря на достаточно высокий порог срабатывания.

Основываясь на личном опыте использования фильтра, могу сказать, что сразу после установки (поскольку дело было на работающем сервере, то необходимый порог срабатывания был на период тестирования установлен на достаточно высоком уровне – 12 баллов) Spamassassin стал отмечать примерно половину приходящего спама. Специального обучения статистического анализатора я не проводил, целиком полагаясь на самообучение. Спустя сутки фильтр накопил достаточную базу и стал учитывать результаты байесовой классификации. При этом точность срабатывания возросла примерно до 91%. Ложных срабатываний пока не наблюдалось.

Предварительное обучение фильтра наборами заранее отсортированных на спам и легальную почту сообщений позволит задействовать байесовый анализатор значительно раньше, а также еще больше повысить точность срабатывания. Команды, «скармливающие» фильтру такие сообщения, представлены ниже:

# sa-learn --spam ~serg/sa/spams

Learned tokens from 20 message (s) (20 message (s) examined)

# sa-learn --ham ~serg/sa/hams

Learned tokens from 5 message (s) (5 message (s) examined)

Последним параметром указывается либо файл (в формате mailbox), либо каталог, содержащий примеры писем (например, в формате msg). Нужно заметить, что обучение может выполняться довольно долго (у меня обработка 25 сообщений заняла почти минуту).

Вполне естественно, что Spamassassin, как и любой другой антиспамовый фильтр, будет пропускать часть спама (всегда найдутся грамотно составленные сообщения, успешно проходящие через большинство правил). Сбор таких писем в отдельную папку и периодическая передача их Spamassassin в режиме обучения позволят в будущем повысить точность срабатывания за счет более высокого балла, присваиваемого письму статистическим анализатором.

После обучения вы можете просмотреть дамп базы:

# sa-learn –dump

0.000   0          3          0  non-token data: bayes db version0.000   0       2792          0  non-token data: nspam

0.000   0        623          0  non-token data: nham

0.000   0     131028          0  non-token data: ntokens

0.000   0 1010692073          0  non-token data: oldest atime

0.000   0 1129590682          0  non-token data: newest atime

0.000   0 1129530349          0  non-token data: last journal sync atime

0.000   0          0          0  non-token data: last expiry atime

0.000   0          0          0  non-token data: last expire atime delta

0.000   0          0          0  non-token data: last expire reduction count

0.049   0          1 1129026204  91a35b559c

0.958   1          0 1129026743  92485c309a

0.049   0          1 1129028552  f92317eba2

... ... ... ... ...

К процессу обучения можно приобщить и пользователей. Создайте специальные почтовые ящики для спама и не спама (например, sa-spam@myserver.ru и sa-ham@myserver.ru) и проинструктируйте своих пользователей на первый из них пересылать пропущенный спам (так называемый false negative), на второй – хорошие сообщения, ошибочно признанные спамом (false positive).

Далее настройте cron на периодическую загрузку писем из соответствующих почтовых ящиков в режиме обучения.

Второй путь – настроить procmail на обработку таких писем, что называется, на лету (пример взят со страницы https://wiki.apache.org/spamassassin/ProcmailToForwardMail):

:0

* ^To:.*spam@example.com

   {

   * < 256000

   :0c: spamassassin.spamlock

   | sa-learn --spam

   :0: spamassassin.filelock

   spam

   }

Здесь помимо инициализации обучения для поступающих писем их копии также сохраняются в папке spam, которая может пригодиться в будущем для ручного обучения фильтра.

Подробнее о режимах обучения смотрите страницу справочного руководства man sa-learn и соответствующие Wiki-страницы.

Усиление за счет внешней СУБД

По умолчанию Spamassassin хранит данные (автоматически формируемый «белый» список, историю статистического анализатора) в отдельных файлах в формате DBM. Для повышения производительности можно перенести их во внешнюю базу данных. Spamassassin умеет работать с MySQL и PostgreSQL (поддержка СУБД должна быть включена на этапе установки пакета). Рассмотрим настройку для работы с базой PostgreSQL.

Сначала вам нужно будет подготовить базу данных для работы. Саму БД придется создать вручную, а заодно и пользователя, который будет владельцем нашей базы. А поскольку Spamassassin использует хранимые процедуры на языке PL/pgSQL, то также потребуется подключить и язык программирования к вновь созданной базе:

# createuser --no-adduser --no-createdb -U pgsql sauser

# createdb --owner sauser -U pgsql sabase

# createlang -U pgsql plpgsql sabase

Замечание: pgsql – имя администратора PostgreSQL, который имеет право создавать базы и пользователей, sauser – вновь создаваемый пользователь-владелец БД Spamassassin, sabase – база данных Spamassassin.

Далее нужно сформировать правильную структуру БД, для чего воспользуемся готовыми SQL-сценариями, которые можно будет найти в каталоге sql распакованного дистрибутива (при установке из портов это будет каталог /usr/ports/mail/p5-Mail-SpamAssassin/work/Mail-SpamAssassin-3.1.0/sql):

# psql -d sabase -U sauser -e < bayes_pg.sql

CREATE TABLE bayes_expire (

  id integer NOT NULL default «0»,

  runtime integer NOT NULL default «0»

) WITHOUT OIDS;

CREATE TABLE

CREATE INDEX bayes_expire_idx1 ON bayes_expire (id);

... ... много команд ... ...

CREATE FUNCTION

Этой командой мы создали нужные таблицы, индексы и функции в базе sabase для хранения данных статистического анализатора. Теперь осталось указать в конфигурационном файле local.cf соответствующие настройки и перезапустить фильтр:

bayes_store_module Mail::SpamAssassin::BayesStore::PgSQL

bayes_sql_dsn DBI:Pg:dbname=sabase;host=localhost

bayes_sql_username sauser

bayes_sql_password ""

Если у вас уже накоплена статистическая база в формате DBM, то перенести их в СУБД можно следующим образом. Перед тем как менять настройки в конфигурационном файле, сделайте резервную копию базы:

# sa-learn --backup > sabase.back

После того как настройки будут изменены для работы с СУБД, восстановите данные из сформированной резервной копии:

# sa-learn --restore sabase.back

Поскольку формат резервной копии не зависит от используемого модуля базы данных, то sa-learn самостоятельно выполнит конвертирование данных в соответствии с используемой базой данных.

Также поддерживается хранение во внешней БД пользовательских настроек и «белых» списков. Для подготовки таблиц нужно выполнить следующие команды:

# psql -d sabase -U sauser -e < userpref_pg.sql

# psql -d sabase -U sauser -e < awl_pg.sq

А в конфигурационном файле указать аналогичные приведенным выше опции подключения к базе данных:

user_scores_dsn DBI:Pg:dbname=sabase;host=localhost

user_scores_sql_username sauser

user_scores_sql_password ""

user_awl_dsn DBI:Pg:dbname=sabase;host=localhost

user_awl_sql_username sauser

user_awl_sql_password ""

Дополнительные сведения можно получить из файлов README.* в указанном выше каталоге sql.

Индивидуальный защитный комплект

Spamassassin может быть установлен и для персонального использования без необходимости иметь права администратора системы. Например, если у вас есть учетная запись на сервере, то сможете установить Spamassassin в своем домашнем каталоге и настроить его на проверку почты с помощью procmail. В этом случае вы сможете настроить фильтр именно так, как хотите, не обращаясь к системному администратору сервера. Прежде чем вы установите Spamassassin в свой домашний каталог, вам потребуется указать в ваших переменных окружения пути к модулям и библиотекам Perl, если это не было сделано ранее. Должны быть определены переменные PATH, MANPATH, PER5LIB и LANG.

Прежде чем собрать пакет из исходников, сконфигурируйте его на установку в свой домашний каталог:

# perl Makefile.PL PREFIX=$HOME && make && make install

Далее внесите в ваш файл .forward такую строчку:

«|IFS=» « && exec /usr/bin/procmail -f- || exit 75 #user»

Это приведет к перенаправлению всей вашей почты на procmail, который должен быть настроен на обработку спама (пример см. выше, использовать следует пользовательский конфигурационный файл .procmailrc). Пример конфигурационного файла для procmail можно найти в дистрибутиве под именем procmailrc.example. Не забывайте теперь вызывать нужные программы, указывая путь к файлам, установленным в вашем домашнем каталоге (или укажите нужный каталог в вашей переменной окружения PATH). Подробности смотрите на странице http://wiki.apache.org/spamassassin/SingleUserUnixInstall.

Враг будет разбит!

Как видите, фильтр Spamassassin может быть предельно гибко настроен для борьбы со спамом. Он предоставляет администратору возможность как глобально определять правила фильтрации всей почты, так и переложить часть настроек на пользователей, которые смогут подстраивать работу Spamassassin под свои предпочтения. В то же время данному фильтру присущи и традиционные проблемы, сопровождающие различные анализаторы. Так, прием сообщения осуществляется полностью, то есть снижения почтового трафика не будет. Высокая нагрузка на сервер, особенно в случае включенного синтаксического анализа, требует более мощного (а следовательно, более дорогого) оборудования. Вероятность ложных срабатываний (хотя и очень небольшая) на ответственных серверах вынуждает заносить письма, признанные спамом, в карантин, что помимо расходования дискового пространства требует также времени на периодический контроль помещенных туда писем. Тем не менее использование Spamassassin позволит упростить жизнь пользователям электронной почты, а при достаточно внимательной настройке – даже добиться весьма хороших результатов при минимуме ложных срабатываний.

Приложение

Справка

Пакет Spamassassin был разработан Джастином Мэйсоном (Justin Mason) на базе кода программы filter.plx. Весной 2001 года проект был выложен на сайте Sourceforge.net. В настоящее время Spamassassin разрабатывается силами Apache Software Foundation и начиная с версии 3.0 выпускается под лицензией Apache. Spamassassin лежит в основе ряда других антиспамовых решений, например McAfee SpamKiller.