Выбрать главу

...Рассмотрим данные, картина такова:

Ноги четыре, уха два,

Шерсть тона светлого, длинней всего на холке.

Имеет хвост, украшенный метелкой,

Способен оглушительно реветь...

«Так это ж лев!» – разинул рот медведь.

При ближайшем рассмотрении обладатель анкеты оказался ослом. В этой истории, как в капле воды, отражены неприятности, подстерегающие авторов распознающих программ; в частности, сразу бросается в глаза использование малоинформативных признаков: «ноги четыре» и в особенности «уха два».

За прошедшие с тех пор два с лишним десятилетия теория распознавания образов значительно шагнула вперед, и во многих сферах использование ее методов для решения различных прикладных задач стало повседневной практикой. К сожалению, этого нельзя пока сказать о задачах выявления связи структура – активность, хотя и на этом пути достигнут определенный прогресс.

Один из важнейших уроков истории развития методов теории распознавания образов заключается, по-видимому, в выводе, что нет надежд на получение универсальных, пригодных в равной степени для всех задач методов; каждый узкий класс задач требует создания строго ориентированных процедур, учитывающих специфику задачи. Даже при исследовании проблемы связи структура – активность наметилось несколько направлений, требующих развития различных подходов в зависимости от поставленных целей и круга изучаемых соединений; при этом именно в силу специфики задачи некоторые из них выходят за традиционные рамки методов теории распознавания образов.

Рассмотрим подробнее в качестве примера так называемый логико-структурный подход к изучению связи структура – активность, развиваемый упоминавшимся А.Б. Розенблитом и В.Е. Голендером.

Сами авторы объясняют отличие своего подхода от традиционных методов теории распознавания образов следующими словами: «При исследовании проблемы связи структура – активность методы распознавания образов представляются нам недостаточными потому, что основная их цель – найти решающее правило классификации объектов. Для нас же не только важно найти решающее правило, с помощью которого можно было отнести данное соединение к определенному виду (или нескольким видам) активности, но. не менее важно на основе обучающей последовательности выявить структурные признаки, руководствуясь которыми химик мог бы синтезировать новые соединения с наперед заданной активностью. Разумеется, важно иметь оценку достоверности признака».

Очевидно, при таком подходе сохраняется и необходимость создания специального языка для описания химической структуры соединений, и использование некоторой классификации типов их биологической активности с учетом того обстоятельства, что возможна принадлежность соединения к двум или нескольким классам сразу, то есть допускается наличие у него нескольких типов биологической активности. Наконец, необходима разработка соответствующим образом организованных банков данных.

Для демонстрации сути приема, лежащего в основе алгоритма отбора признаков, характерных для определенного типа биологической активности, авторы рассматривают простейший пример группы соединений, принадлежащих одному ряду и различающихся лишь характером заместителей в четырех положениях. Можно для определенности взять некоторое циклическое ядро или фрагмент алифатической цепочки с заместителями R1, R2, R3, R4. Например:

Эти заместители могут быть радикалами –NH2, –CH3, –C2H5, –C6H5, –H, –F, –Br, –NO2 и др. в различных комбинациях.

Все соединения разделены на две группы, обладающие определенным видом биологической активности и лишенные ее. Будем попарно сопоставлять представителей каждой группы, отмечая всякий раз совпадения и несовпадения характера заместителей в отдельных положениях. В результате выяснится, что, скажем, комбинации R1 = –H, R3 = –Br и R1 = –CH3, R2 = –NH2 наблюдаются только у активных соединений, комбинации R1 = –H1, R4 = –NO2 и R1 = –CH3, R2 = –C6H5 – только у неактивных. Помимо этого, есть и признаки, встречающиеся у представителей обеих групп. Можно подсчитать и частоту наблюдения различных совокупностей заместителей в двух группах и на этой основе получить простое решающее правило, приняв некоторое ее пороговое значение, превышение которого указывает на активность.