Биологическая диагностика: история, современное состояние, проблемы

Биологическая диагностика (в англоязычных работах чаще именуемая биологической идентификацией) сейчас является разделом биологической систематики и занимается теорией и практикой построения диагностических ключей (определителей), необходимых для установления таксономической принадлежности организмов. Определители растений и животных создавались биологами более трех столетий и обсуждались способы их построения, но обособление биологической диагностики в рамках систематики произошло в 70-е годы прошлого века и связано оно с попытками автоматизировать процесс использования ключей с помощью появившихся в 60-е годы компьютеров. Докомпьютерная история определительных ключей подробно рассмотрена в целом ряде работ (Лобанов, 1972; Morse, 1975; Свиридов, 1976, 1994; Pankhurst, 1978; Payne, Preece, 1980 и др.).

В общей формулировке основная задача биодиагностики - выяснение к какому из известных (выделенных заранее) таксонов можно отнести конкретный живой организм - может укладываться в рамки вопросов, рассматриваемых теорией распознавания образов (одним из разделов кибернетики). Поэтому в биологической диагностике могут быть плодотворно использованы достижения медицинской диагностики (идентификации заболеваний), технической диагностики (идентификации неисправностей машин, аппаратов и сложных технических систем) и других похожих по постановке задачи дисциплин. Но биодиагностика имеет специфические отличия, которые не позволяют прямо использовать разработанные в перечисленных дисциплинах способы идентификации.

Проблема определения объекта при неполном наборе признаков становится все более актуальной в связи с все меньшей доступностью биологических материалов, а также в случае необходимости определения фрагментов объектов. Эта проблема приобретает особое значение при идентификации ископаемых организмов, которые всегда несут в той или иной мере неполный набор признаков, причем довольно часто доступные в них признаки не рассматриваются как диагностические специалистами по современной фауне. Вместе с тем палеонтологи вынуждены использовать для диагностики вымерших групп признаки, нередко не используемые неонтологами. Для определения современных жуков традиционно чаще используются признаки, доступные наблюдению сверху тела жука, тогда как для диагностики компрессионных ископаемых жуков палеонтологам приходится работать преимущественно с признаками нижней поверхности тела. В результате ключи для современных видов неприменимы к вымершим и наоборот. В предельных, однако обычных случаях остатки ископаемых организмов не содержат надежных диагностических признаков вовсе, однако по набору сохранившихся сопряженных признаков эти остатки можно только с большей или меньшей вероятностью отнести к той или иной группе конкретного таксономического уровня. Эти обстоятельства нередко приводят к взаимному непониманию между неонтологами и палеонтологами или даже к тому, что специалисты по современной фауне значительно недооценивают данные по истории или даже вовсе игнорируют их. Такого рода проблемы отчасти снимаются современными многовходовыми определителями, о которых речь пойдет ниже.

Например, в медицинской диагностике широко распространена вероятностная оценка нескольких возможных диагнозов, ибо заболевание может быть в начальной, плохо выраженной форме, а также возможно одновременное наличие у одного пациента нескольких разных заболеваний со сходными, или противоположными, или самостоятельными симптомами. В биологии определяемый организм не может принадлежать к нескольким разным таксонам (исключением могут быть гибриды, но они обычно тоже считаются отдельными таксонами и имеют собственные названия, как, например, хонорик - гибрид хорька и норки, или гибрид двух видов пшеницы - Triticum durum Desf. x Triticum monococcum L.). Кроме того, биологический таксон не может иметь начальную, плохо выраженную форму. Поэтому при правильной биологической идентификации конкретный экземпляр должен быть отнесен к конкретному ранее известному таксону или для него выделяется новый таксон.

В технической диагностике одна конкретная неисправность одной детали или узла вызывает всегда одни и те же признаки неправильной работы всего агрегата - зависимость строго предопределена. А биологические таксоны обладают часто очень широкой изменчивостью и их признаки сильно варьируют. Например, в видовой диагностике жуков из семейства божьих коровок (Coccinellidae) важное значение имеет окраска надкрылий: цвет общего фона и цвет, форма и число элементов рисунка. Но для одного из самых распространенных видов - двухточечной коровки Adalia bipunctata (L.) - этот признак почти не имеет значения, так как надкрылья у него могут быть одноцветно красными, или красными с двумя черными пятнами, или черными с двумя красными пятнами, или одноцветно черными, или с любым сочетанием красных и черных элементов окраски.

С повсеместным распространением ЭВМ все новые разработки в биологической диагностике так или иначе связаны с компьютерами и привели к ее сближению с информатикой. Вне компьютеризации остались только публикуемые в "бумажном" виде (в статьях и книгах) текстовые и табличные ключи, которые уже не эволюционируют и за 35 последних лет совершенно не изменились. Поэтому полностью сохранили свое значение их описание и классификация (Лобанов, 1972). Зато пышно расцвели методы компьютерной биологической диагностики, скромно упомянутые в той исторической статье одной строкой в итоговой классификации: "Программы для ЭВМ".

Понятие "компьютерная биологическая идентификация" стало настолько широким, что требует хотя бы грубой классификации, чтобы разграничить принципиально отличающиеся постановки задачи и методы ее решения (Лобанов, Рысс, 1999). В основу этой новой классификации мы предлагаем положить способ формирования признаков таксонов и их использования в процессе идентификации.

Традиционные компьютерные таксономические диагностические системы. Признаки таксонов формирует исследователь. Сам исследователь и считывает признаки с определяемого экземпляра в процессе идентификации и сообщает их компьютерной программе, которая тем или иным способом помогает отнести экземпляр растения или животного к одному из ранее установленных таксонов. К этому типу систем относится большинство используемых биологами программ (Лобанов, Дианов, 1994; Лобанов, 1997; Dallwitz, Paine, Zurcher, 2000) и такого типа система будет разработана в ходе выполнения настоящего проекта (WebKey-x). К этому же типу систем относится и ныне популярный метод идентификации с использованием анализа последовательностей нуклеотидов ДНК, РНК и цитохрома C ??? (Абрамсон и др., 2009)
Компьютерные диагностические системы с использованием автоматической обработки изображений. Признаки таксонов выделяются исследователем, но считывание этих признаков с определяемого экземпляра в ходе идентификации производит не сам человек, а оптическое устройство и управляющая им программа. Затем программа помогает отнести экземпляр к одному из заранее установленных исследователем таксонов. Такого рода системы разрабатываются специалистами по автоматической обработке изображений (Fdez-Valdivia J. et al., 1992), они используются и в Зоологическом институте РАН для идентификации нематод и моллюсков (Galtsova, Kulangieva, 1995; Galtsova, Starobogatov et al., 1995).
Компьютерные диагностические системы на основе теории распознавания образов. Признаки таксонов не выделяются заранее в явной форме исследователем, а формируются самой программой в ходе ее обучения с помощью оптического устройства. Набор возможных таксонов формируется этой же программой в процессе предъявления ей нескольких экземпляров каждого таксона. Считывание признаков (которые обычно остаются неизвестными исследователю) с определяемого экземпляра производит программа с помощью оптического устройства и относит экземпляр к одному из таксонов, использованных в ходе ее обучения. Такие системы известны в биологии (например - Katsimis, Poularikas, 1986; Draper, Keefe, 1989), но их разработкой занимаются не биологи, а специалисты весьма специфичной отрасли кибернетики - теории распознавания образов.

Мы оставляем в стороне два последних достаточно специфических типа и рассматриваем далее только традиционные компьютерные таксономические диагностические системы, имея в виду, что некомпьютерные формы таких систем достаточно полно рассмотрены в литературе (Лобанов, 1972, 1975; Свиридов 1973, 1976, 1978, 1994; и др.). Все внешнее многообразие форм докомпьютерных биологических определителей укладывается в сравнительно небольшое число принципиально отличающихся типов. Сохранившая до сих пор свою полноту классификация форм диагностических ключей была опубликована на заре компьютерной эпохи (Лобанов, 1972).

Итак, мы рассмотрим только традиционные компьютерные таксономические ключи - программы, которые помогают оптимизировать решение традиционной задачи: определение таксономической принадлежности образцов в условиях заранее установленных признаков таксонов и считывания признаков с образца самим исследователем. Первые работы по использованию компьютеров для идентификации биологических объектов появились в конце 60-х годов (Кискин и др., 1965; Ladley, 1965; Goodall, 1968; Morse, 1968 и др.). Это вызвало интерес к истории и теории построения ключей. В начале 70-х годов наблюдался первый пик активности в области разработки методов компьютерной идентификации (Pankhurst, 1970; Лобанов, 1972, 1974, 1975а, 1975б; Свиридов, 1973, 1978; Dallwitz, 1974; Morse, 1974, 1975; Payne, Preece, 1980 и др.). Именно в этот период состоялся симпозиум в Кембридже (сентябрь, 1973) и вышел сборник его трудов - "Biological Identification with Computers" (Pankhurst, 1975), ставший на многие годы библией для ученых, работающих в этой области, смежной между биологией и информатикой. Как результат широкого распространения персональных компьютеров стали появляться не только теоретические работы (Pankhurst, 1978; Payne, 1978; Lobanov, Schilow, Nikritin, 1981; Лобанов, 1983; Свиридов, 1994), но и программы для диалогового определения и автоматизированного построения биологических ключей (Dallwitz, Paine, 1986; Rubio, 1986; Райтвийр, Кулль, 1988; Miller, Day, 1990; Pankhurst, 1991; Schalk, 1992a, 1992b; Estep, Sluis, Syvertsen, 1993; Лобанов, Степаньянц, 1993; Лобанов, Дианов, 1994, 1995, 1998; Edwards, Morse, 1995; Ryss, Lobanov, Dianov, 1995; Lobanov, Stepanjants, Dianov, 1995, 1996; Бутаков, Лелеков и др., 1995; Byers, 1996; Lobanov, Dianov, Schilow, 1996; Дианов, Лобанов, 1997; Лобанов, 1997a, 1997b; и др.).

Важной вехой в развитии биологической диагностики стала конференция в Кентербери (декабрь 1996, Великобритания) - "Computer-based Species Identification", специально посвященная компьютерным аспектам идентификации и 21-ой годовщине выхода в свет сборника трудов симпозиума в Кембридже. Благодаря Интернету можно ознакомиться с тезисами всех докладов и получить довольно полную картину недавнего состояния интересующей нас области (http://......).

Наблюдения за насчитывающей более 40 лет эволюцией компьютерных ключей "изнутри" (в качестве участников этого процесса) позволяют всесторонне оценить ее результаты и дальнейшие перспективы. В весьма обобщенном виде можно выделить 2 этапа этой эволюции: (1) этап диверсификации, т.е. увеличения разнообразия компьютерных ключей и (2) этап их сходной оптимизации, т.е. прихода к одинаковым решениям основных задач. Первый этап был обусловлен очень различными возможностями биологов разных стран и разных учреждений в сфере hardware. Для опытов в области диагностики использовались тогда обычно большие ЭВМ с очень разной периферией и существенно разными способами доступа пользователя к ресурсам машины. Естественно, что это вызвало появление очень разных диагностических программ - от простейшего поиска в пачке машинных перфокарт до интерактивных ключей. Вместе с теоретической разработкой оптимальных способов построения ключей совершенствовались и компьютеры. Уже более десяти лет разработки ориентируются на персональные компьютеры, превосходящие по мощности гигантские ЭВМ 60-х и 70-х годов. И теперь центр разнообразия программ переместился в область их интерфейса и способов использования графических изображений. А внутреннее устройство компьютерных ключей испытало заметную конвергенцию и теперь почти все диагностические программы, претендующие на широкое использование биологами, пришли к практически одинаковому оптимальному варианту.

В основе нашей оценки современного состояния компьютерной диагностики лежит сравнительный анализ примерно 20 наиболее известных диагностических программ из разных стран. Для того, чтобы можно было сопоставлять особенности этих программ в одной системе понятий, необходимо уточнить используемую нами терминологию.

Таксон (taxon) - название множества, т.е. конкретной систематической группы, объединяющей организмы с определенными свойствами (таксонами в ключе могут быть и виды, и семейства, и типы).
Признак (character) - формализованная группа свойств организмов, которую можно использовать как элементы распознавания. Например: цвет переднеспинки; тип жилкования листьев и т.д.
Состояние признака (state of character) - конкретное свойство организмов как один из возможных вариантов признака. Например: красная переднеспинка; сетчатое жилкование листа и т.д.
Диагноз (diagnosis) - весь набор действий человека и компьютера, приводящий к определению одного экземпляра (традиционно в систематике диагнозом называют набор признаков необходимых для надежного определения; исходно это - экстракт признаков из определительных таблиц, достаточный для идентификация таксона) .
Шаг определения (step) - одна элементарная операция в диагнозе, включающая обычно: выбор одного из признаков; ввод в компьютер того состояния признака, которое имеется у определяемого экземпляра; получение от программы ответа о результате поиска таксонов с таким состоянием выбранного признака. Возможно использование на одном шаге не одного, а нескольких признаков. Это может быть особенно удобно в случае количественных признаков (A.Ryss, 1999). При этом несколько усложняется отбор программой возможных таксонов, но в принципе такой подход не вносит существенных изменений в алгоритм определения.
Путь определения (path of diagnosis) - последовательность шагов одного диагноза и использованных на этих шагах признаков.
Длина пути определения (length of path) - число шагов, сделанных пользователем до получения однозначного ответа (определения одного экземпляра или отказа от определения).
Диагностическая ценность конкретного признака на данном шаге (diagnostic value) - количественная оценка полезности признака для сокращения возможной длины пути определения (т.е. для уменьшения числа шагов в диагнозе). Определение диагностической ценности признаков - одна из самых интересных и сложных задач проектирования диагностических программ. Раньше алгоритмы расчета ценности активно обсуждались и публиковались, но сейчас, к сожалению, эти детали программ скрыты от пользователей. Интересующихся этим вопросом можно отослать к подробным разборам проблемы (Payne, Preece, 1980; Свиридов, 1994).

Более перспективным подходом к оптимизации процесса определения является комплексная оценка ценности признаков не только в плане сокращения длины пути определения, но и в плане повышения надежности определения. Такой подход требует, к сожалению, от автора ключа вдвое большего объема исходных данных (необходимы оценки надежности каждого признака для каждого таксона и оценки встречаемости всех таксонов). При наличии таких данных можно использовать формулы комплексной оптимизации ключей (Svirodov, Leuschner, 1986; Свиридов, 1994), но нам неизвестны действующие программы, реализующие такой усложненный подход.

Так как компьютерные ключи являются достаточно сложными системами и имеют множество различных характеристик, то существует и множество различных классификаций таких ключей по разным аспектам. Однако две характеристики имеют особое значение и должны быть выделены в первую очередь.

Наиболее важная характеристика: число входов в ключ (number of entries) - число признаков, с которых можно начать новый диагноз или очередной его шаг. Обычно выделяют одновходовые ключи (monoentry), в которых у пользователя нет выбора - как на первом шаге, так и на последующих, он должен пользоваться единственным предъявленным ему признаком; и многовходовые ключи (multientry), в которых на каждом шаге пользователю предоставляются несколько признаков и он выбирает из них наиболее удобный и надежный.

Вторая и менее важная характеристика - число состояний, выделяемых в ключе для каждого признака (number of states). Обычно по этому основанию классификации выделяют дихотомические ключи (dichotomous), в которых у всех признаков имеется строго по два состояния; и политомические (polytomous), в которых хотя бы у части признаков могут быть три и более состояний.

Эти две характеристики ключа никак не связаны друг с другом (легко можно построить одновходовый политомический ключ и многовходовый дихотомический), но из-за того, что большинство традиционных текстовых (докомпьютерных) одновходовых ключей было строго дихотомическим, а появившиеся сравнительно недавно многовходовые ключи (табличные, перфокартные и компьютерные) обычно являются политомическими, произошло смешивание понятий и до сих пор (несмотря на все усилия теоретиков биологической диагностки) многовходовые ключи многие называют просто политомическими, что абсолютно неверно.

Современные компьютерные ключи предполагают пошаговое определение - с использованием одного признака или нескольких признаков на каждом шаге и с циклическим повтором одних и тех же операций для этих шагов. И, конечно, все рассматриваемые программы являются диалоговыми или интерактивными, т.е. подразумевающими поочередные действия компьютера и пользователя (ранее, до появления персональных компьютеров, альтернативой был пакетный режим использования компьютера, когда пользователь сдавал оператору задание на обработку и через несколько минут или часов получал ответ - диалог при этом исключался).

Обобщенный сценарий работы диагностических программ можно представить в виде такого алгоритма:

Оценка всех возможных признаков для имеющегося множества возможных таксонов и выдача их пользователю для выбора в порядке убывания их ценности для продолжения диагноза.
Выбор пользователем наиболее удобного признака и ввод в компьютер сведений о состоянии этого признака (или значения непрерывного количественного признака) у определяемого экземпляра.
Перебор программой всех возможных таксонов и редуцирование этого набора за счет таксонов, которые не имеют введенного состояния.
Если определение не закончено, то переход к пункту 1 - к следующему шагу определения.

Задачами для дальнейшего усовершенствования диагностических программ и улучшения их количественных характеристик (максимально допустимое число таксонов и признаков в ключе, время ответа системы при выполнении 1-го и 3-го пунктов алгоритма) являются именно эти два пункта алгоритма.

В 1-ом пункте скрыто наибольшее число проблем: возможность использования непрерывных количественных признаков (таких, как длина тела или отношение длины к ширине какой-то части организма), способ определения их диагностической ценности (так, чтобы она была сопоставима с оценками ценности для дискретных качественных признаков), оптимизация времени вычисления диагностической ценности при большом числе признаков и таксонов в ключе.

Во 2-ом пункте важной проблемой является учет возможных ошибок пользователя и сохранения в рассматриваемом и редуцируемом наборе даже тех таксонов, которые имеют ряд несовпадений по нескольким признакам.

С этой упрощенной схемой мы сопоставляли рассмотренные нами программы. В нашем обзоре использованы рабочие или демонстрационные версии (изредка - только общая информация со страниц Internet) следующих компьютерных программ или интерактивных ключей (в скобках указаны названия более крупных систем, к которым относятся некоторые идентификационные программы):

 Одновходовые ключи:
     Guide to Palearctic Flea Beetle Genera - A.Konstantinov, USA
     Interactive Atlas of Gymnamoebae - A.Smirnov, A.Goodkov & D.Goobanov, Russia
     KEYS - D.Remsen, USA
     TAXAKEY - R.Blackman, V.Eastop & G.Kibby, UK
     TAXOKEY - J.Byers, Sweden

 Многовходовые ключи:
   DOS:
     CABIKEY - I.White, UK
     ONLINE (PANKEY) - R.Pankhurst, UK
     TAXEX - E.Butakov & S.Lelekov, Ukraine

   Windows:
     Discover Mushrooms - Technology Developments Co., USA
     IdentifyIt (Linnaeus II) - F.MacIntyre & K.Estep, Netherlands
     INTKEY (DELTA) - M.Dallwitz & R.Payne, Australia
     LUCID - K.Thiele & G.Rutter, Australia
     MEKA - C.Meacham, USA
     PICKEY (BIKEY) - M.Dianov & A.Lobanov, Russia
     Pilz2000 - U.Lade, H.Thomas & R.Winkler, Germany
     SynKey - R.Senn, Switzerland
     Lysandra - K.Dovgailo, Belarus

   Windows с использованием протоколов Internet:
     Flowering Plant Family Identification - R. Phillips, USA
     FusKey - K.Sifert, Canada
     Interactive Key to Katydids - P.Naskrecki, USA
     Key to Genera of the Sarcoscyphineae - D.Pfister & N.Cross, USA
     NaviKey - M.Bartley, USA
     3I - D.Dmitriev, Russia
     WebKey-X - A.Vakhitov & A.Kirejtshuk, Russia

Ниже сделана попытка сравнения анализируемых программ по одному плану (для каждой программы указан год испытанной версии и в большинстве случаев - конкретный демонстрационный или рабочий ключ).

Одновходовые ключи

Guide to Palearctic Flea Beetle Genera - 1998, 57 родов земляных блошек Палеарктики (Insecta, Coleoptera, Chrysomelidae, Alticinae). Прекрасный пример построения удобного и полностью иллюстрированного одновходового дихотомического ключа самыми простыми средствами HTML - набором страниц для использования в WWW.
Interactive Atlas of Gymnamoebae - 1999, 35 видов голых амеб. Определитель реализован в виде совокупности HTML-страниц, контролируемых встроенными JavaScript сценариями и предназначен для использования в WWW или в виде локальной копии. Определитель богато иллюстрирован, снабжен описаниями и ссылками на литературу. Конструкция ключа позволяет идентифицировать амеб любого систематического уровня - от рода до вида или до морфотипа (в зависимости от количества доступного материала).
KEYS - 1995. Оригинальная программа, преобразующая традиционный текстовой одновходовый дихотомический ключ и набор иллюстраций к нему в набор связанных друг с другом HTML файлов. Таким образом генерируется тоже одновходовый ключ, но использующий более прогрессивную Web-технологию и более удобный для работы в Internet.
TAXAKEY - 1998, виды тлей (Insecta, Homoptera, Aphididae), вредящих основным культурным растениям всего мира. Реализован традиционный одновходовый ключ. От подобных программ отличается большим количеством хорошо структурированной информации о каждом виде.
TAXOKEY - 1996, 154 вида жуков-короедов Европы (Insecta, Coleoptera, Scolytidae). Программа реализует только одновходовые дихотомические или политомические ключи, поэтому возможности повлиять на выбор признака у пользователя нет. Иллюстрации являются неотъемлемым и явно доминирующим элементом при выборе состояния признака. Число таксонов, оставшихся после шага в наборе, узнать нельзя. Тем более невозможно увидеть их изображения.

Многовходовые ключи для DOS

CABIKEY - 1994, 20 видов европейских трипсов (Insecta, Thysanoptera). Иллюстрации к признакам носят вспомогательный характер и демонстрируются только по желанию пользователя. Выбор пользователем одного из наиболее ценных в диагностическом отношении признаков возможен, но затруднен. Признаки облигатно разделены на группы. При выборе состояния признака отмечаются невозможные состояния для имеющегося набора таксонов.
ONLINE - 1994, 53 вида британских орхидей (Orchidaceae). Программа является одним из блоков системы PANKEY, использующей исходные данные в формате DELTA. Управление программой несколько архаично - используется командная строка и клавиатура. Иллюстрации к признакам (при их наличии) демонстрируются перед выбором состояния автоматически, без дополнительных действий пользователя. Возможен множественный выбор состояний признака, при этом отмечаются невозможные состояния для имеющегося набора таксонов. Просмотр изображений таксонов, оставшихся после шага в наборе, затруднен.
TAXEX - 1994, 67 видов брюхоногих моллюсков Черного моря (Mollusca, Gastropoda). Иллюстрации являются неотъемлемым элементом при выборе состояния признака. Выбор пользователем одного из наиболее ценных в диагностическом отношении признаков реализован неэффективно - только пропуском ненужных из предъявляемых программой по одному признаку. Возможен множественный выбор состояний признака. Результат шага без действий пользователя обычно не ясен. Набор не редуцируется и при желании можно увидеть список таксонов с оценками их вероятностей.

Многовходовые ключи для Windows

Discover Mushrooms - 1998, 1000 видов шляпочных грибов (Basidiomycetes). Признаки разбиты на группы и хорошо иллюстрированы. Список возможных таксонов не редуцируется, но пользователь видит только 20 видов с наибольшими вероятностями совпадения с введенным набором признаков (вероятность выражена в процентах). Для любого из этих 20 видов можно получить дополнительную информацию и просмотреть иллюстрации.
IdentifyIt - 1996, 14 видов грибов-зигомицетов (Zygomycetes, Endogonaceae). Программа является одним из блоков системы Linnaeus II, которая выбрана Экспертным центром таксономической идентификации (ETI, Amsterdam) как стандарт для подготовки данных и их последующего представления на CD-ROM. Программа может работать как с многовходовыми политомическими, так и с одновходовыми дихотомическими ключами (мы рассматриваем здесь только первый вариант). Иллюстрации к признакам носят вспомогательный характер и демонстрируются только по желанию пользователя. Возможен множественный выбор состояний признака. Набор не редуцируется и постоянно виден список таксонов с оценками их вероятностей.
INTKEY - 1996, 385 высших таксонов жуков всего мира (Insecta, Coleoptera - larvae). Программа является одним из блоков системы DELTA, принятой многими таксономистами за международный стандарт. Признаки могут быть разделены на группы. Иллюстрации к признакам носят вспомогательный характер и демонстрируются только по желанию пользователя. На каждом шаге признаки переупорядочиваются по убыванию диагностической ценности, вычисляемой с помощью очень эффективного алгоритма. Значение ценности для каждого признака выводится на экран. Список возможных таксонов редуцируется.
LUCID - 1996, 31 отряд насекомых (Insecta). Иллюстрации к признакам носят вспомогательный характер и демонстрируются только по желанию пользователя. Признаки могут быть разделены на группы. Возможен множественный выбор состояний признака. Просмотр изображений таксонов, оставшихся после шага в наборе, затруднен. Набор не редуцируется и при желании можно увидеть список таксонов с данными о числе совпадений их признаков с накопившимся набором признаков определяемого экземпляра.
MEKA - 1996, 411 семейств покрытосеменных растений (Angiospermae). Многовходовый интерактивный ключ, работающий в среде Windows. Иллюстраций к признакам нет, но предусмотрены изображения таксонов. Признаки разделены на группы. Возможен выбор нескольких состояний одного признака.
PICKEY - 1999, 130 видов жуков Палеарктики из разных семейств (Insecta, Coleoptera). Программа является одним из блоков системы BIKEY, которая предназначена для создания, редактирования и анализа многовходовых ключей. Информация хранится в стандартных базах данных формата DBF. Предыдущие версии программы работали в среде MS DOS. Новая версия - PICKEY8 - разработана для работы под управлением Windows'95, WindowsNT 4.0/2000. В новой версии учтены практически все известные авторам приемы и усовершенствования, повышающие надежность определения и удобство работы с ключом. В то же время сохранен оригинальный интерфейс программы и все найденные ранее удачные программистские решения. Иллюстрации к признакам служат неотъемлемым элементом при выборе признака и абсолютно доминирующим над текстом элементом - при выборе состояния. Управление программой осуществляется только "мышью". Признаки могут быть разбиты на группы (цвет, размер, форма и т.п.) и одновременно представлены в виде многоуровневой иерархической классификации (пример одной ветви такой классификации для жуков: все тело / ноги / передние ноги / лапка / коготковый членик лапки). Пользователь может выбрать для работы пересечение понятия любого уровня иерархической классификации признаков с любой группой признаков. Текущий набор таксонов снабжен данными о вероятности отнесения к каждому из них определяемого экземпляра. Предельно упрощен просмотр списка таксонов текущего набора и их изображений (группами по несколько на одном экране и полноэкранных цветных). Есть удобный пошаговый откат.
Pilz2000 - 1996, 92 рода высших шляпочных грибов (Basidiomycetes). Рисунки признаков и таксонов не предусмотрены. Признаки разделены на группы. Возможен множественный выбор состояний одного признака. Набор возможных таксонов жестко редуцируется - из него удаляются таксоны при первом несовпадении признаков.
SynKey - 1992, 22 вида и вариетета грибов рода Crepidotus. Выбор осуществляется прямо по списку состояний признаков, расположенных или по алфавиту, или по убыванию заранее рассчитанной диагностической ценности. Ценность на каждом шаге не вычисляется заново, поэтому порядок состояний признаков не меняется. Список возможных таксонов редуцируется. Для любого таксона можно получить список диагностичных именно для него состояний признаков. Откат назад осуществляется удалением состояний признаков из списка использованных.

Многовходовые ключи для Windows с использованием протоколов Internet

Flowering Plant Family Identification - 1999, 411 семейств цветковых растений. Оригинальный ключ с использованием возможностей Web-технологий работы с базами данных. Пользователь выбирает на каждом шаге любое количество состояний признаков из статичного общего списка, разбитого на рубрики. В ответ программа выдает накопленный к данному шагу набор состояний и список таксонов, имеющих полное совпадение признаков с этим набором.
FusKey - 1996, 30 видов гифомицетов рода Fusarium (Deuteromycetes). Последняя версия многовходового ключа, последовательно реализованного сначала в DOS, затем в Windows, а теперь использующего возможности HTML документов в WWW. Признаки разбиты на 5 групп и хорошо проиллюстрированы. Допускается выбор на одном шаге любого числа признаков и состояний. Список возможных таксонов сопровождается данными о числе совпадений с введенным набором признаков.
Interactive Key to Katydids - 1997, около 70 видов кузнечиков Коста-Рики (Insecta, Orthoptera, Tettigoniidae). Интересный пример реализации с помощью Web-технологии многовходового иконографического ключа (высококачественные рисунки полностью доминируют над текстами признаков и их состояний). Конечные таксоны представлены HTML страницами с рисунками и подробными описаниями.
Key to Genera of the Sarcoscyphineae - 1999, 24 рода грибов-дискомицетов подсемейства Sarcoscyphineae. Строго дихотомический многовходовый ключ, построенный с использованием Web-технологий. Интересен возможностью выбора любого числа признаков на каждом шаге. Список таксонов не редуцируется, но каждый таксон снабжен указанием на число совпадений с введенным набором признаков и список после каждого шага переупорядочивается по убыванию числа совпадений.
NaviKey - 1999, 19 видов грибов рода Phillipsia (Discomycetes). Ключ построен в виде Java-апплета (программы, использующей развитые возможности Web-технологий), образуюшего специализированный интерфейс к данным в формате DELTA. Обычный многовходовый ключ с выбором одного признака и одного состояния (или нескольких состояний) на каждом шаге. Рисунки признаков и таксонов не используются.
3I - 2005, 82 таксона (трибы и подсемейства) цикадок (Homoptera: Cicadellidae). Программа реализует интерактивный многовходовый иллюстрированный политомический определитель. Матрица включает 146 признаков. Интуитивно понятный интерфейс позволяет выбирать один или сразу несколько признаков и их состояний, рассматривать иллюстрации признаков и таксонов, осуществлять возврат на любое число шагов, следить за формированием поднаборов наиболее вероятных и маловероятных таксонов. Матрица признаков хранится в базе данных формата MS Access, а для реализации программы применена технология ASP-страниц с использованием языков HTML и VisualBasic. Для маловероятных таксонов указывается число "ошибок" (отклонений от введенного пользователем набора состояний признаков).
WebKey-X - 2005, 130 видов жуков (Coleoptera) из разных семейств. Интерактивная программа для определения биологических объектов с использованием изображений признаков и таксонов, созданная на основе технологии Java 2 Enterprise Edition (J2EE), которая используется для организации и поддержки в сети Интернет информационных систем различных объемов. Технология J2EE была выбрана авторами как перспективная, удобная для расширения, не уступающая .NET по простоте поддержки, удобству разработки приложений, переносимости на различные платформы и использованию ресурсов. Программа отличается простотой и, тем не менее, реализует все основные функции интерактивного многовходового определителя - с возможностью начать идентификацию таксона с любого удобного пользователю признака. Признаки предлагаются не в случайной последовательности: они сортируются в порядке значимости для идентификации на каждом шаге определения. Метрика, с помощью которой оценивается предпочтительность признака (его "диагностическая ценность") оформлена в виде отдельного блока программы и без труда может быть заменена. Важным достоинством программы является то, что все данные конкретного ключа хранятся в базах данных стандартного формата: DBF (DataBase) или MDB (Access). В настоящее время система работает с базой данных по 130 видам жуков и обеспечивает приемлемые скорость ответа на каждый запрос и время идентификации какого-либо экземпляра. Реализованы функции протокола идентификации, изменения состояния (или нескольких состояний) уже использованного признака; выдается описание идентифицированного вида в конце работы (определения) и список допустимых наборов (вариантов) видов на любом шаге. Важным для пользователей программы является интуитивно понятный интерфейс.

Рассмотрение и обобщение положительных черт всех перечисленных программ позволяет синтезировать описание "идеального" компьютерного определителя. Бесспорно, что им должен быть многовходовый политомический ключ. На каждом шаге программа должна создавать пользователю наиболее благоприятные условия для выбора признака. Лучше всего предъявлять признаки не в стандартном порядке, а в порядке убывания их диагностической ценности - математической оценки потенциальной возможности разделить имеющийся набор таксонов на минимальные поднаборы (в идеале - ценность должна быть комплексной оценкой, одновременно оптимизирующей длину пути определения и надежность диагноза, особо оптимизируя эти параметры для наиболее обычных таксонов). Для правильного понимания сути признаков желательно делать упор не на их текстовые описания, а на выразительные поясняющие рисунки. При большом числе признаков имеет смысл разделять их на группы и давать пользователю возможность работы с признаками только одной группы. При переходе к выбору состояния внутри признака иллюстрации еще более необходимы. Дополнительными удобствами в этот момент являются возможность множественного выбора (указания сразу нескольких состояний, если нет уверенности в выборе только одного) и особые отметки у тех состояний, которые не могут иметь место у таксонов текущего набора (выбор таких состояний обычно является ошибкой и лучше пользователя об этом предупреждать).

На заключительном этапе шага программа обычно редуцирует текущий набор таксонов, оставляя в нем только те таксоны, у которых может быть заданное состояние признака. Если таких таксонов 2 или более, программа должна сделать переоценку доступных признаков и перейти к следующему шагу. Более перспективным является несколько другой подход, при котором исходный набор таксонов вообще не редуцируется, а на каждом шаге только пересчитываются вероятности принадлежности к каждому из таксонов накопленного за пройденные шаги "образа" определяемого экземпляра. Такой подход позволяет получить правильное определение даже при ошибке пользователя в части признаков. После завершения шага пользователь должен без дополнительных действий узнать его результат - увидеть число оставшихся в редуцированном наборе таксонов или список таксонов, имеющих наибольшую вероятность соответствия введенным признакам (при втором подходе). В последнем случае при работе с большими ключами (на десятки и сотни таксонов) надо создать возможность пользователю видеть не все таксоны, а только те, вероятность которых превышает некоторый порог. Желательно дать возможность просмотреть изображения таксонов из текущего набора - иногда это может существенно облегчить окончание диагноза. При обнаружении пользователем ошибки в уже введенных признаках программа должна давать возможность "отката" - возврата на один или несколько шагов для исправления ошибки. После окончания диагноза желательно выдать пользователю максимально полный набор сведений о таксоне, обязательно включающий дополнительные дифференцирующие признаки для проверки и иллюстрации (как тотальные, так и важнейших деталей строения).

Этот гипотетический оптимальный вариант можно сформулировать так: "многовходовый политомический диалоговый пошаговый компьютерный ключ, с широким использованием высококачественных цветных изображений таксонов и их признаков, с машинной оценкой и ранжированием признаков на каждом шаге определения и с набором приемов для повышения надежности определения".

Немаловажным обстоятельством является то, что многовходовые политомические ключи позволяют развивать диагностику по всему набору признаков, как по высоконадежным диагностическим, так и по сопутствующим менее надежным, имеющим малую диагностическую ценность, но более доступным для малоопытного пользователя. Наличие совпадения по нескольким сопутствующим признакам может обеспечить вполне надежное достоверное определение. Таким образом создаются наиболее благоприятные условия для выбора признака. При этом, если используется алгоритм подачи признаков не в стандартном порядке, а в порядке убывания их диагностической ценности - математической оценки потенциальной возможности разделить имеющийся набор таксонов на минимальные поднаборы, процесс определения становится особо оптимальным для пользователей вне зависимости от специальности и подготовки.

Анализ последних достижений компьютерной диагностики позволяет сделать вывод о том, что современные интерактивные определители уже ни в чем не уступают даже самым лучшим традиционным бумажным изданиям, а преимуществ перед последними имеют столько, что по эффективности, доступности для неспециалистов в области систематики и надежности определения они уже примерно на порядок превосходят печатные ключи. Несомненно, что накопление диагностической информации в стандартных базах данных или в формате DELTA для последующего использования в интерактивных многовходовых ключах станет в ближайшее время стандартным приемом работы систематиков в ботанике и зоологии. Поэтому разработка новых решений для усовершенствования программ компьютерной диагностики остается актуальной и по сей день.

Библиографический указатель, включающий и цитированные здесь работы, приведен на отдельной веб-странице.

Эта публикация подготовлена при поддержке грантов РФФИ 05-07-90179 и 09-04-00789-а.

А.Л. Лобанов, А.Г. Кирейчук, И.С. Смирнов
Май 2009 г.