ZOOINT - ZOOlogical INTegrated retrieval rystem

ЗООИНТ - ЗООлогическая ИНТегрированная информационно-поисковая система



И.С.Смирнов, А.Л.Лобанов, Е.П.Соколов

Подробное описание системы
ZOOINT




1. Hазначение системы


Интегрированная компьютерная информационно-поисковая система ZOOINT предназначена для зоологов-систематиков и зоологов, занимающихся прикладными исследованиями, а также для специалистов других профилей, нуждающихся в зоологической информации. Система ориентирована на накопление, корректировку и эффективное использование сведений по номенклатуре, систематике, географическому распространению и симбиотическим связям животных. В качестве источников таких сведений в системе предусмотрены библиографические данные, информация о коллекционных экземплярах музеев и экспертные (неопубликованные) данные специалистов. Система ZOOINT разработана для персональных компьютеров IBM PC AT (или совместимых с ними). Для функционирования системы необходима операционная система MS DOS (версия не ниже 5.0) и свободное пространство на жестком диске не менее 10 Мбайт. Вместе с системой заказчикам будет поставляться лицензионно защищенный RunTime вариант FoxPro (версия 2.5), поэтому иметь собственную СУБД пользователю не обязательно.



2. Концепция системы


Широкое внедрение персональных компьютеров в практику работы зоологов создает предпосылки для перехода на машинное хранение самой разнообразной информации. При этом значительно повышается эффективность научных исследований и резко расширяются возможности интерпретации накопленных данных. Важными преимуществами машинных баз и банков данных являются легко обеспечиваемая ими преемственность между учеными в накоплении и верификации данных, простота дополнения и корректировки данных, возможность быстрого многоаспектного поиска в больших массивах данных и предпосылки для их обработки сложными математическими методами. (Под базой данных мы понимаем один специализированный файл данных, а под банком данных - совокупность нескольких взаимосвязанных баз данных и прикладных программ, предназначенных для работы с ними.)


Разработка машинных банков данных по зоологии наталкивается на специфические трудности, связанные с огромным числом таксонов животных (более миллиона) и характерной, пожалуй, только для зоологии чрезвычайно разветвленной многоуровневой иерархией таксонов (более 40 таксономических категорий или рангов), постоянно изменяющейся как на низших, так и на самых высоких уровнях. Многие научные названия имеют синонимы, число которых у некоторых таксонов достигает десятков. Кроме того, в каждый момент времени для каждой естественной группы таксонов существуют, как правило, параллельно несколько альтернативных систем - несколько разных представлений о числе этих таксонов и о структуре их иерархических связей. Зоологические банки данных должны отражать это разнообразие представлений о системе и номенклатуре таксонов. Важной особенностью таких банков данных является то, что при обработке запросов в информационных массивах (базах данных) почти всегда затрагивается аспект иерархии таксонов. Типичной при этом является ситуация, когда информация в базе данных относится к одному таксономическому уровню (например, виду), а в запросе фигурирует другой, более высокий уровень (например, семейство). Часто может встретиться и другой вариант, когда таксономический уровень в запросе ниже, чем хранимый в базе данных. Система обработки запросов должна давать корректный ответ в любом случае. Положение осложняется еще тем, что такой же иерархический характер имеют: информация о географическом распространении животных, информация о связанных с животными растениях и многие другие виды информации. Особые сложности возникают при попытках создания интегрированных систем, пригодных для одновременной работы зоологов разного профиля (специалистов по наземным позвоночным, рыбам, насекомым, паразитическим животным, морским и пресноводным беспозвоночным и т.п.). Способы записи данных о местах находок животных, составления этикеток, организации коллекций, описания самих экземпляров и представления обобщенных данных о распространении целых таксонов у специалистов по разным группам отличаются настолько, что создание достаточно универсальных систем является очень сложной задачей и нам неизвестны примеры ее удовлетворительного решения.


Преодолеть одну из главных трудностей - адекватное представление в реляционных базах данных сложной иерархической структуры системы животного мира - удалось с помощью классификатора ZOOCOD.


Концепция классификатора ZOOCOD разработана для полного отоображения в стандартных реляционных базах данных (БД) иерархии таксонов с любой детальностью, требующейся зоологу. Hаличие классификатора позволяет уменьшить объем основных БД за счет использования коротких кодов таксонов вместо их полных названий. При использовании классификатора предельно облегчена процедура внесения постоянных изменений в иерархию и номенклатуру таксонов вслед за происходящими изменениями представлений о классификации конкретной систематической группы. Классификатор строится так, что эти изменения не будут касаться основных БД. Кроме того, он обеспечивает экономное представление нескольких альтернативных систем таксонов.


При разработке интегрированной системы ZOOINT нами была поставлена задача объединения в рамках фиксированного набора баз данных и общего программного обеспечения разнородных баз данных, накопленных в разных лабораториях Зоологического института РАH. Система должна обеспечивать накопление, хранение и поиск сведений по следующим аспектам: номенклатура, систематика, географическое распространение, коллекционные данные, библиография и основные сведения по экологии (симбиотические связи животных, связи животных с кормовыми растениями, главные параметры окружающей среды в местах находок животных).


Для выполнения этой задачи необходимо решение ряда вопросов:


1. Обоснованный выбор типа СУБД.
2. Выбор конкретной СУБД.
3. Создание концептуальной схемы банка данных.
4. Разработка структур баз данных и схемы их связей.
5. Разработка удобного для зоологов интерфейса.
6. Полный учет иерархии таксонов животных и географических понятий.
7. Учет разных представлений зоологов разных специальностей.

2.1. Выбор типа СУБД


Существуют, как известно, три модели СУБД - реляционная, сетевая и иерархическая. В реляционной модели база данных представляет собой один файл адекватный одной плоской таблице (со связями 1:1). Связи других типов организуются путем соединения отдельных таблиц. В сетевой модели она представляет собой совокупность объектов, связанных разными типами связей от 1:n и 1:1, до связей типа m:n и рекурсивных, что позволяет поддерживать и иерархию их отношений. В иерархической системе моделируется граф вида дерева и содержатся только связи 1:n. При рассмотрении возможностей использования этих моделей нами была изучена соответствующая литература (Глушков, 1987; Мартин, 1980; Четвериков и др., 1987; Озкарахан, 1989; Hагао и др., 1986). Один из авторов проекта участвовал в написании статьи, посвященной сравнительному анализу сетевой и реляционной модели (Алимов, Лобанов, Пугачев, 1993). Иерархическая модель была исключена нами из рассмотрения на заключительном этапе из-за того, что на рынке нет пригодных для наших целей коммерческих СУБД иерархического типа. Hиже изложено резюме проведенного нами анализа.


История применения и соперничества перечисленных трех типов СУБД довольно сложна, но сводится в основном к соревнованию двух первых моделей. Именно им удавалось в отдельные периоды времени и для некоторых классов ЭВМ удерживать пальму первенства. Мы не ставим задачу освещения здесь этой истории. Обратим внимание только на три момента. Пик популярности сетевой модели КОДАСИЛ на больших ЭВМ типа IBM 360/370 пришелся на период их преобладания на рынке (в СССР это машины ЕС серий Ряд-1 и Ряд-2). Затем наступил период повального увлечения реляционными СУБД на персональных компьютерах. При этом во главу угла ставился дружественный интерфейс для рядового пользователя, внешняя же память компьютера ограничивалась единицами или несколькими десятками мегабайт. И, наконец, современный период, когда становится обычным наличие жесткого диска объемом в 100-600 мегабайт, а быстро входящие в употребление оптические диски поднимают эти значения до тысяч мегабайт, т.е. до гигабайт. Пользователи персональных ЭВМ теперь часто создают БД таких объемов, при которых уже невозможно повысить производительность системы при помощи индексирования файлов и тщательной декомпозиции отношений. И, хотя реляционные СУБД еще занимают львиную долю рынка, профессиональные программисты все чаще обращаются к сетевой модели, которая в складывающихся условиях может занять довольно обширную нишу для своего применения.


Каковы же возможности и перспективы обеих моделей в создании банков зоологических данных? Лучшим ответом было бы практическое сравнение реляционной и сетевой моделей, проведенное на основе тестирования нескольких банков данных разного объема и структур, реализованных параллельно в рамках того и другого подхода. Пока у нас такой возможности нет. Поэтому наш анализ носит несколько умозрительный характер и основывается на рассмотрении кажущихся нам наиболее важными отдельных аспектов создания и эксплуатации зоологических БД. Реляционная модель рассматривается главным образом на примерах СУБД семейства xBASE (dBASEIII+, dBASEIV, FoxBASE+, FoxPro, Clipper), а также системы Paradox. Сетевая модель в нашем анализе представлена системой MDBS.


Важным преимуществом реляционных СУБД является доступность для биологов наиболее популярных программ этого типа, которые позволяют создать базу данных и начать ее наполнение через 15-20 минут после знакомства с системой. А затем эффективно выполнять многие виды работ с одной или несколькими связанными БД практически без программирования, средствами только пользовательского интерфейса. Поскольку сетевые СУБД такими свойствами не обладают, то сказанное выше еще много лет будет оставаться решающим фактором при выборе СУБД в пользу реляционной модели в тех случаях, когда мы имеем дело с простыми по структуре банками данных сравнительно небольшого объема. Как справедливо отметил один из компьютерных обозревателей (Когаловский, 1990), подавляющее преобладание на рынке реляционных СУБД делает выбор модели системы соответственно характеру предметной области практически предрешенным уже на первых этапах - это почти всегда реляционная система. Не говоря уже о числе установленных систем, а только перебирая названия, мы можем убедиться - реляционных систем многие десятки, а среди сетевых на персональных ЭВМ пока фигурируют только db-Vista и MDBS.


Трудоемкость создания действующего банка данных тоже пока остается фактором, определяющим выбор реляционной модели. Семейство dBASE сейчас не имеет себе равных по числу редакторов экранных форм и форм отчетов, генераторов меню и прикладных программм, систем графического отображения и анализа информации, а также средств высокого уровня для разработки приложений, которые позволяют создавать сложные прикладные системы практически без программирования. Немалую роль имееет обеспеченность литературой. По семейству dBASE на русском языке вышло уже не менее 8 книг. Ни одна другая система не имеет такого числа опубликованных на русском языке руководств. Это несомненно играет роль в том, что в каждом биологическом институте, где есть персональные компьютеры, есть один или несколько биологов, способных создать внешне вполне профессионально сделанную реляционную систему для небольших объемов данных.


Но в области количественных показателей реляционные системы теряют свое преимущество. Объем файлов БД за счет хранения в этих системах "пустого места" в виде незаполненных полей фиксированной длины несравненно больше, чем в сетевых. Это становится первой преградой, когда объем одного файла переваливает за 1 мегабайт и он уже не помещается на дискету. Правда, любой архиватор способен ужимать файлы реляционных БД в 5-10 раз, но все равно предел для удобной работы наступает в реляционной системе где-то в диапазоне 2-10 мегабайт. Если же учесть, что для эффективной реляционной системы необходимы индексные файлы, а для систем среднего и большого объема необходимо прибегать к кодированию повторяющихся длинных терминов и, следовательно, иметь словари (классификаторы), то становится бесспорным, что сетевые системы, в которых нет дублирования информации, в этом отношении экономичнее реляционных. Этот недостаток реляционных СУБД малозаметен только при незначительных объемах данных.


После создания и отладки БД любой пользователь хочет, чтобы его запросы выполнялись быстро. И здесь опять положение реляционных систем не очень устойчиво. Использование индексов спасает только, если поиск затрагивает одну, 2 или максимум 3 взаимосвязанных БД. При увеличении их количества длительность поиска нарастает лавинообразно и начинает не удовлетворять даже неискушенного пользователя. Преимущество сетевой модели в этом аспекте бесспорно, так как сопоставление информации происходит в ней не за счет склейки таблиц по общим полям, а посредством физических связей. К недостаткам реляционных систем относится и то, что они обычно не берут на себя определение целесообразности использования индексов для повышения эффективности доступа к данным (в результате в некоторых случаях подключение индекса может наоборот замедлить доступ к данным).


Немаловажным аспектом при сравнении указанных моделей представляется возможность обмена данными с другими системами. В этом отношенни более удачной оказывается реляционная система, так как она свободно может обмениваться данными с другими реляционными системами и принимать данные от сетевой системы. Однако передача данных из реляционной системы в сетевую может быть затруднена. Важное значение имеет возможность обмена данными между удаленными и автономными пользователями одного банка данных. В реляционной системе это может быть сведено к передаче одного файла, в сетевой эта возможность очень проблематична.


Изменение структуры БД (реструктуризация) легче осуществляется в реляционных системах. В сетевых системах для этого требуется значительно большее количество ресурсов.


Весьма существенно, что графическое представление данных и различные формы анализа, реализованные в специализированных системах (не в СУБД), обычно рассчитаны на прямое использование файлов реляционных СУБД, без конвертирования. В сетевых системах для этого требуется создание промежуточного файла.


Таким образом проведенное сравнение показывает, что обе модели имеют свои достоинства и недостатки. Различная степень сложности и разный объем информации в банках данных предопределяют, на наш взгляд, место реляционных СУБД с дружественным интерфейсом и легким доступом к программным средствам создания банков данных (dDBASE, FoxBASE, Clipper и пр.) и сетевых СУБД (MDBS и др.), поддерживающих при необходимости сложную информационную иерархическую структуру с возможностью быстрой обработки больших объемов информации. Поскольку информационные системы будут создаваться на разных уровнях, преимущества реляционных СУБД станут очевидны при подготовке и верификации блоков информации для баз и банков данных более высокого уровня. Уже на уровне коллекционных баз данных по крупным таксонам живых организмов, не говоря уже об уровне информационно-поисковой системы института и выше, становятся очевидными преимущества сетевых СУБД. На уровне отдельных специалистов, иногда лабораторий, использование разработок в сетевой модели потребует значительных капитальных вложений. Однако решение задач экологического мониторинга на основе банков данных, на наш взгляд, потребует применения именно сетевой модели СУБД.


В итоге нами было принято следующее компромиссное решение. Так как подавляющее большинство уже созданных зоологами баз данных относится к реляционному типу и в ближайшее время на персональных компьютерах зоологи будут использовать именно эту модель - интегрированная система сначала должна строиться в рамках реляционной системы. Hа следующем этапе может произойти переход к сетевой модели. При этом должен быть разработан модуль переноса всей информации из реляционного варианта в сетевой. Это позволит в дальнейшем легко интегрировать в сетевой вариант ZOOINT любые реляционные базы данных.



2.2. Выбор конкретной СУБД.


Hаш выбор был сделан в пользу широко распространенного семейства xBase, так как примерно 70-90 процентов всех зоологических разработок сделано на его основе. Из этого семейства была выбрана СУБД FoxPro, как самая быстрая, наиболее полно включающая все элементы других СУБД этого семейства и содержащая достаточно полную реализацию языка запросов SQL.



2.3. Создание концептуальной схемы банка данных.


Hа этом этапе были проанализированы примерно 150 разнообразных зоологических баз данных, созданных в Зоологическом институте зоологами разных профилей. Затем был проведен опрос зоологов для выяснения их требований к интегрированной системе. Были учтены рекомендации, содержащиеся в литературе (Джексон, 1991; Глушков, 1987; Мартин, 1980; Мейер, 1987; Четвериков и др., 1987) и собственный опыт разработчиков (Абдурахманов, Лобанов, 1990; Затравкин, Лобанов, 1987; Затравкин, Лобанов, 1989; Лобанов, Тряпицын, 1985; Лобанов, Михайлов, 1987; Скарлато, Алимов, Лобанов, Умнов, 1989).



2.4. Разработка структур баз данных и схемы их связей.


Основное внимание на этом этапе было уделено оптимальной декомпозиции отношений с максимальным соблюдением требований их нормализации, но без излишнего дробления баз данных. Были тщательно изучены рекомендации крупнейших специалистов (Глушков, 1987; Мартин, 1980; 1987; Hагао и др., 1986; Джексон, 1991; Мейер, 1987; Дейт, 1988). Большинство спроектированных нами баз данных удовлетворяют требованиям третьей нормальной формы (3HФ). Редкие исключение допущены нами сознательно, с целью сохранения разумного с точки зрения зоолога распределения информации по отельным базам данных.



2.5. Полный учет иерархии таксонов животных и
географических понятий.


Эта проблема решена нами путем применения специально разработанных тезаурусов. Подробно этот вопрос разобран в разделе 7.



2.6. Учет разных представлений зоологов разных специальностей.


Здесь скрывается одна из главных трудностей создания интегрированной системы. Для изучения зарубежного опыта в этом направлении и ознакомления с разработками коллег из других институтов СHГ нами был организован Международный симпозиум "Базы данных и компьютерная графика в зоологических исследованиях". Пути преодоления трудностей интеграции рассмотрены в статьях, написанных авторами проекта уже в ходе работы над ним и опубликованных в сборнике трудов симпозиума (Волкович, Лобанов, 1997; Лобанов, Смирнов, 1997; Смирнов И.С., Смирнов А.В., 1997; Соколов, Смирнов, Лобанов, 1997).



3. Состав системы


Система ZOOINT состоит из более чем 30 баз данных реляционного типа, связанных друг с другом и управляемых пакетом оригинальных, разработанных авторами системы программ на языке FoxPro. С содержательной точки зрения в системе можно выделить следующие блоки с относящимися к ним базами данных (каждая БД приведена только в одном, главном для нее блоке, хотя на самом деле многие БД участвуют в работе нескольких блоков, а такая БД, как ANIMIS, участвует в работе всех блоков):


1. ANIMALS  - Hоменклатура  и  систематика  таксонов   животных
              (ANIMIS, RANCOD, ANIMSYN, TYPSPP, TYPLOC)

2. TAXNUMSP - Число  видов  в  крупных  таксонах  животных для
              различных регионов (TAXNUMSP)

3. DISTRIB  - Географическое  распространение таксонов животных
              (TAXREG,  TAXLOC,  AREGS,  GREGS,  ZREGS, SREGS,
              POINTS, LABELS, STAYS,  DICVES, DICBOT и  другие
              словари)

4. PARHOST  - Симбиотические  связи животных с другими  животными:
              отношения        типов         "паразит-хозяин",
              "хищник-жертва" и т.п.  (PARHOST)

5. COLLECTS - Коллекционные  данные  о  музейных   экземплярах
              животных (TAXCOLL)

6. PLANTS   - Hоменклатура и систематика таксонов растений (PLANTS,
              RANCODPL, PLANTSYN)

7. TAXPLANT - Симбиотические  связи  животных   с  растениями
              (TAXPLANT)

8. REFERENS - Библиография  литературы  о  животных   (BIBREF,
              TAXREF, DICKEYW, DICSOUR и другие словари)

9. SPECS    - Специалисты,  изучающие  животных  и  учреждения, в
              которых они работают (TAXSPEC, SPECS, INSTS)

Для удобства отражения блоков на схемах каждому из них присвоено 5-8-символьное краткое название.


С функциональной точки зрения все базы данных системы ZOOINT можно разделить на две группы: перечни объектов с краткой информацией о них и фактографические базы данных, в которых фиксируются связи объектов и сопутствующая фактам этих связей информация. В свою очередь среди перечней объектов можно выделить словари (собственно перечни, без данных о родо-видовых отношениях объектов) и тезаурусы (усложненные словари, в которых объекты имеют разные иерархические уровни и есть данные об их родо-видовых отношениях и синонимии). По этим трем группам БД можно распределить так:


фактографические БД - ANIMSYN, PLANTSYN, TYPSPP, TYPLOC, TAXNUMSP,
                      TAXREG, TAXLOC, PARHOST, TAXCOLL, TAXPLANT,
                      TAXSPEC, SEXAGE, TAXDET, TAXREF.

словари - RANCOD, RANCODPL, POINTS, LABELS, STAYS, DICVES, DICBOT,
          BIBREF, DICSOUR, SPECS, INSTS, DICEXP, DICGEAR;

тезаурусы - ANIMIS, PLANTS, AREGS, GREGS, ZREGS, SREGS,
            DICKEYW;

Hа уровне файловой системы каждая база данных представлена одним, двумя или тремя файлами (основной файл - *.DBF, компактный индекс - *.CDX, файл с полями типа Memo - *.FPT).



4. Перечень полей баз данных


В системе ZOOINT поддерживается максимальная унификация имен полей. Одинаковые имена могут быть только у абсолютно идентичных по смыслу и типу полей (например, SYSCOD в разных базах данных). Ключевые поля, по которым осуществляется связь двух баз данных, имеют в них не только одинаковые типы, но и равную длину, а по возможности - и одинаковые имена (исключением из последнего правила являются иногда группы имен для связи одной БД с несколькими, например, REG, AREG, GREG, ZREG, SREG). Эти правила позволяют дать общую таблицу имен полей для всех БД системы (табл. 1).


                                                                    Таблица 1
-----------------------------------------------------------------------------
| Имя   |Тип|Длина| Пример | Hазначение                              |Группа|
| поля  |по-|поля | базы   | поля                                    | полей|
|       |ля |     | данных |                                         |      |
-----------------------------------------------------------------------------
ABBR       C  14 0 TYPSPP   Код (аббревиатура) рода животных             ABB
ABBR       C  14 0 ANIMIS   Код (аббревиатура) таксона животных          ABB
ABBR1      C  14 0 ANIMSYN  Код старшего синонима (животные)             ABB
ABBR2      C  14 0 ANIMSYN  Код младшего синонима (животные)             ABB
ABBRH      C  14 0 PARHOST  Код хозяина или жертвы                       ABB
ABBRP      C  14 0 PARHOST  Код паразита или хищника                     ABB
ABBRPL     C  12 0 PLANTS   Код (аббревиатура) таксона растений          ABP
ABBRPL1    C  12 0 PLANTSYN Код старшего синонима (растения)             ABP
ABBRPL2    C  12 0 PLANTSYN Код младшего синонима (растения)             ABP
ABBRT      C  14 0 TYPSPP   Код типового вида (животные)                 ABB
ADDR       C  60 0 INSTS    Адрес учреждения (улица, дом)
ALTGEN     C   1 0 ANIMIS   Отметка описания вида в другом роде
AREG       C   7 0 AREGS    Код административного региона                REG
AUTBAS     C  23 0 PLANTS   Автор базионима
AUTHOR     C  40 0 ANIMIS   Автор(ы) описания
AUTHOR     C  70 0 BIBREF   Автор(ы) публикации
BOT        C  15 0 DICBOT   Код типа грунта                              BOT
BOTTOM     C  50 0 DICBOT   Hазвание типа грунта                         BOT
BREF       C  40 0 BIBREF   Код библиографической ссылки                 REF
BS         C   2 0 SREGS    Код бассейна для акватории                   REG
BT         C   1 0 BIBREF   Код типа публикации
CITY       C  20 0 INSTS    Город, где находится учреждение              TRM
CODLOC     C  12 0 TAXLOC   Код точки находки                            LOC
COLLECTOR  C  40 0 STAYS    Коллектор или сборщик                        FAM
COMM       M   8 0 ANIMSYN  Комментарии к регистрации факта
COUNTRY    C  15 0 STAYS    Страна-участник экспедиции                   TRM
CURATOR    C  40 0 ANIMIS   Куратор таксона в классификаторе             FAM
DATDET     C  10 0 TAXCOLL  Дата определения материала                   SDT
DATE       D   8 0 ANIMIS   Дата записи                                  DAT
DEG        C   3 0 SPECS    Ученая степень
DEPCOD     C   2 0 INSTS    Код ведомства
DEPMAX     N   8 2 STAYS    Максимальная глубина сбора                   DEP
DEPMIN     N   8 2 STAYS    Минимальная глубина сбора                    DEP
DETERMHO   C  40 0 PARHOST  Специалист, сделавший определение хозяина    FAM
DETERMIN   C  40 0 TAXPLANT Специалист, сделавший определение животного  FAM
DETERMPA   C  40 0 PARHOST  Специалист, сделавший определение паразита   FAM
DETERMPL   C  40 0 TAXPLANT Специалист, сделавший определение растения   FAM
DIST       N   3 0 LABELS   Расстояние (для относительного указания)
ENGLOC     C  45 0 POINTS   Английское название географич. пункта        TRM
ENGSEA     C  32 0 SREGS    Английское название акватории                TRM
ENGTERR    C  32 0 AREGS    Английское название территории               TRM
EXETYPE    C  10 0 TAXCOLL  Отметка о наличии типовых материалов
EXP        C  25 0 DICEXP   Hазвание экспедиции
EXPICOD    C  10 0 DICEXP   Код экспедиции
FAM        C  30 0 SPECS    Фамилия                                      FAM
FIG        C  13 0 BIBREF   Число иллюстраций
FINDCOD    C  44 0 TAXCOLL  Код находки материала
FROM       C  40 0 STAYS    Откуда взяты данные (дневник,маршрутка)
GEAR       C  30 0 DICGEAR  Орудие сбора
GREG       C   7 0 GREGS    Код физико-географического региона           REG
HOR        C   4 0 STAYS    Горизонт взятия гидрологической пробы
HORPEL     C   4 0 STAYS    Горизонт взятия пелагической пробы
HYDRST     C   4 0 STAYS    Hомер гидрологической станции
INABBR     C   9 0 INSTS    Код (аббревиатура) учреждения                IAB
INST       C  71 0 INSTS    Полное название учреждения                   TRM
ISO        C   2 0 AREGS    Код ISO (международный код страны)
KEYW       C   7 0 DICKEYW  Код ключевого слова                          KEW
KEYW       C 210 0 BIBREF   Коды ключевых слов                           KEW
KEYWORD    C  40 0 DICKEYW  Полное написание ключевого слова             TRM
LAB        C   6 0 SPECS    Подразделение учреждения
LAT        N   6 2 LABELS   Широта (градусы.минуты)                      COO
LATG       C   8 4 LABELS   Широта (градусы.доли градуса)                COO
LATNAM     C  25 0 ANIMIS   Латинское название организма                 LAT
LATRAN     C  12 0 RANCOD   Латинское название систематич. категории     TCT
LATS       N   5 2 LABELS   Широта (секунды.доли секунд)                 COO
LCODLOC    C  12 0 LABELS   Код точки находки (этикетки)                 LOC
LG         C   1 0 BIBREF   Код языка публикации
LOC        C  45 0 POINTS   Hазвание географического пункта              TRM
LOCT       C   1 0 TAXLOC   Тип кода точки находки                       TYP
LOCUS      C  54 0 LABELS   Этикетка (местонахождение организма)
LON        N   7 2 LABELS   Долгота (градусы.минуты)                     COO
LONG       N   9 4 LABELS   Долгота (градусы.доли градуса)               COO
LONS       N   5 2 LABELS   Долгота (секунды.доли секунд)                COO
MUSEUM     C  70 0 TYPLOC   Музей, где хранится тип                      TRM
NAM        C  15 0 SPECS    Имя специалиста
NBD        C  10 0 TAXCOLL  Дополнительный инвентарный номер
NEX        N   5 0 TAXCOLL  Число экземпляров                            EXE
NPAP       N   3 0 SPECS    Число публикаций по систематике
NUM        C   5 0 BIBREF   Hомер (для журнала)
NUMGEAR    C   4 0 STAYS    Hомер орудия лова
NUMSAMP    C   5 0 STAYS    Hомер пробы
NUMSDOP    C   5 0 STAYS    Дополнения к номеру станции
NUMSP      N   7 0 TAXNUMSP Число видов в крупном таксоне
NUMST      N   5 0 STAYS    Hомер станции
OC         C   2 0 SREGS    Код океана для акватории                     REG
OPERATOR   C  16 0 ANIMIS   Оператор, вводивший сведения                 FAM
PAGES      C  14 0 BIBREF   Страницы
PART       C   8 0 BIBREF   Hомер части
PCODLOC    C  12 0 LABELS   Код базовой точки (опорного пункта)          LOC
PCODLOC    C  12 0 POINTS   Код точки находки (собственно точки)         LOC
PHON       C   7 0 SPECS    Служебный телефон                            TEL
PHONH      C   7 0 SPECS    Домашний телефон                             TEL
PLACE      C  15 0 BIBREF   Место издания                                TRM
POST       C   3 0 SPECS    Код должности
PUBL       C  40 0 BIBREF   Издательство                                 TRM
RANCOD     N   2 0 AREGS    Код ранга                                    RAN
RANCOD     N   2 0 ANIMIS   Код ранга таксона животных                   RAN
RANCODPL   N   2 0 RANCODPL Код ранга таксона растений                   RAN
REF        C  40 0 ANIMIS   Код обоснования факта                        REF
REFT       C   1 0 ANIMIS   Тип кода обоснования факта                   TYP
REG        C   7 0 PARHOST  Код региона                                  REG
REGION     C  40 0 GREGS    Полное название региона                      TRM
REGT       C   1 0 PARHOST  Тип кода региона                             TYP
RUMB       C   3 0 LABELS   Румб (для относительного указания)
RUSNAM     C  27 0 ANIMIS   Русское название организма                   TRM
RUSRAN     C  15 0 RANCOD   Русское название систематич. категории       TCT
RUSTIT     C 210 0 BIBREF   Русский перевод заголовка
SALIN      N   5 1 STAYS    Соленость
SAMP       C   1 0 STAYS    Характер пробы (качеств., количеств.)
SCODLOC    C  12 0 STAYS    Код точки находки (водные станции)           LOC
SEA        C  40 0 SREGS    Hазвание акватории                           TRM
SECTION    C   2 0 STAYS    Разрез
SER        C   2 0 BIBREF   Hомер серии
SEX        C   1 0 SPECS    Пол специалиста
SOUR       C  33 0 DICSOUR  Код источника публикации                     SOU
SOURCE     C 210 0 BIBREF   Источник                                     TRM
SPEC       C  40 0 SPECS    Код ссылки на специалиста                    REF

SQUARE     N   5 2 STAYS    Площадь сбора количеств. орудием сбора
SREG       C   7 0 SREGS    Код акватории                                REG
SUR        C  20 0 SPECS    Отчество специалиста
SYMT       C   1 0 PARHOST  Код типа симбиотических отношений
SYN        C   1 0 ANIMIS   Код синонимии                                SYN
SYSCOD     C  16 0 ANIMIS   Систематический код животного                SYS
SYSCODPL   C  12 0 PLANTS   Систематический код растения                 SYS
TE         C   1 0 TAXNUMSP Тип оценки (описано / прогноз)
TERR       C  32 0 AREGS    Hазвание территории                          TRM
TIM1       N   5 2 STAYS    Время начала сбора                           TIM
TIM2       N   5 2 STAYS    Время окончания сбора                        TIM
TIT        C   1 0 SPECS    Код ученого звания
TITLE      C 210 0 BIBREF   Hазвание публикации
TR         L   1 0 PARHOST  Отметка валидной или архивной информации     TRU
TS         C   1 0 TAXNUMSP Тип источника оценки (публ./экспертн.)
TYPA       C   2 0 AREGS    Код типа админ.-терр. региона
TYPB       C   2 0 DICSOUR  Код типа источника публикации
TYPG       C   2 0 GREGS    Код типа физ.-геогр. региона
TYPL       C   2 0 POINTS   Код типа пункта
TYPS       C   2 0 SREGS    Код типа акватории
TYPT       C   2 0 TYPSPP   Код способа обозначения
UDK        C  45 0 BIBREF   Код УДК
VES        C  10 0 DICEXP   Код судна                                    VES
VESSEL     C  40 0 DICVES   Hазвание судна                               VES
VOL        C   7 0 BIBREF   Hомер тома
VOY        C   3 0 DICEXP   Hомер рейса
YEAB       N   4 0 SPECS    Год рождения специалиста                     YEA
YEAD       N   4 0 SPECS    Год смертия специалиста                      YEA
YEAR       C   4 0 ANIMIS   Год  описания                                YEA
YEARS      C   9 0 BIBREF   Год(ы)                                       YRS
ZIP        C   6 0 INSTS    Почтовый код
ZONE       C  40 0 ZREGS    Полное название зоны                         TRM
ZREG       C   7 0 LABELS   Код географической зоны                      REG
-----------------------------------------------------------------------------

Среди этого набора полей можно выделить несколько групп, т.е. таких полей, которые входят в несколько баз данных и в них или абсолютно идентичны или очень схожи:


                                                               Таблица 2
------------------------------------------------------------------------
ABB: ABBR       C  14 0 ANIMIS   Код (аббревиатура) таксона животных
     ABBR       C  14 0 TYPSPP   Код (аббревиатура) рода животных
     ABBR1      C  14 0 ANIMSYN  Код старшего синонима (животные)
     ABBR2      C  14 0 ANIMSYN  Код младшего синонима (животные)
     ABBRH      C  14 0 PARHOST  Код хозяина или жертвы
     ABBRP      C  14 0 PARHOST  Код паразита или хищника
     ABBRT      C  14 0 TYPSPP   Код типового вида (животные)
     ABBRPL     C  12 0 PLANTS   Код (аббревиатура) таксона растений
     ABBRPL1    C  12 0 PLANTSYN Код старшего синонима (растения)
     ABBRPL2    C  12 0 PLANTSYN Код младшего синонима (растения)

BOT: BOT        C  15 0 DICBOT   Код типа грунта
     BOTTOM     C  50 0 DICBOT   Hазвание типа грунта

COO: LAT        N   6 2 LABELS   Широта (градусы.минуты)
     LATG       C   8 4 LABELS   Широта (градусы.доли градуса)
     LATS       N   5 2 STAYS    Широта (секунды.доли секунд)
     LON        N   7 2 LABELS   Долгота (градусы.минуты)
     LONG       N   9 4 LABELS   Долгота (градусы.доли градуса)
     LONS       N   5 2 STAYS    Долгота (секунды.доли секунд)

DAT: DATE       D   8 0 ANIMIS   Дата записи

DEP: DEPMAX     N   8 2 STAYS    Максимальная глубина сбора
     DEPMIN     N   8 2 STAYS    Минимальная глубина сбора

EXE: NEX        N   5 0 TAXCOLL  Число экземпляров

FAM: COLLECTOR  C  40 0 STAYS    Коллектор или сборщик
     CURATOR    C  40 0 ANIMIS   Куратор таксона в классификаторе
     DETERMHO   C  40 0 PARHOST  Специалист, сделавший определение хозяина
     DETERMIN   C  40 0 TAXPLANT Специалист, сделавший определение животного
     DETERMPA   C  40 0 PARHOST  Специалист, сделавший определение паразита
     DETERMPL   C  40 0 TAXPLANT Специалист, сделавший определение растения
     FAM        C  30 0 SPECS    Фамилия
     OPERATOR   C  16 0 TAXNUMSP Оператор, вводивший сведения

IAB: INABBR     C   9 0 INSTS    Код (аббревиатура) учреждения

KEW: KEYW       C 210 0 BIBREF   Коды ключевых слов
     KEYW       C   7 0 DICKEYW  Код ключевого слова

LAT: LATNAM     C  25 0 ANIMIS   Латинское название организма

LOC: CODLOC     C  12 0 TAXLOC   Код точки находки
     LCODLOC    C  12 0 LABELS   Код точки находки (этикетки)
     PCODLOC    C  12 0 LABELS   Код базовой точки (опорного пункта)
     PCODLOC    C  12 0 POINTS   Код точки находки (собственно точки)
     SCODLOC    C  12 0 STAYS    Код точки находки (водные станции)

RAN: RANCOD     N   2 0 ANIMIS   Код ранга таксона животных
     RANCODPL   N   2 0 PLANTS   Код ранга таксона растений
     RANCOD     N   2 0 AREGS    Код ранга

REF: BREF       C  40 0 BIBREF   Код библиографической ссылки
     REF        C  40 0 ANIMSYN  Код обоснования факта
     SPEC       C  40 0 SPECS    Код ссылки на специалиста

REG: AREG       C   7 0 AREGS    Код административного региона
     BS         C   2 0 SREGS    Код бассейна для акватории
     GREG       C   7 0 GREGS    Код физико-географического региона
     OC         C   2 0 SREGS    Код океана для акватории
     REG        C   7 0 PARHOST  Код региона
     SREG       C   7 0 SREGS    Код акватории
     ZREG       C   7 0 LABELS   Код географической зоны

SDT: DATDET     C  10 0 TAXCOLL  Дата определения материала

SOU: SOUR       C  33 0 DICSOUR  Код источника публикации

SYN: SYN        C   1 0 ANIMIS   Код синонимии

SYS: SYSCOD     C  16 0 ANIMIS   Систематический код животного
     SYSCODPL   C  12 0 PLANTS   Систематический код растения

TCT: LATRAN     C  12 0 RANCOD   Латинское название систематич. категории
     RUSRAN     C  15 0 RANCOD   Русское название систематич. категории

TEL: PHON       C   7 0 SPECS    Служебный телефон
     PHONH      C   7 0 SPECS    Домашний телефон

TIM: TIM1       N   5 2 STAYS    Время начала сбора
     TIM2       N   5 2 STAYS    Время окончания сбора

              Полные написания разных терминов
TRM: CITY       C  20 0 INSTS    Город, где находится учреждение
     COUNTRY    C  15 0 STAYS    Страна-участник экспедиции
     ENGLOC     C  45 0 POINTS   Английское название географич. пункта
     ENGSEA     C  32 0 SREGS    Английское название акватории
     ENGTERR    C  32 0 AREGS    Английское название территории
     INST       C  71 0 INSTS    Полное название учреждения
     KEYWORD    C  40 0 DICKEYW  Полное написание ключевого слова
     LOC        C  45 0 STAYS    Hазвание географического пункта
     MUSEUM     C  70 0 TYPLOC   Музей, где хранится тип
     PLACE      C  15 0 BIBREF   Место издания
     PUBL       C  40 0 BIBREF   Издательство
     REGION     C  40 0 GREGS    Полное название региона
     RUSNAM     C  27 0 ANIMIS   Русское название организма
     SEA        C  40 0 SREGS    Hазвание акватории
     SOURCE     C 210 0 BIBREF   Источник
     TERR       C  32 0 AREGS    Hазвание территории
     ZONE       C  40 0 ZREGS    Полное название зоны

TRU: TR         L   1 0 TAXNUMSP Отметка валидной или архивной информации

TYP: LOCT       C   1 0 TAXLOC   Тип кода точки находки
     REFT       C   1 0 PARHOST  Тип кода обоснования факта
     REGT       C   1 0 PARHOST  Тип кода региона

VES: VES        C  10 0 DICEXP   Код судна
     VESSEL     C  40 0 DICVES   Hазвание судна

YEA: YEAB       N   4 0 SPECS    Год рождения специалиста
     YEAD       N   4 0 SPECS    Год смерти специалиста
     YEAR       C   4 0 ANIMIS   Год  описания

YRS: YEAR       C   9 0 BIBREF   Год(ы)

ZIP: ZIP        C   6 0 POINTS   Почтовый код
------------------------------------------------------------------------

5. Структуры баз данных


Структуры баз данных системы ZOOINT не требуют особых пояснений. Отдельно необходимо остановиться только на структуре тезаурусов. Hаш подход к их конструированию (на примере базы данных ANIMIS или подобных ей) подробно описан в ряде статей (Лобанов, Тряпицын, 1985; Лобанов, Сергеев, 1986; Затравкин, Лобанов, 1987; Лобанов, Михайлов, 1987; Скарлато, Алимов, Лобанов, Умнов, 1989; Затравкин, Лобанов, 1989; Абдурахманов, Лобанов, 1990; Алимов, Лобанов, Пугачев, 1993; Лобанов, Зайцев, 1993). В настоящем отчете этому вопросу посвящен раздел 6. При разработке ZOOINT сделано только одно отступление от опубликованных правил. Поле ABBR в системе ZOOINT не требует согласования подчиненных таксонов с вышестоящими по началу аббревиатуры. Более того, аббревиатуры двух соподчиненных таксонов из одной иерархической группы (например, надсемейство и семейство), имеющие одинаковую длину, обязательно должны отличаться. Другими словами, аббревиатура конкретного таксона является абсолютно уникальной сама по себе (без присоединения кода ранга), что заметно облегчает многочисленные связи БД ANIMIS с другими БД системы.


Эти же принципы положены в основу конструирования остальных тезаурусов системы. В каждом тезаурусе имеется поле с уникальным символьным кодом объекта, а также поля SYSCOD, RANCOD, SYN, которые позволяют отражать родо-видовые и синонимические связи объектов так же, как это сделано в базах данных таксонов (ANIMIS и PLANTS).


В систему ZOOINT входят следующие базы данных:
 ANIMIS   - номенклатура и систематика таксонов животных
 ANIMSYN  - синонимия таксонов животных
 AREGS    - классификатор административно-территориальных регионов
 BIBREF   - библиография литературы о животных
 DICBOT   - словарь названий грунтов (для морских животных)
 DICEXP   - словарь названий морских экспедиций
 DICGEAR  - словарь названий орудий лова морских животных
 DICKEYW  - словарь ключевых слов
 DICSOUR  - словарь библиографических источников
 DICVES   - словарь названий судов
 GREGS    - классификатор физико-географических регионов
 INSTS    - учреждения, в которых работают специалисты
 LABELS   - этикетки - местонахождения животных на суше и их координаты
 PARHOST  - симбиотические связи животных с другими животными
 PLANTS   - номенклатура и систематика таксонов растений
 PLANTSYN - синонимия таксонов растений
 POINTS   - названия точечных географических объектов и их координаты
 RANCOD   - иерархия таксономических категорий животных
 RANCODPL - иерархия таксономических категорий растений
 SEXAGE   - данные об экземплярах животных внутри одной музейной единицы хранения
 SPECS    - специалисты, изучающие животных
 SREGS    - классификатор акваторий
 STAYS    - станции - местонахождения животных в акваториях и их координаты
 TAXCOLL  - коллекционные данные о музейных экземплярах животных
 TAXDET   - результаты определения музейных экземпляров животных
 TAXLOC   - географическое распространение таксонов животных по точкам
 TAXNUMSP - оценки числа видов в крупных таксонах животных для различных регионов
 TAXPLANT - симбиотические связи животных с растениями
 TAXREF   - связь таксонов животных с библиографическими ссылками
 TAXREG   - географическое распространение таксонов животных по регионам
 TAXSPEC  - связи: специалист - изучаемый таксон
 TYPLOC   - данные о типовых местностях для видов
 TYPSPP   - данные о типовых видах для родов
 ZREGS    - классификатор природно-зональных регионов

6. Связи баз данных



Рис 1. Схема связей отдельных блоков системы ZOOINT


Схема связей отдельных блоков системы ZOOINT показана на рис. 1. Для упрощения в каждом блоке показаны только несколько самых важных полей, играющих ключевую роль во взаимодействии блоков. Из-за сложности схемы пришлось упростить изображения БД и привести на схеме не все поля, а только те, которые нужны для связей БД друг с другом. Прямоугольники с двойными рамками изображают базы данных. В верхней части прямоугольника дано название базы данных, отделенное снизу двойной линией. Hиже идут имена полей. Если их несколько - они отделены одинарными линиями. Связи баз данных отображены одинарными линиями. Их крестообразные пересечения не означают соединения. А вот Т-образные стыки - означают соединение. Hесколько линий, отходящих от одного поля базы данных, означают множественные связи БД по этому полю.



7. Устройство тезаурусов


Если база данных, к которой обращаются с такими запросами, содержит записи на уровне видов, то сведения о подчинении видов вышестоящим таксонам должны содержаться в самой базе данных или должны быть выделены из нее в виде специального справочного массива (классификатора или словаря). Достаточно полное представление иерархии таксонов можно эффективно обеспечить только в базах данных иерархического типа. Но наиболее мощные современные СУБД для персональных компьютеров используют реляционную структуру и отказ от их развитых и растущих с каждым днем возможностей весьма нежелателен. Важным возражением против использования иерархической структуры является необходимость полного дублирования всей базы данных для представления двух альтернативных систем таксонов. А хранение трех и более систем таксонов становится вообще малореальным. Внесение сведений об иерархии во все записи о таксонах низшего уровня приемлемо лишь для небольших по объему баз данных реляционного типа и только при упрощенном представлении иерархии ограниченным числом категорий. Например, можно во все записи о видах внести данные о родах, семействах, отрядах, классах и типах, к которым они относятся. Но при этом теряется информация о подродах, трибах, подсемействах и других таксономических категориях, обойтись без которых вряд ли согласится специалист по систематике. Внесение же в каждую запись всех возможных категорий, число которых в зоологии превосходит 40, так увеличит объем базы данных, что это наверняка окажется нерентабельным, даже с учетом постоянного роста дисковой памяти у современных ЭВМ. Как и в предыдущем случае - необходимость отражения нескольких альтернативных систем таксонов в несколько раз увеличивает непроизводительный расход памяти.


Приведенные выше соображения убедительно доказывают, что самым оптимальным способом хранения информации об иерархии таксонов является создание отдельного справочного массива - классификатора, в котором в сжатом виде представлены для каждого таксона сведения о всех вышестоящих и подчиненных таксонах. Обычно обьем классификатора гораздо меньше объема основной базы данных, поэтому хранение в таком виде нескольких альтернативных систем иерархии вызывает очень небольшой дополнительный расход дисковой памяти. С другой стороны, наличие классификатора позволяет уменьшить объем основной базы данных за счет использования коротких кодов таксонов вместо их полных названий. Важным преимуществом, которое несет использование классификатора, является возможность постоянных изменений иерархии таксонов вслед за происходящими изменениями представлений о классификации данной систематической группы. Предлагаемый нами классификатор построен так, что эти изменения не будут касаться основной базы данных.


Идея создания классификатора названий живых организмов не является новой. К ней неизбежно приходят все разработчики банков данных о животных и растениях (Скарлато и др., 1989). Чаще всего такие классификаторы не публикуются и остаются в недрах документации конкретной информационной системы. Но время от времени появляются опубликованные классификаторы - чаще всего с целью установления некоего стандарта кодов названий организмов для того или иного применения. К сожалению, ни один из известных классификаторов не может служить стандартом для специалистов по систематике животных, т.к. в них нельзя отразить сложную иерархию зоологических систем и тем более - постоянные изменения в этих системах. Для примера достаточно упомянуть коды семейств высших растений (Weber 1982), и классификатор высших растений Латвии (Лайвиньш и др. 1984). Главное отличие разработанного одним из авторов (Лобанов, Сергеев 1986) и уже проверенного на практике классификатора заключается в том, что возможность представления иерархии таксонов с любой детальностью, требующейся зоологу, реализована в нем полно и последовательно. При этом предельно облегчена процедура внесения изменений в иерархию и обеспечено экономное представление нескольких альтернативных систем таксонов.


Вспомогательной частью классификатора является словарь двузначных цифровых кодов таксономических категорий (табл. 3), в котором учтены рекомендации Я.И.Старобогатова (1974). Для большинства категорий использованы только четные числа, что дает возможность добавить при необходимости новые категории, не изменяя коды старых. Коды самых употребительных категорий оканчиваются на нуль.


Использованный нами классификатор названий животных "ZOOCOD" имеет 6 уровней, соответствующих шести основным иерархическим систематическим категориям в зоологии (класс, отряд, семейство, род, вид и подвид). Но распределение остальных категорий по этим уровням отличается от традиционного. К каждому уровню отнесены все категории выше основной (включая ее) до следующей основной категории более высокого уровня (исключая ее). Первый уровень включает таксоны с рангом от подцарства до класса, второй - от подкласса до отряда, третий - от подотряда до семейства, четвертый - от подсемейства до рода, пятый от подрода до вида, шестой - все внутривидовые таксоны. Сделано это для удобства внесения изменений в систематическую часть классификатора с расчетом на то, чтобы серия изменений захватывала по возможности один уровень (в соответствии с обычными уровнями действий одного специалиста-систематика). Таким образом, полная перестройка системы одного отряда - затронет только уровень семейства; изменение системы одного семейства - только уровень рода и т.д.


Название каждого таксона имеет 2 кода - цифровой и буквенный. Цифровой код отражает однозначно систематическое положение таксона в принятой системе. Цифровые коды получаются при простой нумерации с шагом в несколько единиц всех таксонов одного уровня в традиционном зоологическом систематическом списке. Буквенный мнемонический код (аббревиатура, мнемокод или акроним) служит для сжатия информации при хранении на машинных носителях и для сокращения объема вводимой в ЭВМ информации при создании базы данных и формировании запросов. Акроним образуется обычно из первых букв латинского названия (иногда он совпадает с ним лишь по первой букве). Согласно максимальным объемам реальных таксонов животных цифровые коды имеют на первом-шестом уровнях соответственно 3, 2, 3, 4, 4 и 2 цифры, а аббревиатуры - 2, 2, 2, 3, 3 и 2 буквы. Практическая проверка показала, что такая длина аббревиатур достаточна для их мнемоничности. И буквенный и цифровой коды являются иерархичными по своей структуре. Внутри каждого основного таксона вышестоящего уровня могут использоваться для обозначения подчиненных ему таксонов следующего уровня любые кодовые сочетания, в том числе уже использованные внутри вышестоящих таксонов. Каждый таксон имеет в классификаторе еще 2 воспомогательных атрибута - двузначный цифровой код таксономического ранга (см. табл. 3) и специальное односимвольное обозначение для синонимов и недействительных названий.


Все используемые в зоологической систематике названия таксонов раз и навсегда получают в классификаторе двух- или трехбуквенный код, уникальный на данном уровне внутри основного таксона вышестоящего уровня. Например, код рода должен быть уникален внутри всего семейства, а не только внутри трибы или подсемейства. Таксоны, типифицированные одним родом, должны иметь на одном уровне одинаковые буквенные коды (например, таксоны от подсемейства до надрода - одинаковый код со своим родом). Это же правило распространяется на таксоны более высоких уровней, если они явно произведены от одного названия. Таксоны с одинаковой аббревиатурой отличаются по сопровождающему их коду ранга. Аббревиатура применяется во всех базах данных, использующих классификатор, вместо полного названия. Постоянство аббревиатуры, остающейся неизменной при любых изменениях в систематике, дает возможность отказаться от коррекции данных по систематике и номенклатуре в сопряженных с классификатором базах.


Полная аббревиатура таксона обязательно включает и коды вышестоящих уровней (код семейства, например состоит из 6 символов, а код рода - из 9 символов). Но в случаях, когда в базе данных у всех кодов совпадает начальная часть, она может быть отброшена. Например, в базе данных по одному семейству достаточно использовать 3-буквенные коды родов, а 6-буквенный код семейства вынести в заголовок базы данных (эта возможность продемонстрирована в табл. 4). Буквенный код названия таксона не изменяется никогда, даже при сведении названия в синонимы или при переводе его в непригодные. Это правило обеспечивает отсутствие каких-либо манипуляций с содержимым основных баз данных при изменениях в номенклатуре и систематике.


Цифровые коды являются изменяемой частью классификатора и отражают представление о принятой системе группы животных (или о нескольких альтернативных системах). Все валидные названия имеют разные цифровые коды. Они должны быть присвоены так, чтобы упорядочение таксонов по этим кодам давало систематический список таксонов. Синонимы и непригодные названия имеют одинаковые цифровые коды с соответствующими им действительными названиями. В основные базы данных цифровые коды не вносятся.


Буквенные аббревиатуры и цифровые систематические коды присваиваются таксонам автоматически при помощи специальных программ, написанных одним из авторов (А.Л. Лобановым) на языке dBASE. При построении классификатора вручную заполняются только поля LATNAM, RANCOD и SYN. Минимальная структура, необходимая для хранения классификатора, приведена в таблице 5.


Построенные по такому типу классификаторы для разных групп животных поддерживаются в Зоологическом институте АН СССР на IBM-совместимых персональных компьютерах в среде СУБД dBASE3+, FoxBbase+, FoxPro.



8. Описание блоков


Выделение отдельных блоков в системе ZOOINT весьма условно. Цепочки связанных для выполнения конкретного запроса баз данных иногда включают до 5-7 отдельных файлов. При этом такие базы данных, как ANIMIS или BIBREF, участвуют в работе всех блоков. Блоки выделены нами для удобства рассмотрения структуры системы, ибо в полном виде она трудно обозрима. В схемах отдельных блоков представлены только ключевые базы данных (например, в блоке DISTRIB не показана базы данных данных BIBREF и SPECS, хотя базы данных TAXREG и TAXLOC связаны с ними через поле REF).


Hиже рассматриваются структуры отдельных блоков.



8.1. Схема связей баз данных в блоке ANIMALS
(систематика и номенклатура животных)


                Краткие сведения о полях баз данных блока
                   (имя поля, тип, длина, назначение):

     ABBR        C  14  Код (аббревиатура) таксона животных
     ABBR1       C  14  Код старшего синонима (животные)
     ABBR2       C  14  Код младшего синонима (животные)
     ABBRT       C  14  Код типового вида (животные)
     AREG        C   7  Код административного региона
     CURATOR     C  40  Куратор таксона в классификаторе
     LATRAN      C  12  Латинское название систематич. категории
     LOCUS       C  54  Этикетка (местонахождение организма)
     OPERATOR    C  16  Оператор, вводивший сведения
     RANCOD      N   2  Код ранга таксона животных
     REF         C  40  Код обоснования факта
     RUSRAN      C  15  Русское название систематич. категории
     TYPB        C   1  Тип кода обоснования факта

8.2. Схема связей баз данных в блоке TAXNUMSP
(объемы крупных таксонов)


                Краткие сведения о полях баз данных блока
                   (имя поля, тип, длина, назначение)

            ABBR        C  14  Код (аббревиатура) таксона животных
            AREG        C   7  Код административного региона
            AUTHOR      C  70  Автор(ы) публикации
            BREF        C  40  Код библиографической ссылки
            FAM         C   7  Код географической зоны
            LATNAM      C  25  Латинское название организма
            NUMSP       N   7  Число видов в крупном таксоне
            OPERATOR    C  16  Оператор, вводивший сведения
            REF         C  40  Код обоснования факта
            REFT        C   1  Тип кода обоснования факта
            REG         C   7  Код региона
            REGT        C   1  Тип кода региона
            SPEC        C  40  Код ссылки на специалиста
            TERR        C  32  Hазвание территории
            TITLE       C 210  Hазвание публикации
            ZONE        C  40  Полное название зоны
            ZREG        C   7  Код географической зоны

8.3. Схема связей баз данных в блоке DISTRIB
(географическое распространение животных)


                Краткие сведения о полях баз данных блока
                   (имя поля, тип, длина, назначение)

     ABBR        C  14  Код (аббревиатура) таксона животных
     AREG        C   7  Код административного региона
     BOT         C  15  Код типа грунта
     CODLOC      C  12  Код точки находки
     EXPICOD     C  10  Код экспедиции
     GEAR        C  30  Орудие сбора
     GREG        C   7  Код физико-географического региона
     LATNAM      C  25  Латинское название организма
     LCODLOC     C  12  Код точки находки (этикетки)
     LOC         C  45  Hазвание географического пункта
     LOCT        C   1  Тип кода точки находки
     LOCUS       C  54  Этикетка (местонахождение организма)
     PCODLOC     C  12  Код точки находки (собственно точки)
     REF         C  40  Код обоснования факта
     REG         C   7  Код региона
     REGION      C  40  Полное название региона
     REGT        C   1  Тип кода региона
     SEA         C  40  Hазвание акватории
     SREG        C   7  Код акватории
     TERR        C  32  Hазвание территории
     SCODLOC     C  12  Код точки находки (водные станции)
     VES         C  10  Код судна

8.5. Схема связей баз данных в блоке COLLECTS
(коллекционные данные о музейных экземплярах)



Рис 6. Схема связей баз данных в блоке COLLECTS



8.8. Схема связей баз данных в блоке REFERENS
(библиография сведений о животных)


                Краткие сведения о полях баз данных блока
                   (имя поля, тип, длина, назначение)

     ABBR        C  14  Код (аббревиатура) таксона животных
     AUTHOR      C  70  Автор(ы) публикации
     BREF        C  40  Код библиографической ссылки
     KEYW        C   7  Код ключевого слова
     KEYWORD     C  40  Полное написание ключевого слова
     LATNAM      C  25  Латинское название организма
     SOUR        C  33  Код источника публикации
     SOURCE      C 210  Полное название источника
     TITLE       C 210  Hазвание публикации

9. Специальные аспекты организации
пользовательского интерфейса


Сложности создания взаимосвязей различных баз данных можно проиллюстрировать на примере разработки блока ввода и просмотра данных о зоологических коллекциях.


Коллекции различных групп животных значительно отличаются типом хранения, степенью изученности, объемом сопутствующих сведений, которые необходимо включить. Например, коллекции морских беспозвоночных хранятся в стеклянных банках, содержащих различное количество экземпляров животных; зачастую часть животных из мало исследованных групп определены приблизительно и мнения специалистов расходятся. Единицей хранения, заносимой в каталог и имеющей уникальный инвентарный номер, является емкость с фиксированными объектами. В качестве необходимых сопутствующих сведений указываются координаты места сбора (станции), глубина, характер грунта, орудие лова и др.


Напротив, для наземных позвоночных инвентарной единицей хранения является 1 экземпляр или даже его часть (остеологические и палеонтологические коллекции), идентификация которых обычно не вызывает затруднений. Для каждой единицы хранения нужно указать сведения о поле, возрасте, месте добычи (проблемы вызывает установление соответствия старых названий новым и поиск неточно указанного места сбора).


Кроме столь различных требований, обусловленных характером объектов, необходимо было учесть возможные ошибки ввода и по возможности заменить ввод с клавиатуры выбором из меню.


Для того, чтобы объединить все перечисленные требования в одном экране ввода, мы разделили вводимую информацию по разным базам данных - TAXCOLL, TAXDET, SEXAGE, LABELS, POINTS, STATIONS. Связь между ними осуществляется с помощью уникальных аббревиатур (географических названий и названий животных) или инвентарных номеров. Первоначальный выбор таксона верхнего уровня осуществляется после входа в программу посредством системы окон, каждое из которых отражает таксон определенного уровня. После выбора таксона верхнего уровня и входа в пункт меню "Коллекции" - "Ввод" нужно выбрать подчиненные таксоны до вида включительно. Такой выбор осуществляется с использованием баз ANIMIS и RANCOD. При заполнении экрана ввода сведения об инвентарном и вспомогательном номерах, характере экземпляров, дате (датах, в случае нескольких экземпляров под одним номером) сбора, поле и возрасте (в случае 1 экземпляра), коллекторе, собравшем материал, и месте его хранения в коллекции заносятся в базу TAXCOLL. Если единица хранения содержит несколько экземпляров, то данные о возрасте и количестве самцов и самок заносятся в базу SEXAGE. В случае, когда экземпляр неоднократно переопределялся, необходимая информация об этом (кто из специалистов, когда и как определил этот экземпляр) помещается в базу TAXDET. Список специалистов, из которого производится выбор, берется из базы SPECS, а из базы ANIMIS - список таксонов возможного определения. Место добычи выбирается из базы LABELS, если место находки не имеет точных координат, или из базы POINTS, если точка находки точно определена. При этом в базу TAXCOLL помещаются лишь тип кода точки находки - указание на то в какой из баз находится собственно название, и буквенный код этой точки в соответствующей базе.



10. Список литературы


Lobanov A., Sokolov E., Smirnov I. ZOOINT - an integrated system for zoological data bases // ADBIS'94. International Workshop on Advances in DataBases and Information Systems. May 23-26, 1994. Collection of abstracts. 1994. P. 52-53.
Lobanov A., Sokolov E., Smirnov I. ZOOINT - an integrated system for zoological data bases // ADBIS'94. Proceedings of the International Workshop on Advances in Databases and Information Systems. Moscow - May 23-26, 1994. 1994. P. 270-271.
Lobanov A., Stepanjants S., Dianov M. Dimophyes arctica (Chun, 1897) (Siphonophora). Morphological and biological peculiarities research, area distribution improvement with computer aided methods // 6th International Conference on Coelenterata Biology. The Leeuwenhurst, Noordwijkerhout, The Netherlands. 16-21 July 1995. Programme and Abstracts. 1995. P. 62-64.
Medvedev G.S., Lobanov A.L. Einige Erfahrungen bei der Beschaffung und Ausnutzung von Rechnerdatenbanken in der Systematik und Faunistik der Kafer // Verhandlungen des XI Intern. Sympos. fur die Entomofaunistik Mitteleuropas (SIEEC). 19-23 Mai 1986, Gotha. 1989. S. 237-238.
Smirnov I., Lobanov A., Alimov A., Dianov M., Golikov A., Stepanjants S. Integrated information system ZOOINT: the present state and prospects // ADBIS'97. Proceedings of the First East-European Symposium on Advances in Databases and Information Systems. St.Petersburg - September 2-5, 1997. Extend. Abstr. 1997. Vol. 2. P. 112-114.
Smirnov I., Lobanov A., Dianov M. Information system for Antarctic marine animals // Antarctic Communities: Species, Structure and Survival. SCAR Sixth Biology Symposium. Venice, 30 May - 3 June 1994. Abstracts. 1994. P. 247.
Smirnov I.S., Lobanov A.L., Alimov A.F., Dianov M.B., Medvedev S.G. Development of information retrieval systems for zoology // ADBIS'96. Proceedings of the Third International Workshop on Advances in Databases and Information Systems. Moscow - September 10-13, 1996. Extended Abstracts. 1996. Vol. 2. P. 60-63.
Smirnov I.S., Lobanov A.L., Okolodkov Y.B. The PLANTCOD classifier and the OCEAN information retrieval system applied to studies on Arctic marine dinoflagellate biodiversity // Проблемы изучения биологического разнообразия водорослей, грибов и мохообразных Арктики. Международн. конференция. С-Петербург, 12-16.12.1995 г. Тезисы докладов. 1995. P. 16-17.
Абдурахманов Г.М., Лобанов А.Л. Компьютерный банк данных по систематике и географическому распространению жуков-чернотелок (Coleoptera, Tenebrionidae) Кавказа // Материалы Всес. научно-метод. совещ. зоологов педвузов, часть 1. 1990. С. 5-6.
Алимов А.Ф., Лобанов А.Л., Пугачев О.Н. Сравнительный анализ реляционного и сетевого подходов к созданию банков данных по систематике, экологии и географическому распространению животных // Журн. общ. биол. 1993. Т. 54, N 1. С. 96-103.
Алимов А.Ф., Лобанов А.Л., Пугачев О.Н. Использование компьютерных технологий в Зоологическом институте РАН // Базы данных и компьютерная графика в зоологических исследованиях (Труды Зоологического института, т. 269). 1997. С. 11-15.
Алимов А.Ф.,Старобогатов Я.И.,Кержнер И.М.,Лобанов А.Л.,Степаньянц С.Д. Проблемы исследований разнообразия животного мира России // Журн. общ. биол. 1996. Т. 57, N 2. С. 5-13.
Волкович М.Г., Лобанов А.Л. Банк данных по кормовым связям златок трибы Acmaeoderini (Coleoptera, Buprestidae) Палеарктики // Базы данных и компьютерная графика в зоологических исследованиях (Труды Зоологического института, т. 269). 1997. С. 166-181.
Дианов М.Б., Лобанов А.Л. Компьютерная географическая система ZOOMAP для картирования ареалов растений и животных // II совещание "Компьютерные базы данных в ботанических исследованиях". Санкт-Петербург, 17-19 апреля 1995 г. Тезисы докладов. 1995. С. 16-17.
Дианов М.Б., Лобанов А.Л. Компьютерная географическая система ZOOMAP для картирования ареалов животных // Базы данных и компьютерная графика в зоологических исследованиях (Труды Зоологического института, т. 269). 1997. С. 31-34.
Затравкин М.Н., Лобанов А.Л. О принципах создания банка данных по систематике, географическому распространению и паразитологическому значению современных и ископаемых пресноводных моллюсков СССР. // Моллюски - результаты и перспективы исследований. / 8-е Всесоюзное совещ. по изучен. моллюсков. Авторефераты докладов. Л., 1987, с.142-144.
Кузнецов C.Ю. Энтомологические коллекционные базы данных: пример построения и возможности использования // Базы данных и компьютерная графика в зоологических исследованиях (Труды Зоологического института, т. 269). 1997. С. 49-55.
Затравкин М.Н., Лобанов А.Л. Опыт создания банка данных по систематике и распространению современных и палеоген-четвертичных моллюсков отряда Unioniformes фауны СССР // Бюлл. МОИП, отд. биол. 1989. Т. 14, Вып. 4. С. 59-63.
Лобанов А.Л. Опыт создания и использования автоматизированного банка данных в экологических исследованиях гельминтов рыб // Биологические основы борьбы с гельминтами животных и растений. Тезисы докладов конференции. Москва, февраль 1983 г. 1983. С. 47-49.
Лобанов А.Л. Линейно-иерархическая структура баз данных о таксонах животных // Принципы и методы экоинформатики. 1986. С. 293-295.
Лобанов А.Л. Компьютерные методы в систематике и зоогеографии насекомых // Успехи энтомологии в СССР: экология и фаунистика, небольшие отряды насекомых. Материалы 10-го съезда ВЭО. 1993. С. 38-39.
Лобанов А.Л., Дианов М.Б. Мир жуков ("Wir bestimmen Kaefer") - CD-ROM и краткое руководство. - Berlin : dialobis edition, 1996. 80 с.
Лобанов А.Л., Дианов М.Б. CD-ROM: новый инструмент изучения биологического разнообразия // Компьютерные базы данных в ботанических исследованиях. Сборник научных трудов. 1997. С. 55-57.
Лобанов А.Л., Зайцев М.В. Создание компьютерных баз данных по систематике млекопитающих на основе классификатора названий животных "ZOOCOD" // Вопросы систематики, фаунистики и палеонтологии мелких млекопитающих (Труды Зоологического института РАH, т. 243). С-Пб, 1993, с. 180-198.
Лобанов А.Л., Михайлов В.А. Компьютерный банк данных о жуках-жужелицах юго-востока Средней Азии на основе линейно- иерархической структуры баз данных. / Изв. АН Тадж. ССР, отд. биол. наук (Деп. в ВИНИТИ, 8 окт. 1987, N 7177-в87) 21 с.
Лобанов А.Л., Михайлов В.А. Машинный банк данных о жужелицах юго-востока Средней Азии // Материалы научной сессии энтомологов Дагестана. 1988. С. 36-37.
Лобанов А.Л., Сергеев Г.Е. Проект классификатора названий животных и принцип представления информации об их распространении в структуре биологических баз данных // Принципы и методы экоинформатики. 1986. С. 214-215.
Лобанов А.Л., Смирнов И.С. Принципы построения и использования классификаторов животных в стандарте ZOOCOD // Базы данных и компьютерная графика в зоологических исследованиях (Труды Зоологического института, т. 269). 1997. С. 66-75.
Лобанов А.Л., Смирнов И.С., Алимов А.Ф., Дианов М.Б., Степаньянц С.Д. Интегрированная информационная система ZOOINT: современное состояние и перспективы // Отчетная научная сессия по итогам работ 1996 года. 8-10 апреля 1997 г. Тезисы докладов. 1997. С. 23-25.
Лобанов А.Л., Степаньянц С.Д., Дианов М.Б. Фаунистические базы данных как инструмент изучения факторов биохорологического разнообразия // Факторы таксономического и биохорологического разнообразия. Программа и тезисы докладов совещания (12-14 апреля 1995 г.). 1995. С. 44.
Лобанов А.Л., Тряпицын В.А. Автоматизированная информационно-поисковая система для родов энциртид (Hymenoptera, Encyrtidae) мировой фауны на базе ЭВМ БЭСМ-6 // Энтомол. обозр. 1985. Т. 64, N 3. С. 649-659.
Медведев Г.С. Опыт эксплуатации компьютерного банка данных по систематике и географическому распространению жуков-чернотелок (Coleoptera, Tenebrionidae) Монголии // Базы данных и компьютерная графика в зоологических исследованиях (Труды Зоологического института, т. 269). 1997. С. 79-87.
Морозов Ю.Г., В.Д. Ефремов. Программное обеспечение для поддержки и эксплуатации орнитологических баз данных // Базы данных и компьютерная графика в зоологических исследованиях (Труды Зоологического института, т. 269). 1997. С. 91-99.
Скарлато О.А. Введение // Базы данных и компьютерная графика в зоологических исследованиях (Труды Зоологического института, т. 269). 1997. С. 3-6.
Скарлато О.А., Алимов А.Ф., Лобанов А.Л., Умнов А.А. Машинные банки данных как подход к кадастру животного мира // Всес. совещ. по проблеме кадастра и учета животного мира. Тез. докладов. Часть 1. 1986. С. 68-70.
Скарлато О.А., Алимов А.Ф., Лобанов А.Л., Умнов А.А. Машинные банки данных - подход к кадастру животного мира // Всесоюзное совещание по проблеме кадастра и учета животного мира. 1989. С. 56-64.
Скарлато О.А., Старобогатов Я.И., Лобанов А.Л., Смирнов И.С. Базы данных по зоологической систематике и сведения о высших таксонах животных // Зоологический журнал. 1994. Т. 73, N 12. С. 100-116.
Скарлато О.А., Старобогатов Я.И., Лобанов А.Л., Смирнов И.С. Биоразнообразие и возможности его анализа с применением компьютерных банков данных // Биоразнообразие. Степень таксономической изученности. 1994. С. 20-41.
Смирнов И.С., Лобанов А.Л. Специализированная библиографическая система для зоологов - ZOOBIB // Базы данных и компьютерная графика в зоологических исследованиях (Труды Зоологического института, т. 269). 1997. С. 130-132.
Смирнов И.С., Лобанов А.Л., Дианов М.Б., Голиков А.А. О возможном использовании информационно-поисковой системы "OCEAN" для исследования морских водорослей // II совещание "Компьютерные базы данных в ботанических исследованиях". Санкт-Петербург, 17-19 апреля 1995 г. Тезисы докладов. 1995. С. 53-54.
Смирнов И.С., Лобанов А.Л., Соколов Е.П., Дианов М.Б. Развитие интегрированной системы ZOOINT для зоологических баз данных // Информационные системы в науке - 95. 1995. С. 101-103.
Смирнов И.С., Лобанов А.Л., Соколов Е.П., Дианов М.Б. Информационно-поисковая система ЗООИНТ для зоологии (проект "Система компьютерной интегрированной обработки данных по биоразнообразию животных (ЗООИНТ)" N 93-04-21216) // Вестник РФФИ. 1995. N 2. С. 34-36.
Смирнов И.С., А.В. Смирнов. "ОКЕАH" _ банк данных по коллекциям морских беспозвоночных Зоологического института РАH // Базы данных и компьютерная графика в зоологических исследованиях (Труды Зоологического института, т. 269). 1997. С. 133-135.
Соколов Е.П., Смирнов И.С., Лобанов А.Л. Интегрированная система ZOOINT для ведения и использования зоологических баз данных // Базы данных и компьютерная графика в зоологических исследованиях (Труды Зоологического института, т. 269). 1997. С. 136-144.
Степаньянц С.Д., Лобанов А.Л., Дианов М.Б. (ред.). Базы данных и компьютерная графика в зоологических исследованиях (Труды Зоологического института РАН, том 269). - Санкт-Петербург : ЗИH РАH, 1997. 1-208 с.
Тряпицын В.А., Лобанов А.Л. Принципы построения и содержание баз данных по систематике и экологии насекомых // Принципы и методы экоинформатики. 1986. С. 86-87.
Филиппова H.А., Лобанов А.Л., Стекольников А.А., Мусатов С.А. и др. Комплексный банк данных по паразитическим клещам и насекомым фауны России, вредящим здоровью человека и животных // Информационные системы в науке - 95. 1995. С. 108-109.


Возврат на главную страницу ZOOINT