База данных по селекционно-генетическим объектам.

Коваль В.С.

Успех биологических исследований в значительной степени определяется правильным выбором модельно объекта. Изогенные линии являются удобным объектом для генетических и селекционных исследований. Серии изогенных линий создаются на основе единого генотипа (сорта), и отличаются от него по одному гену или небольшому числу тесно сцепленных генов. Генетическое единообразие изогенных линий позволяет определить вклад маркирующего признака в формирование урожая сельскохозяйственных культур.

Кроме того, изогенные линии нашли широкое применение в генетики и селекции растений. В первую очередь можно назвать селекционное применение изогенных линий в качестве доноров иммунитета. На основе иммунных изогенных линий созданы коммерческие сорта. Многие линии включены в молекулярные и цитологические исследования. Основные направления совместных исследований были представлены в предыдущем докладе.

К сожалению, изогенные линии нашли гораздо меньшее применение в решении той задачи, для которой они создавались. Исходной целью было использование этих линий в качестве инструмента для построения модели сорта. К настоящему времени на основании изучения этого материала опубликован ряд работ по влиянию морфологических и биохимических признаков на продуктивность растений.

Таблица 1.

Характеристика изогенных линий серии АНК.

 

Признак

Число линий

Устойчивость к бурой ржавчине и мучнистой росе

7

Морфологические признаки

54

Цвет зерна и колоса

14

Структура и морфология колоса

23

Высота растения

5

Опушение листа и стебля

5

Скороспелость

7

Биохимические маркеры (Gld)

4

 

Серия изогенных линий, созданная на основе сорта мягкой яровой пшеницы Новосибирская 67 включает 73 линии, несущие гены устойчивости к болезням, морфологические и биохимические маркеры.

Использование современных информационных технологий позволяет значительно расширить круг пользователей, для этого создаются базы данных и справочно-информационные системы. На наш взгляд, главным недостатком большинства из них является некоторая односторонность представления материала. Поэтому мы хотели бы создать базу данных, всесторонне описывающую серию изогенных линий, созданную в нашей лаборатории. С одной стороны необходимо дать формальное описание объекта - паспортная часть. Сюда включается информация о ботанической разновидности, особенности генетики данного объекта, фамилия автора и организация, в которой создан данный материал. В паспортную часть входит и описание литературных источников. С другой стороны надо по возможности представить результаты оценки данного образца - оценочная часть. В этот раздел будут включены данные полевого анализа структуры продуктивности растений, результаты генетического анализа и т.д.

Создание такой БД позволит решать следующие задачи:

    1. Информационно-справочная - представление полной информации о серии изогенных линий, доступной для широкого круга исследователей.
    2. Построение математической модели сорта на основе анализа влияния маркирующих признаков на структуру продуктивности растений.
    3. Используя комплект изогенных линий можно начать поиск закономерностей влияния маркирующих признаков на такие сложные количественные показатели как продуктивность растения,(как влияет введенный маркер на структуру количественных признаков, и какие морфологические маркеры влияют на конкретный количественный признак). Классифицировать изогенные линии на основе этих признаков. Для этого предлагается построить матрицу маркирующих признаков и связанную с ней матрицу количественныхпризнаков.

      Таблица 2.

      Матрица Морфологических и количественных признаков

    N-67

    АНК -11

    АНК -12

    АНК -12A

    АНК -24A

    Rht1

    0

    0

    0

    1

    0

    Rht2

    0

    0

    1

    1

    0

    Rht3

    0

    1

    0

    0

    0

    Tall

    0

    0

    0

    0

    1

    Plant height

    104.06

    34.24

    79.94

    47.46

    118.20

    Lenght internodes

    44.17

    18.78

    34.7

    20.22

    49.90

    Number of stems

    3.36

    5.38

    3.68

    3.6

    3.00

    Plant weight

    7.43

    9.88

    7.01

    4.43

    9.08

    Lenght of spike

    8.78

    11.78

    10.25

    9.73

    9.24

    Number of spikelets

    15.29

    18.80

    17.32

    17.1

    15.68

    Spike weight

    1.28

    0.91

    1.38

    0.76

    1.47

    Number of grains

    27.75

    5.18

    34.78

    10.02

    29.14

    Weight of grains

    1.01

    0.26

    1.07

    0.38

    1.19

    Number of spikes

    2.30

    3.96

    2.52

    2.44

    2.00

    Weight of 1000 grains

    36.05

    30.21

    30.74

    40.66

    40.73

    Spike density

    17.50

    16.11

    16.92

    17.61

    16.98

    Такой подход позволит использовать полученный материал для поиска закономерностей формирования количественных признаков и построения математической модели сорта. Кроме того, можно выделить количественные признаки, которые изменяются наиболее часто и более стабильные признаки.

  1. Интеграция с другими исследователями, создающими изогенные линии и создание единого информационного ресурса, описывающего изогенные линии и генетические коллекции растений.

 

В настоящее время на информационном сервере СО РАН создается база данных, содержащая информацию о наиболее представительной серии изогенных линий. В этот набор включено 73 линии, несущие морфологические и биохимические маркеры, гены иммунитета к болезням и другие хозяйственно-ценные признаки. Она включает в себя описательную (паспортную) и литературную часть, в которой собраны литературные источники, по конкретным изогенным линиям, кроме того, будет создана цифровая (оценочная) часть. Каждый из разделов связан с другими перекрестными ссылками.

 

На рисунках показана титульная страница базы данных “Изогенные линии”.

Iso1.jpg (92226 bytes)

Iso2.jpg (78372 bytes)

Титульная страница имеет опции “Просмотр”, “Поиск” и “Вход администратора”. Первые две опции доступны для любого пользователя Интернет и обеспечивают общий (нерегламентированный) просмотр и поиск конкретного документа из базы данных. Опция “Вход администратора” доступна только для авторов таблицы и администратора, она предназначена для исправления и пополнения записей в БД. Для пользования системой каждый автор должен зарегистрировать у администратора Имя пользователя (Login Name) и Пароль (Password).

Запись в базе данных состоит из отдельных полей, в которые заносятся данные определенного типа.

Описание документа в базе данных “Изогенные линии пшеницы” состоит из 16 полей:

  1. Тип генетического материала - изогенная, аллоплазматическая, моносомная линия и т.д. Подразумевается, что в дальнейшем будет идти расширение базы данных и в нее будут включены другие типы модельных объектов кроме изогенных линий. (STRING)
  2. Генетический фон - тот генотип, на основе которого создавался данный материал (в данном случае Новосибирская 67) (TEXT)
  3. Серия - также, пока имеет одно значение - АНК, в ближайшее время добавится ЦАНК - (цитоплазматический аналог) (STRING)
  4. Номер линии - номер конкретной линии в серии. (STRING)
  5. Параллельные линии - если есть указывается буква или иное обозначение параллельных линий. (STRING)
  6. Маркирующий признак - название признака. (TEXT)
  7. Фотографии - ссылка на первую фотографию или рисунок. (PHOTO)
  8. Ген - принятое название гена. (STRING)
  9. Донор - название сорта или образца донора маркирующего признака. (STRING)
  10. Число беккроссов (STRING)
  11. Ботаническая разновидность (STRING)
  12. Описание - развернутое описание данной линии, может включать таблицы, ссылки на статьи и др. информацию (BIGTEXT)
  13. Фотография - ссылка на вторую фотографию или рисунок. (PHOTO)
  14. Автор - фамилия автора, создавшего данный материал (STRING)
  15. Учреждение - учреждение оригинатор (STRING)
  16. Литература - ссылки на литературные источники, описанные в БД “ЛИТЕРАТУРА”. (ANCHOR)

 

В любой работе зачастую возникает необходимость внести дополнения или изменения в существующую структуру данных. Разработанная система позволяет добавлять и изменять существующие поля. Для этого необходимо описать название и тип поля, указать обязательность его заполнения, включение в поиск и описать шаблон представления на экране.

Iso8.jpg (53168 bytes)

 

В ходе дальнейшей работы практически все параметры могут быть изменены. Исключение составляет тип поля - замена предусмотрена только для типа STRING и TEXT.

11_Iso7.jpg (66127 bytes)

 

Для ввода нового документа необходимо заполнить все обязательные поля. Остальная информация может быть внесена дополнительно.

12_Iso6.jpg (59934 bytes)

 

Ниже приведен пример незаконченного документа.

13_Iso9.jpg (42248 bytes)

После заполнения документ вносится в базу данных и ему присваивается уникальный идентификатор. Позже вся записанная информация (кроме идентификатора) может быть изменена автором записи или администратором, имеющим доступ к данной коллекции.

Как уже было сказано, в настоящее время в базу данных включено описание 73 изогенных линий. В связи с большим числом записей просмотр возможен по фрагментам из 10 документов каждый. Фрагменты организованы по возрастанию порядковых номеров (уникальных кодов) документов и в алфавитном порядке названий.

14_Iso3.jpg (39237 bytes)

 

Опция “Просмотр”, представленная на титульной странице, мало эффективна для большого количества записей, и не обеспечивает быстрого нахождения нужного документа. В этом случае удобнее пользоваться опцией “Поиск”, которая позволяет найти любую комбинацию букв по всем полям таблицы (так называемый контекстный поиск), либо по конкретным полям таблицы, используя любую комбинацию полей (сложный поиск).

15_Iso5.jpg (41603 bytes)

 

16_Iso5_1.jpg (38372 bytes)

 

Для осуществления поиска не обязательно указывать полные слова и словосочетания, достаточно сокращенного варианта.

Представление документа

Для представления документа на экране формируется страница, в формате HTML. В каком виде будет подана информация, определяется шаблоном - т.е. формальным описанием представления каждого конкретного поля. В большинстве случаев можно воспользоваться шаблоном, предлагаемым по умолчанию (хотя всегда можно составить свой шаблон и вывести информацию в нужном виде). В нашем случае документ представлен двумя фотографиями, текстовым описанием и ссылками на литературу.

17_ANK-11_1.jpg (40742 bytes)

 

Некоторые поля, которые заполнялись при вводе документа, могут не выводиться на экран. (Например, поле - “Генетический фон” - необходимо только для поиска записи.). Или несколько полей могут выводиться вместе, образуя единый текстовый фрагмент (например, заголовок представлен информацией из четырех полей - “Тип генетического материала”, “Серия”, “Номер линии” и “Параллельные линии”).

Аналогично, представление в базе данных “Литература”. Библиографическое описание статьи складывается из информации, занесенной в разные поля, и только на экране эта информация сводится в единый текст.

Последним разделом представляемого документа является ссылка на литературные источники. Для оформления ссылок на базы данных, реализованные на сервере, или какие-то другие ресурсы существует поле особого типа - (ANCHOR). В нашем случае в документе есть только одно поле этого типа - Литература.

 

19_ANK-11_3.jpg (41956 bytes)

 

БД “Литература доступна не только при работе с нашей коллекцией - “Изогенные линии пшеницы”. Она может быть использована при заполнении всех баз данных создаваемых в рамках этого проекта. Мы надеемся, что по мере заполнения баз данных будут появляться новые литературные источники, которые пополнят БД “Литература”. Мы попытались максимально приблизить структуру описания литературы в базе данных к существующим стандартам, чтобы добиться совместимости нашей коллекции с аналогичными БД, представленными в Интернете.

 

21_Literatura.jpg (42711 bytes)

 

Оценочная часть Базы Данных “Изогенные линии пшеницы” в настоящее время находится в стадии разработки. На настоящий момент подготовлена информация о структуре продуктивности изогенных линий, включающая в себя характеристику 18 признаков - 13 измеренных и 5 расчетных. Эти данные в полной мере характеризуют изогенные линии и позволяют использовать практически все методы математической статистики для выявления эффекта маркирующего признака на продуктивность растения.

Эта информация будет представлена как составляющая часть описания образца в базе данных. Предполагается, что пользователь будет формировать выборку на основе информации, представленной в описательной части БД, после чего он сможет получить дополнительные данные из оценочной части.

Одной из наиболее злободневных проблем Интернет - ориентированных баз данных является обеспечение безопасности, и сохранения авторских прав. Первичная информация, которая собственно и является объектом авторского права генетиков и селекционеров не выводится на экран по запросу пользователя.

Пользователь получает возможность определить, какую статистическую обработку он будет проводить. Сейчас можно сказать наверняка, что будет реализована описательная статистика, корреляционный анализ и, возможно, факторный анализ. Дальнейшее развитие прогнозировать трудно.

Внешний пользователь получает доступ только к описательной части и результатам обработки данных - средним значениям, коэффициентам корреляции и т.д. То есть к той информации, которая обычно публикуется в научных статьях. С той лишь разницей, что выбор необходимой информации и методов обработки остается за пользователем. Кроме того, он может провести сравнение своих результатов с данными, хранящимися на сервере.

В ближайшее время (в течение 2001 года) планируется создание и заполнение еще одной базы данных - “Цитоплазматические аналоги Новосибирской 67”. Эта коллекция будет включать в себя описание серии аллоплазматических линий, созданных в секторе генетических основ селекции растений. Структура коллекции будет повторять структуру “Изогенных линий”, что значительно облегчит работу.

Задачей “на перспективу” является создание объединенной базы данных, описывающей генетические коллекции растений. В эту БД могут быть включены данные по моносомным линиям, коллекциям мутантов, коллекции образцов, несущие генетические маркеры, описание районированных коммерческих сортов.

 

 

address.gif (5411 bytes)