Учебное пособие 2-е исправленное и дополненное издание (с исправлениями для следующего издания) Санкт-Петербург 2008 icon

Учебное пособие 2-е исправленное и дополненное издание (с исправлениями для следующего издания) Санкт-Петербург 2008



Смотрите также:
  1   2   3   4   5   6   7



Институт систематики и экологии животных СО РАН

Лаборатория зоологического мониторинга


Инновационный центр защиты растений (ВИЗР РАСХН)


В.М. Ефимов, В.Ю. Ковалева


МНОГОМЕРНЫЙ АНАЛИЗ

БИОЛОГИЧЕСКИХ ДАННЫХ


Учебное пособие


2-е исправленное и дополненное издание

(с исправлениями для следующего издания)


Санкт-Петербург - 2008


В.М. Ефимов, В.Ю. Ковалева.

Многомерный анализ биологических данных: учебное пособие


Рецензент:

Ю.С.Равкин, заслуженный деятель науки РФ, д.б.н., проф.,
зав. лабораторией зоологического мониторинга Института
систематики и экологии животных СО РАН


В пособии рассмотрены многомерные методы исследования массовых биологических процессов и явлений: метод главных компонент, факторный анализ, дискриминантный анализ, регрессионные методы, многомерное шкалирование, нейронные сети. Основной упор делается на линейные и нелинейные методы анализа взаимного расположения объектов в многомерном пространстве и интерпретацию получаемых результатов с биологической точки зрения.

Пособие предназначено для научных работников и студентов биологических специальностей.


^ В.М.Ефимов, В.Ю.Ковалева, 2008

СОДЕРЖАНИЕ


Лекция 1. Введение. Необходимость многомерной обработки биологических данных. Геометрический подход: анализ расположения объектов в многомерном пространстве и направлений их изменчивости через корреляции с признаками. История (Ф.Гальтон, К.Пирсон, Р.Фишер, Г.Хотеллинг). Современное состояние: главные компоненты (факторный анализ), множественная регрессия, дискриминантный анализ, канонический анализ, шкалирование, карты Кохонена, нейронные сети. Возможность визуализации. Оценка достоверности и ее роль. …………………………….









^ Лекция 2. Предварительная работа с данными в популяционных исследованиях. Объекты. Признаки – свойства объектов, позволяющие отличать их друг от друга и измерять расстояние между ними. Типы признаков. Допустимые преобразования и сравнения. Средние и дисперсии выборки. Нормировки. …………………………………………………………...










^ Лекция 3. Линейная алгебра. Скаляры, вектора. матрицы. Евклидово пространство, точки, вектора, наборы векторов. Евклидово расстояние между точками, углы между векторами. Операции сложения и умножения. ортогональные, диагональные и единичные матрицы. Преобразования: перенос, поворот, растяжение. Центроиды, дисперсия. Корреляционная матрица. Собственные вектора. Главные компоненты. Повороты (факторный анализ). ……………………………………………………………………………










^ Лекция 4. Внутривыборочная изменчивость. Многомерный анализ как средство поиска биологического смысла при анализе изменчивости биологических объектов. Методы исследования: главные компоненты, факторный анализ. Отсечение дальних компонент. Примеры. …………….









^ Лекция 5. Межвыборочная изменчивость. t-критерий. Дискриминантный анализ. Проблема коллинеарности. Метод Царапкина. Объединенная внутривыборочная изменчивость. Предварительная обработка методом главных компонент. ………………………………………………………………










^ Лекция 6. Внешние факторы как возможные причины изменчивости. Линейная регрессия. Проекция. Проблема коллинеарности. Регрессия на главные компоненты. …………………………………………………………….










^ Лекция 7. Нелинейные методы, неевклидовы расстояния. Нейронные сети. Кластерный анализ. Многомерное шкалирование. Бутстреп…………










^ Лекция 8. Временные ряды. Теорема Такенса. Фазовые портреты. Гладкие и главные компоненты временных рядов. Методы прогноза временных рядов. Примеры .……………………………………………….










ЛЕКЦИЯ 9. Большие массивы. Достоверность……..………………





^ ЛЕКЦИЯ 1. Введение

Исследования в области биологии неизбежно связаны с биологическими объектами. В качестве объектов можно рассматривать особи, популяции, сообщества, их состояния, динамику, поведение и другие характеристики. Каждый объект обладает набором свойств. В некотором смысле каждый объект является совокупностью своих свойств. Однако нас интересуют не все свойства, а только те, по которым объекты различаются между собой, формируя биологическое разнообразие. Если свойств много, то возникает необходимость в специальных методах изучения, позволяющих охватить сразу всю их совокупность.

Одним из выдающихся достижений научного естествознания прошлого тысячелетия является разработка и строгая формализация понятия метрического пространства и его размерности (Александров, 1987). Являясь абстрактным обобщением окружающего нас и доступного нашим органам чувств трехмерного физического пространства, оно позволяет представлять точками многомерного пространства объекты любой природы. Сходство между объектами отображается расстоянием в многомерном пространстве. Тем самым создается возможность получать глубокие содержательные результаты, исследуя геометрические и динамические свойства взаимного расположения точек и переводя их на язык соответствующей области знаний (Пуанкаре, 1983). Кроме того, подобным образом можно прослеживать параллели и искать структурное единство в очень далеких друг от друга научных областях, так как они могут быть описаны одним и тем же математическим аппаратом. Физики с большим успехом реализуют подобную программу, начиная с середины XIX века, создав, среди всего прочего, теорию относительности и квантовую механику (Фейнман и др., 1978; Дирак, 1990). О будущей геометризации биологии писал В.И.Вернадский (1975).

Основными понятиями многомерного анализа являются понятия пространства, его размерности и взаимного расположения объектов в этом пространстве, а также расстояния или сходства между его объектами. В многомерном евклидовом пространстве расстояние между двумя любыми объектами полностью определяется теоремой Пифагора: квадратный корень из суммы квадратов разностей между значениями координат:



В биологических исследованиях невозможно обойтись без понятия выборки. Если предполагается, что выборка извлечена из генеральной совокупности объектов, распределенных в этом же пространстве в соответствии с некоторым вероятностным законом, то мы имеем дело с многомерным статистическим анализом.

Понятие пространства и его размерности пронизывает практически всю математику от древности до наших дней. Уже в аксиомах Евклида (III век до н.э.) в качестве первичных сущностей приняты точка, линия, плоскость, пространство, отражающие основные геометрические свойства окружающего нас трехмерного мира. Все остальные свойства строго логически выводятся из аксиом. В прикладных науках, астрономии и географии, (но не в самой геометрии) не позже III–II веков до н.э. сформировались различные системы координат (Эратосфен, Гиппарх, Птолемей).

Система Евклида была настолько совершенна, что вплоть до XIX века служила образцом интеллектуальных возможностей чистого разума. Одновременно она же была эталоном соответствия математики и реального мира – все ее утверждения немедленно могли быть подтверждены практикой. Собственно, никаких сомнений и не могло возникнуть, изначально предполагалось, что ее идеальные конструкции и лежат в основе реального мира, а возможные несоответствия вызваны исключительно неточностью измерений.

В XIX веке произошло невероятное событие – была открыта другая геометрия. Лобачевский, взяв за основу аксиомы Евклида и заменив постулат о параллельных на противоположный, построил геометрию, логически равноправную с геометрией Евклида, но, в отличие от нее, не имеющую никакого явного соответствия с реальным миром. После некоторой неразберихи стало ясно, что обе геометрии являются чисто математическими объектами, а вопрос о том, какая геометрия на самом деле лежит в основе реального мира, должны решать не математики, а физики. И хотя для геометрии Лобачевского позже и было найдено некоторое соответствие с реальностью, это уже не имело никакого значения и математики с энтузиазмом принялись конструировать все новые и новые геометрии. Появились пространства с произвольным и даже бесконечным числом измерений (Грассман, Кэли, Риман), с евклидовым, различными неевклидовыми расстояниями между объектами и даже совсем без метрики, аффинная и проективная геометрии, и т.д. Этому способствовало и то, что и в евклидовой геометрии к середине XVII века наконец появились координатные оси (Декарт). Для следующего шага, кажущегося сейчас очень простым, понадобился гений Ньютона, который ввел отрицательные координаты. Физики быстро добились огромных успехов, применяя геометрический подход и рассматривая многие свои задачи в подходящих пространствах большого, иногда бесконечного числа измерений и выбирая соответствующую метрику и удобную систему координат. Примерами могут служить теория относительности и квантовая механика.

Геометрический подход перспективен и для биологии. Он позволяет с единых позиций исследовать различные формы многомерной изменчивости биологических объектов, включая генетические, морфологические, функциональные и этологические характеристики особей, структуру, численность, пространственное распределение и динамику популяций и их параметров, а также влияние внешних и внутренних факторов. Таким единообразным способом могут быть решены научные проблемы самых различных областей биологии, которые не поддаются изучению традиционными биологическими средствами.

В связи с этим существует и очень актуальна следующая проблема: последовательный и корректный перевод биологических задач на язык геометрических расстояний и пространств для исследования математическими методами и интерпретация полученных результатов с целью выработки новых теоретических концепций биологии.

Подобная проблема стоит не только перед биологией. Как научные направления сформировались, например, психометрика – в психологии, хемометрика – в химии (Шараф и др., 1987; Родионова, Померанцев, 2006; Родионова, 2007), эконометрика – в экономике или клиометрия – в истории (Миронов, 1991). Однако математический аппарат в этих науках (кроме психометрики) на начальном этапе был полностью заимствован из биометрии, которая исторически возникла вследствие усилий небольшой группы английских генетиков начала XX века, Ф.Гальтона, К.Пирсона, Р.Фишера, и американского экономиста Г.Хотеллинга. Сейчас эта область науки носит название многомерного статистического анализа (Кендалл, Стьюарт, 1976; Айвазян, 1985). К классическим методам многомерного статистического анализа относятся множественная регрессия, метод главных компонент, дискриминантный и канонический анализы. Психометрика развивалась параллельно и почти независимо от биометрии. К ее основным достижениям в области разработки математического аппарата относятся факторный анализ и многомерное шкалирование.

В биологии потребность в многомерных методах первыми, по-видимому, ощутили систематики (Гейнке, Смирнов; цит по Любищев, 1982) и геоботаники, работающие со списками и обилиями видов в растительных сообществах, которые в начале ХХ века предложили различные эмпирические и по этой причине, как правило, неевклидовы, индексы сходства. Однако уместно отметить, что "расстояние" между объектами, измеряемое этими индексами, обычно рассматривалось без пространства, в котором можно было бы отобразить их взаимное расположение, и до сих пор наиболее употребительным для этих целей остается применение методов кластерного анализа, например, плеяд П.В.Терентьева или малоинформативных дендрограмм. Реже дело доходило до ординации объектов, т.е. расположения их в линейном порядке, наиболее совпадающем с матрицей взаимного сходства. И только самые компьютеризированные биологи используют сегодня методы многомерного шкалирования неевклидовых расстояний для визуального представления взаимного расположения изучаемых ими объектов в многомерном евклидовом пространстве (напр., Васильев и др., 2003) или самоорганизующиеся карты признаков Кохонена (Kohonen, 1982).

С евклидовым расстоянием дело обстояло намного проще, поскольку при его использовании изначально предполагается, что объекты помещены в некоторое многомерное координатное признаковое пространство. В начале XX века К.Пирсон предложил множественную регрессию и метод главных компонент, который сильно опередил свое время и остался незамеченным. В 1930-е годы Р.Фишер разработал, в первую очередь, для систематиков, дискриминантный анализ, сутью которого является определение направлений, в отображении на которые в максимальной степени различаются группы объектов. В те же годы Хотеллинг переоткрыл метод главных компонент – выявление направлений, в проекции на которые в максимальной степени различаются объекты внутри одной группы – а также канонический анализ. После этого стало ясно, что одними и теми же методами можно обрабатывать данные любой природы. А когда в 50-е годы к ним присоединился факторный анализ, который вообще пришел из психологии, и обнаружилось, что это те же главные компоненты, только с вращениями, то со спецификой обрабатываемых данных было покончено окончательно, она полностью ушла в интерпретацию.

Исторически многомерный анализ биологических данных начался с работ Френсиса Гальтона (1822–1911), который попытался рассмотреть зависимость между средним ростом родителей и средним ростом их потомков. Таким образом, каждая семья характеризовалась значениями двух переменных. Предположив линейный характер зависимости и построив ее график по методу наименьших квадратов, он обнаружил, что потомки в среднем ближе к популяционной средней, чем родители. Гальтон назвал это явление "регрессией" и с тех пор так называется любая функциональная зависимость одной переменной от одной или нескольких других, подобранная статистическими методами. {Ф.Гальтон – двоюродный брат Ч.Дарвина. Открыл антициклоны, основал дактилоскопию, евгенику, психометрику, генетику количественных признаков и биометрию (1889).}

Следующим был Карл Пирсон (1857–1936), который теоретически обосновал и разработал хорошо всем известный коэффициент линейной корреляции (коэффициент Браве–Пирсона) и много других коэффициентов, а также ввел понятие "множественной регрессии", т.е. функциональной зависимости одной переменной от нескольких других. Важнейшим частным случаем является множественная линейная регрессия. Кроме того, он первым предложил метод построения главных компонент (Pearson, 1901). Однако в то время на эту работу не обратили никакого внимания, да и сам Пирсон больше к ней не возвращался. Он же вместе с Уэлдоном и Гальтоном (консультант-редактор) основал журнал "Биометрика" для статистического изучения биологических проблем (1901).

Однако наиболее известным статистиком XX века, безусловно, является Рональд Фишер (1890–1962), который заложил основы дисперсионного анализа. Кроме того, он первым начал систематически рассматривать объекты и выборки в многомерном пространстве и анализировать их разнообразие и взаимное расположение. Ему принадлежит заслуга разработки многомерного обобщения дисперсионного анализа – дискриминантного анализа – как способа нахождения одномерного направления, в проекции на которое наиболее различаются выборки (лекция 5). И хотя сам дискриминантный анализ, как сейчас становится ясным, не совсем адекватен биологической реальности и им нужно пользоваться, принимая некоторые меры предосторожности, для своего времени это был мощный шаг вперед. Следует отметить, что Гальтон и Фишер были биологами по основному образованию (Кембридж) и роду деятельности (генетики). {Термин "корреляция", безусловно, имеет биологическое происхождение, восходя к Кювье и отражая представления о целостности организмов и взаимозависимости его частей. В XX веке эти представления активно развивались И.И.Шмальгаузеном (1982).} Пирсон получил сначала юридическое образование, потом стал математиком, затем увлекся теорией эволюции и генетикой и даже заведовал кафедрой евгеники.

В связи с ними нельзя не упомянуть имя Гарольда Хотеллинга (1895–1973), который предложил метод главных компонент (не зная работы К.Пирсона) и канонический корреляционный анализ (Hotelling, 1933, 1936). Последний метод в общем виде не нашел применения из-за трудностей в интерпретации (следует иметь в виду, что иногда каноническим называется дискриминантный анализ Фишера, который является частным случаем канонического анализа Хотеллинга, а иногда – совсем другие методы). Метод главных компонент сейчас применяется наиболее широко из всех многомерных методов и в следующих лекциях мы увидим, что это совсем не случайно. Хотеллинг был выдающимся американским экономистом, однако свою основополагающую работу по многомерному анализу опубликовал в психологическом образовательном журнале.

Все они заложили основы математической статистики и многомерного анализа, попутно разрабатывая недостающие разделы теории вероятностей, которой в оформленном виде тогда еще не существовало. Аксиоматическая теория вероятностей была создана позднее А.Н.Колмогоровым (1936). Далее обнаружилось, что биометрические методы применяются или их можно применять и в других науках и, следовательно, они не являются специфически биологическими. Произошло слияние и поглощение биометрии математической статистикой и теорией вероятности, которые разрабатываются профессиональными математиками.

Тем временем психологи шли своим путем. Начало научному тестированию в психометрике (сама психометрика развивалась к тому времени уже несколько десятков лет) положил все тот же Ф.Гальтон, который пришел к необходимости измерять, кроме прочих, и психические характеристики человеческой личности: «Психометрия, необходимо твердо сказать, означает искусство охватывать измерением и числом операции ума (mind)», «Пока феномены какой-нибудь отрасли знания не будут подчинены измерению и числу, они не могут приобрести статус и достоинство науки» (Galton, 1879; цит. по Бурлачук, 2002). Ясно понимая, что человека нужно рассматривать по всей совокупности свойств как единое целое, он предложил схему обследования, в которую входили морфологические (рост, вес), физиологические (сила удара, скорость реакции) и психологические (ответы на тесты) признаки и обследовал более 9 тыс. человек. Примерно в это же время Дж.Кеттел, ученик Ф.Гальтона, предложил набор тестов, направленных именно на измерение психических свойств человека, т.е., тех, которые, с точки зрения обыденного сознания, меньше всего поддаются измерению (Cattell, 1890). Достаточно быстро выяснилось, что для измерения любого свойства необходима шкала, в которой можно выражать результаты измерений с тем, чтобы можно было сравнивать различных людей или одних и тех же в разные моменты времени или в разных условиях, а также исследовать влияние различных факторов, например, наследственности и среды. В естественных и технических науках измерение означает сравнение с эталоном. Однако в психологии, в отличие от естественных и технических наук, очень трудно предложить какие-либо универсальные эталоны, вроде метра или килограмма. Поэтому каждый психолог разрабатывал свой собственный набор характеристик личности, а также набор тестов для их выявления. В конце концов психологи, и в этом состоит их несомненная заслуга, сформировали расширенное понятие измерения: измерение есть приписывание чисел свойствам объектов по определенным правилам (Stevens, 1946; Стивенс, 1960).

Наряду с бесчисленным множеством разработанных и вновь разрабатываемых тестов (уже в двадцатых годах прошлого века их насчитывалось больше тысячи) велась кропотливая работа по разработке теории тестирования и математической обработке получаемых результатов. Еще Ф.Гальтон заметил, что результаты тестов должны коррелировать друг с другом (и использовал соответствующий коэффициент, который сейчас называется коэффициентом линейной корреляции Браве-Пирсона), а Ч.Спирмен (Spearman, 1904а, 1904б, 1927) положил это в основу своей теории -фактора – генерального фактора, который должен обнаруживаться во всех тестах и который можно интерпретировать как проявление некоей умственной энергии. Он же предложил ранговый коэффициент корреляции, носящий теперь его имя. Фактически речь шла об одномерной шкале измерения интеллектуальных способностей. Но для того, чтобы отобразить какие-либо психологические особенности личности на числовой шкале, можно было воспользоваться двумя путями. Первый – измерять как можно больше разнообразных характеристик, отражающих эту особенность, и брать их линейную или нелинейную комбинацию – факторный анализ (Thurstone, 1935, 1938) или метод главных компонент (Pearson, 1901; Hotelling, 1933). По историческим причинам психометрики применяли факторный анализ, а биометрики – метод главных компонент. Второй – предположить, что человек (эксперт) интуитивно ощущает расстояние на этой шкале и относительно двух объектов всегда может сказать, у какого из объектов эта особенность более выражена, чем у другого, или относительно двух пар объектов всегда может сказать, какая пара находится друг к другу ближе, чем другая. Отсюда с помощью математических операций можно определить упорядочивание на самой шкале или даже координаты объектов – шкалирование, неметрическое или метрическое.

В оба направления важный вклад внес Л.Терстоун, который использовал метод парных сравнений Кона для шкалирования одномерных различий между объектами (Thurstone, 1927), а также свой вариант факторного анализа (Thurstone, 1935, 1938). В отличие от подхода Ч.Спирмена, где интерпретация была определена заранее, факторный анализ Терстоуна допускал несколько групповых факторов и мог применяться к данным любой природы, а не только психологическим. Следует специально отметить, что у психологов речь шла не столько о математической модели, в которой естественно рассматривать несколько факторов, а один – считать просто частным случаем, сколько о том, какой именно вариант реализуется в действительности. Фактически Л.Терстоун предложил технологию, в которой сначала на основе метода парных сравнений строились одномерные шкалы, а затем из них конструировались групповые факторы с помощью факторного анализа. Таким образом, каждый объект получал набор координат и мог быть представлен точкой в многомерном пространстве. Факторный анализ Терстоуна требовал дополнительной интерпретации, что не нравилось многим психологам и вызвало их критику, но универсальность постановки привела к тому, что через некоторое время он вышел за пределы психологии и де-факто стал стандартом для других наук. Довольно скоро стало ясно, что, по сути, это те же главные компоненты, только с вращениями.

Если считать, что эксперт может оценить различия между парами объектов настолько, что можно их упорядочить, то можно поставить задачу определения координат объектов в многомерном пространстве с заданной метрикой (удобнее всего, евклидовой) таким образом, чтобы ранги различий как можно ближе соответствовали рангам дистанций между этими же парами в многомерном пространстве. Эти соображения легли в основу дистанционной модели М.Ричардсона (Richardson, 1938) – первого варианта неметрического многомерного шкалирования. Однако, из-за отсутствия вычислительных возможностей в то время этот метод не мог быть реализован. Поэтому В.Торгерсон предложил рассматривать различия между парами объектов как прямые аналоги расстояний в многомерном пространстве и разработал метод, позволяющий приписывать объектам координаты с сохранением расстояний – метрическая модель Торгерсона (Torgerson, 1952; Торгерсон, 1972). Эту модель уже можно было реализовать на компьютерах, что и было сделано. Но ее условия применимости оказались слишком жесткими, многие меры близости, применяемые психологами, явно не соответствовали аксиомам метрического расстояния, поэтому Р.Шепард и Дж.Крускал вернулись к первоначальным предположениям дистанционной модели М.Ричардсона (Shepard, 1962; Kruskal, 1964а, 1964б; Шепард, 1981). Р.Шепард построил алгоритм неметрического шкалирования, минимизирующий различия между двумя упорядочениями: различий в исходной матрице данных и дистанций в многомерном пространстве. Особенно обнадежило то обстоятельство, что при неметрических предпосылках алгоритм практически однозначно воссоздавал метрическую структуру данных за счет избыточности числа связей между объектами. Дж.Крускал модифицировал этот алгоритм, предложив использовать квазиметрическую меру различий между двумя упорядочениями (“стресс”), сохраняющуюся при монотонных преобразованиях, и известные градиентные методы минимизации функций многих переменных.

Ситуация значительно улучшилась по сравнению с метрической моделью Торгерсона, однако по трудоемкости вычислений алгоритм Крускала имел четвертый порядок относительно числа объектов. Даже на современных персональных компьютерах это означает обработку не более сотни объектов. Для многих психологических работ этого вполне достаточно, но с многомерным шкалированием случилось то же самое, что и с факторным анализом, – он вышел за пределы психологии и стал применяться в других науках, а там часто требуются другие объемы, например, в молекулярной генетике. Совсем недавно Й.Тагучи и Й.Ооно (Taguchi, Oono, 2005) обнаружили, что возврат к первоначальной схеме Р. Шепарда сокращает время счета более чем на порядок и, соответственно, позволяет обрабатывать тысячи объектов. Это означает резкое расширение потенциальной сферы применимости методов многомерного шкалирования. В ближайшие 10-15 лет следует ожидать взрыва работ по этой тематике, в том числе, и в биологических и психологических исследованиях.

Все эти методы пережили второе рождение с появлением компьютеров, особенно персональных. Сложность вычислительных процедур и объем данных перестали быть ограничением и сейчас классические многомерные методы биометрии входят практически во все профессиональные пакеты статистического анализа данных. Хемометрики активно используют -регрессию, первоначально появившуюся в эконометрике (Boardman et al., 1981; Wold, 1985). Кроме того, за пределами многомерного статистического анализа, наряду с факторным анализом (Иберла, 1980) и многомерным шкалированием (Дэйвисон, 1988), появились специфические компьютерные методы, такие, как самоорганизующиеся карты признаков (Kohonen, 1982) и нейронные сети (Горбань, Россиев, 1996). В отличие от классических методов многомерного анализа, они не опираются ни на какие предположения о распределении данных в генеральной совокупности и не используют расчета достоверности. По строгости теории они значительно уступают методам многомерного статистического анализа. Их прообразом является кластерный анализ (Дидэ, 1985), который тоже появился на заре XX века, однако, вряд ли его можно относить к многомерным методам, так как в нем вообще нет идеи геометрического пространства, в котором расположены объекты. И шкалирование и карты Кохонена как раз дополняют кластерный анализ геометрией взаимного расположения объектов.

С точки зрения практических приложений ситуация выглядит иначе. Очень широко применяются в биологических исследованиях и хорошо поддаются содержательной интерпретации факторный анализ и его разновидность, метод главных компонент, и кластерный анализ, как правило, в виде дендрограмм. Из-за трудностей в интерпретации практически не используется канонический анализ. Часто применяются множественная регрессия и дискриминантный анализ, однако интерпретировать их с биологических позиций гораздо труднее, чем факторный и кластерный анализы. Карты Кохонена и нейронные сети очень перспективны, однако они только входят в практику обработки биологических данных. Заслуживают большего внимания, хорошо интерпретируются, но редко используются методы многомерного шкалирования. Очень мало используется биологами, и совершенно напрасно, -регрессия.

Вместе с тем, ситуация в биологии и смежных науках продолжает оставаться неудовлетворительной. Во-первых, основная масса биологов недостаточно знакома с математикой и информатикой и предпочитает использовать более простые, хотя и давно устаревшие приемы. В качестве примера можно указать на большую популярность дендрограмм даже среди лидеров современной биологии – молекулярных генетиков, не говоря уж о геоботаниках и систематиках.

Во-вторых, в основном, по историческим причинам, геометрическая суть методов многомерного анализа оказалась скрыта за плотной завесой вероятностно-статистических представлений и понятий. В результате вместо анализа содержательной, биологической стороны дела вопрос все чаще сводится к крайне важному, но все же никак не первичному, определению достоверности полученных результатов. Это не означает, что нужно совсем отказываться от расчета достоверности. Иметь представление о статистической устойчивости получаемых результатов, безусловно, нужно. Хорошим вспомогательным, специфически компьютерным и вполне оправдавшим себя на практике средством, является, например, бутстреп-метод (Efron, 1979, 1982; Диаконис, Эфрон, 1983) (лекция 7). Не нужно только абсолютизировать значимость подобных расчетов.

В-третьих, некоторые из широко распространенных и стандартных методов многомерного статистического анализа, в частности, дискриминантный анализ и множественная регрессия, используют такие линейные преобразования пространства, которые изменяют расстояния между объектами в ходе обработки и, соответственно, искажают содержательный смысл получаемых результатов. Оставаясь безупречно правильными с математической точки зрения, эти методы вместе с рассчитываемой ими достоверностью не совсем адекватны той реальности, для изучения которой предназначены (лекции 5–6).

Таким образом, степень использования многомерных методов в биологии зависит не столько от того, насколько они теоретически обоснованы, сколько от того, насколько они помогают получать биологически интерпретируемые результаты. Это, в свою очередь, зависит от того, насколько биологическая сущность сходства и различия объектов воспроизводится геометрией взаимного расположения отображающих их точек в многомерном пространстве. Наиболее работоспособны те методы, которые в минимальной степени искажают задаваемые исследователем расстояния между объектами.

Особенностью предлагаемого курса является анализ не взаимосвязей между признаками, а расположения объектов в образованном признаками пространстве и направлений изменчивости через корреляции с признаками, а также доведения этого анализа до биологической интерпретации. Главная ценность многомерного анализа заключается не столько в определении достоверности получаемых результатов, сколько в содержащейся в нем возможности визуализировать промежуточные и окончательные результаты анализа и интерпретировать их с биологической точки зрения. Прежде, чем исследовать гипотезу, ее сначала надо выдвинуть. А до того, как выдвинуть, ее еще надо увидеть. Современная тенденция как раз и заключается в стремлении визуализировать данные, даже в ущерб достоверности и теоретической обоснованности. Хороший результат должен быть представлен в такой форме, чтобы он был очевиден (оче-виден = виден очам) для специалистов в соответствующей предметной области. Когда такой очевидности достигнуть не удается, приходится прибегать к статистическим критериям.

Математическая статистика как наука сформировалась только во второй половине XX века, а представление, что естественно-научные результаты только тогда являются доказательными, когда они обоснованы статистически, стало более или менее общепринятым только в последней четверти XX века. Возникает вполне законный вопрос: а как же наука обходилась без такого обоснования несколько тысяч лет? Архимед не садился в ванну сто раз, чтобы набрать статистику. Согласно легенде, ему хватило одного, чтобы увидеть закон. Обошелся без статистических критериев и Ньютон, когда записал в виде математического выражения закон всемирного притяжения (сам закон принадлежит Гуку). В его время оценка показателя степени при в формуле



была возможна с точностью порядка 4%. Но он не усомнился в том, что этот показатель строго равен двум для всей Вселенной, явно и далеко выходя за пределы статистической обоснованности. И оказался прав. Сейчас точность оценки этого показателя составляет около десятка нулей после запятой и он по-прежнему считается равным двум, хотя время от времени и выдвигаются предположения, что он все-таки чуть-чуть отличается от двойки.

Что касается достоверности, то надо ясно понимать ее место. Обычная статистическая практика заключается в том, что мы идеализируем те условия, в которых были получены данные, например, предполагаем существование и многомерную нормальность распределения объектов, отсутствие систематических ошибок, бесконечно большой размер выборки и т.д. В этих идеализированных условиях мы рассчитываем вероятность случайного получения нашего результата и, если она оказывается достаточно мала, делаем вывод, что наша гипотеза статистически подтверждается. Безусловно, это очень важный косвенный довод в пользу гипотезы, но никак не окончательный вердикт. Это примерно то же самое, что предполагать, что чемпион по стрельбе в тире будет самым лучшим охотником в тайге или снайпером на войне. Поэтому главным критерием всегда останется биологический смысл, а окончательное слово всегда принадлежит специалистам в соответствующей предметной области.

В курсе рассмотрен ряд задач, в основном, из области популяционной экологии животных, которые решаются с помощью методов многомерного анализа и которые нельзя было бы решить без этих методов. Спектр задач достаточно широк и хорошо иллюстрирует возможности геометрического подхода к анализу биологических объектов.

Чего нет в этом курсе? Нет дисперсионного анализа и теории планирования эксперимента. Нет теории проверки гипотез и критических областей, традиционно входящих в курсы математической статистики. Нет проверки нормальности. Для временных рядов нет спектрального анализа, устранения тренда и разложения в ряд Фурье. Все, кому это интересно, отсылаются к специальной литературе.





страница1/7
Дата конвертации06.11.2013
Размер1,61 Mb.
ТипУчебное пособие
  1   2   3   4   5   6   7
Разместите кнопку на своём сайте или блоге:
rud.exdat.com


База данных защищена авторским правом ©exdat 2000-2012
При копировании материала укажите ссылку
обратиться к администрации
Документы