Метод присоединения соседей

15.01.2023


Mетод присоединения соседей (в лингвистике «метод ближайших соседей») — алгоритм биоинформатики и лингвистики, разработанный Наруя Сайтоу и Масатоcи Нэи в 1987 году. Это восходящий кластерный метод для создания филогенетических деревьев. Обычно используется для деревьев, основанных на ДНК или белковых последовательностях, в лингвистике — на данных лексикостатистики, реже фоно- или морфостатистики. Для его реализации необходимо вычислить расстояния между каждой парой таксонов (например, видов или последовательностей).

Алгоритм

Работа алгоритма начинается с полностью неразрешённого дерева с топологией «звезда».

  • Вычисляется матрица попарных расстояний между таксонами.
  • По текущей матрице расстояний считается Q {displaystyle Q} -матрица.
  • Ищется пара различных таксонов i {displaystyle i} и j {displaystyle j} (то есть i ≠ j {displaystyle i eq j} ), для которых значение Q ( i , j ) {displaystyle Q(i,j)} — наименьшее. Эти таксоны присоединяются к новому узлу, который, в свою очередь, соединяется с центральным узлом. На рисунке справа f {displaystyle f} и g {displaystyle g} присоединены к новому узлу u {displaystyle u} .
  • Рассчитывается расстояние от каждого из присоединённых таксонов до нового узла.
  • Рассчитывается расстояние от каждого из оставшихся таксонов до нового узла.
  • Формируем новую матрицу попарных расстояний: из текущей матрицы удаляем строки и столбцы, соответствующие только что присоединённым таксонам и добавляем новую вершину и, вычисленные в 5 пункте, расстояния.
  • Повторяем шаги 2 — 5, пока дерево не станет полностью разрешённым и не станут известны длины всех ветвей.
  • Q-матрица

    Q {displaystyle Q} -матрица рассчитывается по матрице расстояний между n {displaystyle n} таксонами следующим образом:

    где d ( i , j ) {displaystyle d(i,j)} − расстояние между таксонами i {displaystyle i} и j {displaystyle j} .

    Расстояние между парой присоединённых соседей и новым узлом

    Для каждого из присоединённых таксонов используется следующая формула для расчета расстояний до нового узла:

    и:

    δ ( g , u ) = d ( f , g ) − δ ( f , u ) {displaystyle delta (g,u)=d(f,g)-delta (f,u)quad }

    Таксоны f {displaystyle f} и g {displaystyle g} − пара присоединённых таксонов и u {displaystyle u} − новый узел. Ветви ( f , u ) {displaystyle (f,u)} и ( g , u ) {displaystyle (g,u)} и их длины δ ( f , u ) {displaystyle delta (f,u)} и δ ( g , u ) {displaystyle delta (g,u)} − теперь фиксированная часть дерева; они не изменятся и ни на что не повлияют на следующих шагах алгоритма.

    Расстояние между оставшимися таксонами и новым узлом

    Для каждого таксона, не участвовавшего в предыдущем шаге, рассчитывается расстояние до нового узла:

    где u {displaystyle u} — новый узел, k {displaystyle k} — узел, до которого мы хотим рассчитать расстояние, f {displaystyle f} и g {displaystyle g} — таксоны только что присоединённой пары.

    Сложность

    Метод присоединения соседей для n {displaystyle n} таксонов требует n − 3 {displaystyle n-3} итерации. На каждой итерации требуется рассчитать Q {displaystyle Q} -матрицу. На первом шаге размер Q {displaystyle Q} -матрицы — n × n {displaystyle n imes n} , на следующем шаге — ( n − 1 ) × ( n − 1 ) {displaystyle (n-1) imes (n-1)} и так далее. Реализация алгоритма без оптимизации имеет сложность O ( n 3 ) {displaystyle O(n^{3})} ; существуют реализации, использующие эвристический подход с меньшим временем выполнения в среднем.

    Пример

    Предположим, у нас есть пять таксонов ( a , b , c , d , e ) {displaystyle (a,b,c,d,e)} со следующей матрицей расстояний:

    По формуле (1) вычислим Q {displaystyle Q} -матрицу (диагональные элементы матрицы не используются и здесь опущены):

    Наименьшее значение матрицы Q ( a , b ) = − 50 {displaystyle Q(a,b)=-50} , значит к новому узлу u {displaystyle u} присоединяем таксоны a {displaystyle a} и b {displaystyle b} . Вычислим расстояния от a {displaystyle a} и b {displaystyle b} до u {displaystyle u} по формуле (2):

    δ ( a , u ) = 1 2 d ( a , b ) + 1 2 ( 5 − 2 ) [ ∑ k = 1 5 d ( a , k ) − ∑ k = 1 5 d ( b , k ) ] = 5 2 + 31 − 34 6 = 2 {displaystyle delta (a,u)={frac {1}{2}}d(a,b)+{frac {1}{2(5-2)}}left[sum _{k=1}^{5}d(a,k)-sum _{k=1}^{5}d(b,k) ight]quad ={frac {5}{2}}+{frac {31-34}{6}}=2} δ ( b , u ) = d ( a , b ) − δ ( a , u ) = 5 − 2 = 3 {displaystyle delta (b,u)=d(a,b)-delta (a,u)quad =5-2=3}

    По формуле (3) вычисляем расстояния от новой вершины до оставшихся вершин:

    d ( u , c ) = 1 2 [ d ( a , c ) + d ( b , c ) − d ( a , b ) ] = 9 + 10 − 5 2 = 7 {displaystyle d(u,c)={frac {1}{2}}[d(a,c)+d(b,c)-d(a,b)]={frac {9+10-5}{2}}=7} d ( u , d ) = 1 2 [ d ( a , d ) + d ( b , d ) − d ( a , b ) ] = 9 + 10 − 5 2 = 7 {displaystyle d(u,d)={frac {1}{2}}[d(a,d)+d(b,d)-d(a,b)]={frac {9+10-5}{2}}=7} d ( u , e ) = 1 2 [ d ( a , e ) + d ( b , e ) − d ( a , b ) ] = 8 + 9 − 5 2 = 6 {displaystyle d(u,e)={frac {1}{2}}[d(a,e)+d(b,e)-d(a,b)]={frac {8+9-5}{2}}=6}

    Таким образом, новая матрица попарных расстояний имеет вид:

    Соответствующая ей Q {displaystyle Q} -матрица:

    Теперь наша матрица принимает минимальное значение на двух парах: u {displaystyle u} , c {displaystyle c} и d {displaystyle d} , e {displaystyle e} . Конечное филогенетическое дерево не зависит от того, какую пару мы выберем. Для определённости, выберем u {displaystyle u} и c {displaystyle c} , присоединим их к новому узлу v {displaystyle v} . Как и в первой итерации вычислим расстояния от u {displaystyle u} и c {displaystyle c} до v {displaystyle v} . Они равны δ ( u , v ) = 3 {displaystyle delta (u,v)=3} и δ ( c , v ) = 4 {displaystyle delta (c,v)=4} . Расстояния от новой вершины v {displaystyle v} до оставшихся узлов d {displaystyle d} и e {displaystyle e} равны:

    d ( v , d ) = 1 2 [ d ( u , d ) + d ( c , d ) − d ( u , c ) ] = 7 + 8 − 7 2 = 4 {displaystyle d(v,d)={frac {1}{2}}[d(u,d)+d(c,d)-d(u,c)]={frac {7+8-7}{2}}=4} d ( v , e ) = 1 2 [ d ( u , e ) + d ( c , e ) − d ( u , c ) ] = 6 + 7 − 7 2 = 3 {displaystyle d(v,e)={frac {1}{2}}[d(u,e)+d(c,e)-d(u,c)]={frac {6+7-7}{2}}=3}

    Теперь матрица попарных расстояний имеет вид:

    Таким образом, мы получили полностью разрешённое дерево. Однако, для полноты стоит провести ещё одну итерацию:

    Q 3 ( v , e ) = ( 3 − 2 ) d ( v , e ) − ∑ k = 1 3 d ( v , k ) − ∑ k = 1 3 d ( e , k ) = 3 − 7 − 6 = − 10 {displaystyle Q_{3}(v,e)=(3-2)d(v,e)-sum _{k=1}^{3}d(v,k)-sum _{k=1}^{3}d(e,k)=3-7-6=-10}

    Матрица попарных расстояний:

    Выберем пару v {displaystyle v} и d {displaystyle d} и создадим новую вершину w {displaystyle w} . Расстояния до этой вершины от вершин v {displaystyle v} , d {displaystyle d} , e {displaystyle e} равны соответственно:

    δ ( v , w ) = 1 2 d ( v , d ) + 1 2 ( 3 − 2 ) [ ∑ k = 1 3 d ( v , k ) − ∑ k = 1 3 d ( d , k ) ] = 4 2 + 7 − 7 2 = 2 {displaystyle delta (v,w)={frac {1}{2}}d(v,d)+{frac {1}{2(3-2)}}left[sum _{k=1}^{3}d(v,k)-sum _{k=1}^{3}d(d,k) ight]quad ={frac {4}{2}}+{frac {7-7}{2}}=2} δ ( w , d ) = d ( v , d ) − δ ( v , w ) = 4 − 2 = 2 {displaystyle delta (w,d)=d(v,d)-delta (v,w)=4-2=2} δ ( w , e ) = d ( v , e ) − δ ( v , w ) = 3 − 2 = 1 {displaystyle delta (w,e)=d(v,e)-delta (v,w)=3-2=1}

    Матрица смежности:

    Таким образом, мы узнали длины всех ветвей и получили полное филогенетическое дерево, показанное на рисунке. Приведённый пример представляет собой идеальный случай: заметим, что если двигаться от одного таксона к другому по ветвям дерева и суммировать длины пройденных ветвей, результат будет равен расстоянию между таксонами в первоначальной матрице расстояний. Например, пройдя от узла d {displaystyle d} к узлу b {displaystyle b} , мы получим 2 + 2 + 3 + 3 = 10 {displaystyle 2+2+3+3=10} . Про матрицу, в которой расстояния согласованы таким образом с каким-либо деревом, говорят, что она аддитивна — свойство, редко встречающееся на практике. Однако важно заметить: если на вход методу присоединения соседей подать аддитивную матрицу расстояний, гарантируется, что в результате работы метода будет построено дерево, согласованное с этой матрицей.

    Метод присоединения соседей как минимальная эволюция

    Метод присоединения соседей можно рассматривать как жадный алгоритм для оптимизации дерева в соответствии с критерием «сбалансированной минимальной эволюции» (БМЭ). Для каждой топологии БМЭ определяет длину дерева (сумму длин ветвей) как взвешенную сумму расстояний из матрицы расстояний, с весами, зависящими от топологии дерева. Оптимальная топология БМЭ — та, при которой длина дерева минимальна. Метод присоединения соседей на каждой итерации соединяет пару таксонов, которые дадут наименьший вклад в длину строящегося дерева. Эта процедура не гарантирует нахождение дерева с топологией, оптимальной по критерию БМЭ, тем не менее, она часто находит оптимальное или близкое к оптимальному дерево.

    Достоинства и недостатки

    Главное достоинство метода в том, что он быстрый — в частности, из-за того, что алгоритм работает за полиномиальное время. Это делает его приемлемым для анализа больших объёмов данных (сотни или тысячи таксонов) и для бутстрэпа , для которых использование других методов анализа (например, максимальная экономия, метод максимального правдоподобия) затруднительно с точки зрения количества вычислений.

    Метод присоединения соседей имеет свойство выдавать правильное дерево на выходе, если на вход подается правильная матрица расстояний. Более того, правильная топология дерева гарантирована, если матрица расстояний «примерно аддитивна», то есть если каждое значение в матрице расстояний отличается от настоящего расстояния менее, чем на половину длины кратчайшей ветви дерева.

    На практике матрица расстояний редко удовлетворяет этому условию, но метод присоединения соседей часто выдает дерево с правильной топологией в любом случае. Метод присоединения соседей корректно работает с примерно аддитивной матрицей расстояний, потому что она статистически состоятельна для многих эволюционных моделей; имея входные данные подходящей длины, метод с высокой вероятностью восстановит настоящее дерево. По сравнению с UPGMA метод присоединения соседей имеет преимущество: он не предполагает, что все поколения эволюционируют с одинаковой скоростью (гипотеза молекулярных часов).

    Тем не менее, вместо метода присоединения соседей часто применяют другие филогенетические методы, не полагающиеся на матрицу расстояний и обеспечивающие большую точность в большинстве случаев.

    Реализации и варианты

    Существует много программ, реализующих метод присоединения соседей.

    RapidNJ и NINJA — быстрые реализации, время работы которых обычно примерно пропорционально квадрату числа таксонов.

    BIONJ и Weighbor — варианты метода присоединения, повышающие его точность путём использования факта, что меньшие расстояния в матрице расстояний обычно лучше изучены, чем большие.

    FastME — реализация близкого метода сбалансированной минимальной эволюции.