Em formação

A árvore de abrangência mínima nos diz algo útil sobre a ancestralidade evolucionária?

A árvore de abrangência mínima nos diz algo útil sobre a ancestralidade evolucionária?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

A questão migrou da pilha de troca de bioinformática devido à falta de interesse.

Eu sou novo em bioinformática e tenho lido um livro de bioinformática, e parece que calcular uma árvore filogenética é um processo bastante complicado.

Estou me perguntando se a geração da árvore de abrangência mínima (MST) a partir de uma matriz de similaridade forneceria uma aproximação decente para a árvore filogenética real, ou seja, fornecer algumas informações sobre a ancestralidade evolutiva de uma coleção de organismos. Meu pensamento é que os animais divergindo de ancestrais antigos sempre estarão mais distantes do que os animais que divergiram recentemente, então o MST vai pelo menos me mostrar quais animais são geneticamente relacionados e quais são geneticamente distantes.

Sei que isso não é exatamente a mesma coisa que uma árvore filogenética, mas parece me dar algumas das mesmas informações fornecidas por uma árvore filogenética, a saber, quais animais estão intimamente relacionados geneticamente e quais são parentes distantes.

Para referência, estou medindo a similaridade com base na métrica de distância de compressão normalizada (NCD). A métrica é definida em "Clustering by Compression" por Cilibrasi e Vitanyi.

Aqui está um exemplo de MST usando o conjunto de dados do documento referenciado. Algumas partes fazem sentido com meu conhecimento rudimentar de biologia, como o agrupamento de primatas. Outras partes são novas para mim e não tenho certeza se as relações são apenas uma característica acidental da métrica, MST ou se são reais. Por exemplo, as vacas estão mais relacionadas às baleias do que aos cavalos, de acordo com o MST, os gatos e cães parecem ter evoluído das focas ou vice-versa, e os porcos são relacionados a uma grande variedade de animais: desde morcegos a coelhos e baleias.

Observe, os nós 'randgen' são sequências de DNA geradas aleatoriamente que adicionei ao conjunto de dados como uma verificação de sanidade. Como esperado, eles estão isolados em um galho em vez de se misturarem à população de sequências de DNA de animais reais. A razão pela qual eles estão agrupados é porque eu repito cada sequência de DNA 40 vezes para amplificar o sinal, e repetidas curtas subsequências aleatórias tornam-se compressíveis. As sequências aleatórias de DNA são provavelmente agrupadas porque tendem a compartilhar subsequências aleatórias, enquanto as sequências de DNA de mamíferos são ordenadas e têm menos subsequências aleatórias.

Aqui está o repositório para reproduzir a árvore. https://github.com/yters/ncd


Seu gráfico está omitindo nós da árvore, pontos de ramificação, que são essenciais para árvores e filogenia.

Ao ler o arquivo de dados, você deve contar os colchetes ((())) porque eles significam onde a árvore tem nós, ancestrais comuns.

Você deve gerar árvores de filogenia simples, antes de fazer mineração de dados complexos para similaridade. Os nomes estão em latim? existem números de distâncias genéticas? Que formato e dados você está usando? Você deu nomes de animais comuns. você pode ter que usar um banco de dados de nomes comuns e latinos para poder pesquisar "tigre" ... esse banco de dados retornará "panthera tigris tigris" ... E então você pode começar a rastejar para cima e para baixo nos galhos das árvores para procurar animais relacionado com tigris tigris, contando parênteses e marcando espécies próximas a esse nome.

Para evitar que a árvore exploda para 5.000 animais, você pode 1 / definir uma profundidade de pesquisa. Profundidade 5, Cinco, não irá além de cinco colchetes: (((((panthera_tigris_tigris) (leão) (chita)))))) 2 / representam uma fração aleatória da espécie (1/100 dá 50 animais de uma árvore de 5.000 ) 3 / usar medidas estatísticas para selecionar certos animais com base na mineração de dados.

Se você quiser viajar de baleias a macacos, terá a maior parte da família dos mamíferos e poderá contar dezenas de nós e colchetes.

Não que a análise de 5.000 espécies tenha uma grande carga computacional que pode levar 1 hora para ser lida uma vez, quanto mais 40 vezes!

Qualquer que seja a estatística que você esteja usando para medir similaridade, número de colchetes / números de distância genética, você deve ter representado árvores uma vez como galhos, nós e folhas, porque é isso que os dados de árvore devem representar.

Eu recomendo que você desenhe uma árvore usando nós e seleção aleatória de animais, como 1% de chance de o animal ser desenhado na árvore final. Quando sua árvore tiver galhos e estiver desenhando bem, altere a linha de seleção de 1% para a seleção MST / MCD complexa.


Assista o vídeo: Problema da árvore geradora mínima (Fevereiro 2023).