Grandes filogenias compreendendo centenas ou milhares de espécies individuais são frequentemente montadas usando sequências de um pequeno número de loci genéticos disponíveis em bancos de dados online como o Genbank. Isso pode ser problemático porque a filogenia é limitada pelo número de loci disponíveis e porque os usuários devem confiar na identificação taxonômica precisa de sequências que frequentemente não estão ligadas a comprovantes de espécimes específicos, de modo que suas determinações possam ser confirmadas.

Os herbários representam um recurso enorme e subutilizado para o sequenciamento de marcadores de espécimes raros e incomuns, e têm as vantagens de determinações confiáveis ​​e verificáveis ​​e informações morfológicas prontamente disponíveis. No entanto, algumas desvantagens dos espécimes de herbário para este tipo de trabalho são o DNA altamente fragmentado que os espécimes de comprovantes normalmente fornecem e o trabalho envolvido na movimentação de um grande número de amostras do comprovante para o laboratório para completar a sequência.

Em um novo artigo publicado em Aplicações em Ciências Vegetais, os autores principais Ryan A. Folk e Heather R. Kates e seus colegas apresentam um sistema de gerenciamento integrado para agilizar toda a amostragem para o pipeline de sequenciamento. Chamado SLIMS (Sistema de Gerenciamento de Informações de Amostra para Laboratório), o sistema usa identificadores exclusivos e um banco de dados taxonômico que vincula a amostra a imagens de espécimes e resultados de laboratório úmido. Uma vez amostradas, as imagens vinculadas dos comprovantes são carregadas na plataforma de ciência cidadã Notes from Nature, onde os metadados são gerados por meio da transcrição de rótulos, enquanto o próprio tecido passa por uma extração de DNA de alto rendimento e um protocolo de sequenciamento otimizado para espécimes de herbário.

Imagem: Folk et al. 2021.

Os autores aplicaram seu pipeline de gerenciamento a uma filogenia de aproximadamente 15,000 espécies do clado fixador de nitrogênio das angiospermas, produzindo um conjunto de dados que compreende cerca de 50% de todas as espécies do clado. No geral, o uso do sistema de gerenciamento levou à amostragem de herbário levando cerca de 10 pessoas-minutos por espécime e extração de DNA levando cerca de 5 pessoas-minutos por amostra. A taxa de erro de amostragem foi de aproximadamente 1.2% e a taxa de falha de sequenciamento foi de apenas 0.2%.

Os autores otimizaram o pipeline para suas necessidades filogenéticas específicas, mas o ofereceram como uma série de scripts modulares, em vez de um único software unificado, para que possa ser facilmente adaptado às necessidades de vários projetos e tipos de amostra. “Um trabalho considerável foi dedicado a fluxos de trabalho de digitalização de alto rendimento em herbários; métodos paralelos para permitir outras análises posteriores de espécimes de herbário podem um dia permitir que muitas das coleções de hoje sejam associadas a dados moleculares e outros dependentes de amostragem destrutiva”, escrevem eles. “Prevemos que as abordagens de amostragem de alto rendimento como a apresentada aqui serão uma parte padrão do kit de ferramentas filogenômicas em futuros projetos de grande escala”.