A soja processada é o a maior fonte mundial de proteína animal e a segunda maior fonte de óleo vegetal.

A identificação de genes que controlam características importantes fornece a base para melhorias genéticas para o desenvolvimento de culturas que produzem mais rendimento para suprir uma população crescente e são resistentes a estresses bióticos (por exemplo, pragas de insetos) e abióticos (por exemplo, mudanças climáticas). Um transcriptoma representa aquela pequena porcentagem do código genético que é transcrito em moléculas de RNA. Ao estudar transcriptomas, os pesquisadores esperam determinar quando e onde os genes são ativados ou desativados em vários tipos de células e tecidos quando expostos a diferentes tratamentos. Na última década, mais de 3000 amostras de dados transcriptômicos de soja foram acumuladas em repositórios públicos.

Principais estatísticas descritivas de amostras de RNA-seq no Banco de dados do National Center for Biotechnology Information's Sequence Read Archive (SRA). (a) Distribuição das amostras por país (b) Número de amostras SRA por tecido.

Um novo artigo de revisão do Dr. Thiago Venancio e co-autores da Universidade Estadual do Norte Fluminense no Brasil explora o estado da arte em recursos transcriptômicos de soja e redes de coexpressão gênica.

O artigo primeiro apresenta tecnologias baseadas em hibridização (ou seja, microarrays) e baseadas em sequência (ou seja, RNA-seq) e discute os benefícios de cada uma. Mais importante ainda, os microarrays dependem de sondas específicas de espécies ou transcrições (ou seja, trechos curtos de DNA ou RNA) que já são conhecidos por indicar sua expressão relativa. O RNA-Seq, por outro lado, pode detectar novos transcritos porque determina a sequência de ácido nucléico de uma determinada molécula de DNA ou RNA, que é então identificada. A tecnologia RNA-Seq pode detectar uma porcentagem maior de genes expressos diferencialmente, especialmente genes com baixa expressão. Por essas razões, a tecnologia RNA-Seq começou a substituir as plataformas tradicionais de microarrays para a realização de perfis transcricionais. Destacam-se os principais estudos que investigaram programas transcricionais de soja em diferentes tecidos e condições usando ambas as tecnologias.

Os autores então propõem abordagens integrando a enorme quantidade de dados em repositórios públicos usando redes de coexpressão gênica (GCNs). GCNs são usados ​​para a exploração, interpretação e visualização da relação entre os genes que trabalham juntos para contribuir para a expressão de uma característica particular (por exemplo, rendimento). “A natureza ama padrão e ordem. Em sistemas biológicos, os componentes moleculares (por exemplo, genes, proteínas) são organizados hierarquicamente em aglomerados densos comumente referidos como módulos. GCNs são uma ferramenta poderosa para identificar módulos de genes coexpressos que provavelmente estão participando do mesmo processo biológico. Como genes em culturas importantes tiveram suas funções identificadas experimentalmente, os GCNs podem ser usados ​​para inferir funções de genes desconhecidos com base na função de seus parceiros de coexpressão. Numa perspectiva evolutiva, esses módulos de coexpressão podem ser explorados para identificar genes que adquiriram novas funções após a duplicação e podem ser comparados entre espécies para investigar a conservação e divergência de ortogrupos”, explica Venancio.

Finalmente, o artigo identifica recursos transcriptômicos de soja e dados de expressão de soja, incluindo o Banco de dados do National Center for Biotechnology Information's Sequence Read Archive (SRA) – o maior repositório publicamente disponível de dados de sequenciamento de alto rendimento e o Atlas de Expressão da Soja – um banco de dados de expressão gênica de alta resolução.