Embora os estudos de associação do genoma (GWAS) permitam a identificação de variantes de polimorfismo de nucleotídeo único (SNP) associadas a características de interesse, muitas das variantes identificadas estão em regiões não codificantes e, presumivelmente, influenciam apenas a regulação da expressão gênica. Portanto, identificar genes causadores subjacentes a um determinado fenótipo usando apenas variantes é muito desafiador. A integração de GWAS e redes de coexpressão de genes pode ajudar a priorizar genes candidatos de alta confiança, pois os perfis de expressão de genes associados a traços podem ser usados para minerar novos candidatos. Um novo artigo publicado em in silico Plants apresenta uma estrutura estatística que automatiza a integração de redes de coexpressão gênica e SNPs derivados de GWAS para priorizar genes candidatos associados a características de interesse.
Presentes o pesquisador de pós-graduação Fabricio Almeida-Silva e o professor adjunto Dr. Thiago Venancio da Universidade Estadual do Norte Fluminense garimpeiro (candidate gene miner), um pacote R/Bioconductor para priorizar genes candidatos por meio da integração de GWAS e redes de coexpressão.
garimpeiro usa uma abordagem baseada em gene guia para descobrir novos candidatos que são coexpressos com genes associados a características conhecidas e que são significativamente induzidos ou reprimidos em condições de interesse.
Enquanto uma abordagem computacional existente, camoco, existe que pode integrar loci identificados por GWAS com informações funcionais derivadas de redes de coexpressão gênica, garimpeiro é capaz de descobrir genes candidatos dentro de uma janela deslizante maior, permitindo detectar mais genes candidatos.
Dados de entrada exigidos por garimpeiro são posições SNP, genes guia e uma rede de coexpressão gênica.
Os genes são considerados candidatos de alta confiança se passarem por todos os três critérios de filtragem implementados em garimpeiro:
- proximidade física de SNPs,
- co-expressão com genes associados a características conhecidas, e
- mudanças significativas nos níveis de expressão nas condições de interesse.
Candidatos priorizados também podem ser pontuados e classificados para selecionar alvos para validação experimental.

Os autores aplicaram garimpeiro a um conjunto de dados reais de Capsicum annuum resposta à infecção por Phytophthora para identificar candidatos priorizados que codificam proteínas relacionadas a processos conhecidos relacionados à imunidade de plantas. A documentação fácil de seguir da sessão, incluindo código, explicações e figuras, está incluída em um arquivo suplementar ao artigo.
Venâncio conclui, “desenvolvemos garimpeiro priorizar genes candidatos, levando a uma redução significativa no tamanho das listas de genes candidatos. Prevemos que este pacote contribuirá para o avanço da genômica populacional e para a identificação de genes para aplicações biotecnológicas”.
LEIA O ARTIGO:
Fabricio Almeida-Silva, Thiago M Venancio, cageminer: um pacote R/Bioconductor para priorizar genes candidatos integrando GWAS e redes de coexpressão gênica, in silico Plants, 2022; diac018, https://doi.org/10.1093/insilicoplants/diac018
Todos os dados e códigos usados neste manuscrito estão disponíveis gratuitamente em um repositório GitHub (https://github.com/almeidasilvaf/cageminer_benchmark) para garantir a reprodutibilidade total
