Os fatores de transcrição (TF) e os locais de DNA a que se ligam (TF-DNA) são bons alvos para o melhoramento das culturas porque controlam a expressão gênica. Embora os desenvolvimentos tecnológicos na última década tenham facilitado a caracterização das preferências de ligação ao DNA para muitos TFs, muitos permanecem não identificados. Um novo artigo publicado em in silico Plants descreve um modelo de aprendizado de máquina criado para encontrar sites de ligação de TF candidatos.
A Sra. Sohyun Bang, estudante de pós-graduação no Instituto de Bioinformática da Universidade da Geórgia e co-autores, construíram um modelo de previsão que poderia classificar regiões genômicas como classes TF-binding e TF-non-bound do DNA genômico. Os autores optaram por se concentrar na detecção de membros da família TF do Fator de Resposta à Auxina (ARF) no milho e na soja porque a auxina desempenha um papel crucial no crescimento e desenvolvimento da planta e é conservada evolutivamente entre as espécies.
Como os dados eram desequilibrados, o que significa que a maior parte do genoma não era composta por eventos de ligação ARF, os autores arriscaram produzir altas taxas de falsos positivos. Portanto, eles reduziram a quantidade de dados que não eram compostos de eventos de ligação ARF, limitando os dados usados a regiões não metiladas, que são altamente enriquecidas para interações TF-DNA em comparação com regiões metiladas no genoma (figura painel 1).

Os algoritmos de aprendizado de máquina esperam variáveis numéricas, não sequências de nucleotídeos categóricas. Portanto, os autores testaram a codificação das variáveis categóricas (A,T,G,C) com uma ou mais variáveis numéricas usando dois métodos (figura painel 2):
- A codificação one-hot considera o DNA como uma sequência 1-D de comprimento fixo com quatro canais. Por exemplo, se A, C, G, T são codificados em (1 0 0), (0 1 0), (0 0 1), (0 0 0) respectivamente, então a sequência ATTGC será transformada em ((1 0 0), (0 0 0), (0 0 0), (0 0 1), (0 1 0)). Sequências de DNA codificadas foram classificadas usando redes neurais convolucionais.
- A vetorização de contagem com usos de k-mer descreve sequências curtas de DNA ao longo de seu comprimento (o comprimento é denominado k). Por exemplo, quando há um grupo de sequência de AATTG, os tokens de 3-mer são AAT, ATT, TTG e TGC. O k testado neste artigo foi de 5 a 9 pares de bases e, finalmente, selecionado para usar um 7-mer, pois produziu a menor taxa de falsos negativos. A regressão logística foi adaptada para feições vetorizadas de contagem.
Usando esses métodos, dois modelos foram desenvolvidos e treinados para aprender padrões distintos de sequências TF-bound e TF-unbound usando um subconjunto de dados. Os modelos foram então executados com os dados restantes para prever regiões TF-bound ou TF-unbound. As precisões de previsão de cada modelo foram avaliadas contra eventos conhecidos de TF-bound e TF-unbound que os autores identificaram usando picos de purificação de afinidade de DNA e sequenciamento (DAP-seq, figura painel 3).
O número total de eventos TF-bound e TF-unbound previstos com precisão revelou alta precisão dos modelos de previsão com a limitação de que eles muitas vezes negligenciaram os eventos TF-unbound de alta frequência.
Os autores descobriram que os dois métodos de codificação, one-hot e k-mer, tiveram uma precisão de previsão de TF semelhante (76-78%) e uma ocorrência semelhante, mas alta (41-46%) de taxas de falsos negativos.
Os autores optaram por continuar com o modelo k-mer e melhorar ainda mais seu desempenho, incluindo um classificador de regressão logística com amostragem e seleção de características. Para equilibrar os dados, que continham mais regiões não vinculadas ao ARF do que regiões vinculadas ao ARF, os autores usaram o upsampling, que amostra aleatoriamente a classe minoritária para ter o mesmo tamanho da classe majoritária no conjunto de treinamento. A seleção de recursos foi realizada identificando os padrões de sequência genômica 7-mer onde ARF é mais provável de se ligar sem usar as informações do motivo.
A partir disso, eles conseguiram atingir 91% de precisão de previsão de TF e 35% de taxa de falsos negativos.
Finalmente, os autores validaram o melhor modelo estabelecido com milho contra o genoma da soja para determinar se o modelo pode ser usado para prever de forma robusta as interações TF-DNA em outras espécies de plantas (figura painel 4). Para fazer isso, eles produziram dados DAP-seq para os mesmos ARFs de milho usando DNA genômico de soja como entrada. Depois de treinar as regiões de ARF de milho e testar os dados de soja, eles alcançaram 70-84% de precisão de previsão de TF, mas altas (36-89%) taxas de falsos negativos pelo membro de ARFs.
As descobertas deste estudo sugerem o uso potencial de vários métodos para prever as interações TF-DNA dentro e entre espécies com vários graus de sucesso.
LEIA O ARTIGO:
Sohyun Bang, Mary Galli, Peter A Crisp, Andrea Gallavotti, Robert J Schmitz, Identificando interações fator de transcrição-DNA usando aprendizado de máquina, in silico Plants, 2022;, diac014, https://doi.org/10.1093/insilicoplants/diac014
O modelo está disponível gratuitamente em https://github.com/schmitzlab/Identifying-transcription-factor-DNA-interactions-using-machine-learning
