Metabólitos especializados são críticos para as interações planta-ambiente, como atrair polinizadores ou defender-se contra herbívoros. Eles também são essenciais para uso como produtos farmacêuticos, cosméticos, nutrição e para a fabricação de medicamentos, corantes, fragrâncias, sabores e suplementos dietéticos.

A identificação dos genes que codificam enzimas que produzem metabólitos especializados é a chave para a engenharia de suas vias. Esta abordagem de engenharia pode ser usada para modificar a estrutura dos metabólitos especializados, ou fazer moléculas completamente novas, com propriedades biológicas novas ou melhoradas.

Ao contrário dos metabólitos gerais, que estão diretamente envolvidos no crescimento e desenvolvimento de uma planta e geralmente conservados entre as espécies vegetais, os metabólitos especializados são específicos da linhagem e altamente diversos. Muitos genes que fundamentam a produção do metabolismo especializado pertencem às mesmas famílias de genes envolvidas no metabolismo geral., o que os torna difíceis de distinguir.

Uma estratégia de aprendizado de máquina, aprendizado de transferência, foi usada para identificar genes metabólicos especializados em um novo estudo publicado em in silico Plants conduzido pelo professor Shin-Han Shiu da Universidade Estadual de Michigan. Com essa abordagem, os autores foram capazes de usar o conhecimento do bem anotado Arabidopsis thaliana para prever as funções dos genes no tomate cultivado, que tem menos genes anotados experimentalmente.

“Esta abordagem usa as melhores espécies de plantas anotadas, Arabidopsis thaliana, para filtrar, em alguns casos, genes potencialmente mal anotados no tomate. Ao treinar um novo modelo baseado apenas nos genes restantes, o modelo melhora substancialmente. Sem essa etapa de filtragem, genes anotados incorretamente levam a modelos abaixo do ideal, e é por isso que vemos previsões piores em modelos anteriores baseados apenas em dados de tomate”. explica a primeira autora, Dra. Bethany Moore, atualmente pesquisadora de pós-doutorado na Universidade de Wisconsin-Madison.

Os autores advertem que, embora a abordagem de aprendizado por transferência tenha funcionado bem para genes do metabolismo geral, ela não teve tanto impacto na previsão de genes do metabolismo especializado, provavelmente porque as vias metabólicas especializadas são por definição especializadas – o que você aprende em uma espécie não necessariamente se aplica a outro. Além disso, os potenciais genes anotados incorretamente precisam ser verificados experimentalmente.

De acordo com Shiu, “a abordagem de aprendizado de máquina se destaca na identificação de padrões em conjuntos de dados de várias fontes. Um bom modelo baseado nos padrões identificados pode então ser usado para fazer previsões que podem ser testadas posteriormente. Com mais e mais dados disponíveis, esperamos ver aplicações mais amplas de aprendizado de máquina na solução de problemas de ciência de plantas”.

Os softwares desenvolvidos para este e outros projetos estão disponíveis em https://github.com/ShiuLab.