Para alimentar uma população global que deverá atingir 9.8 bilhões até 2050, a produção de alimentos precisará ser aumentado em 70%. Este desafio é ainda mais complicado pelo impacto negativo das alterações climáticas no rendimento das culturas.
O desenvolvimento de novas cultivares de culturas e a identificação de estratégias de gestão óptimas podem levar ao aumento dos rendimentos e ajudar a mitigar os efeitos das alterações climáticas. Os modelos de culturas servirão como ferramenta orientadora neste trabalho, permitindo previsões de rendimento com base em fatores como ambiente, práticas de manejo e características genéticas.
Para este propósito, um modelo é tão bom quanto suas previsões. Embora possa ser tentador desconsiderar todos os modelos, exceto aquele que demonstrou consistentemente a maior precisão em suas previsões, um novo estudo publicado no in silico Plants demonstra que combinar previsões de vários modelos pode resultar em maior precisão de previsão.
Embora a combinação de previsões de vários modelos tenha sido considerada benéfica para determinar características complexas, trabalhos anteriores não exploraram modelos que incorporassem interações genéticas e ambientais.
Daniel Kick e Jacob Washburn, ambos pesquisadores geneticistas do USDA-ARS e da Universidade de Missouri, testaram se as previsões de rendimento poderiam ser melhoradas usando combinações de diferentes tipos de modelos, números de modelos e esquemas de ponderação de modelos.
Os autores incluíram 8 tipos de modelos que incorporam informações genômicas, ambientais e de gerenciamento e representam 3 categorias de modelos em seu trabalho.
- Modelos lineares são modelos estatísticos que assumem uma relação linear entre as variáveis de entrada (dados genotípicos e ambientais) e a variável de saída (rendimento). Os tipos de modelos considerados neste estudo foram modelo linear de efeitos fixos (LM) e melhor modelo preditor linear imparcial (BLUP).
- Modelos de aprendizado de máquina fazer previsões de rendimento com base em padrões nos dados de treinamento que podem não ser facilmente aparentes usando métodos estatísticos tradicionais. Os tipos de modelos considerados neste estudo foram k-vizinhos mais próximos (KNN), regressão de vizinho de raio (RNR), SVR e regressão florestal aleatória (RF).
- Redes neurais profundas (DNNs) são um subconjunto de aprendizado de máquina que faz previsões de rendimento usando vários estágios de transformações de dados não lineares, onde os recursos dos dados são representados por camadas sucessivamente mais altas e mais abstratas. Esses modelos podem ser otimizados de diferentes maneiras. Os tipos de modelos considerados neste estudo foram 'otimização consecutiva' de sub-redes (DNN-CO) e 'otimização simultânea' de todas as sub-redes de uma só vez (DNN-SO).
“Esses modelos têm suposições diferentes sobre os dados. Alguns podem ser mais adequados para a previsão fenotípica do que outros e podem representar padrões nos dados que outros não percebem. Isso nos levou a treinar e testar um conjunto diversificado de modelos”, explicou Kick.
Os autores procuraram testar a robustez dos modelos de agrupamento e identificar os tipos de modelos, juntamente com as estratégias específicas de média do modelo, que foram mais eficazes na melhoria da previsão fenotípica. Os modelos foram treinados e testados para prever o rendimento a partir de dados genômicos, ambientais e de manejo usando um grande conjunto de dados de milho. A capacidade dos modelos individuais e conjuntos de modelos de prever com precisão o rendimento foi medida comparando a raiz do erro quadrático médio, que é proporcional à diferença entre o valor do rendimento observado e o valor do rendimento previsto.
Os modelos de conjunto frequentemente previam rendimento melhor do que os modelos individuais. As previsões de conjuntos de dois modelos tinham 77% de probabilidade de ter maior precisão em comparação com as previsões de qualquer modelo individual por si só. Contudo, empregar um maior número de modelos não foi uma panacéia. O benefício de adicionar modelos adicionais ao conjunto diminuiu com cada modelo adicionado. Além disso, a inclusão de modelos adicionais com previsões alinhadas com as do conjunto teve impacto mínimo ou nenhum impacto na precisão.

A melhoria na precisão da previsão de conjuntos de dois modelos foi determinada pelos tipos de modelos utilizados. Por exemplo, a maioria das previsões dos modelos foi melhorada ao máximo quando combinada com um modelo de alto desempenho individual (um dos dois modelos lineares ou o DNN de 'otimização consecutiva'). As previsões para conjuntos de dois modelos foram menos melhoradas quando incluíram os modelos de aprendizado de máquina, KNN e RNR, ou o modelo de 'otimização simultânea' da rede neural profunda.
Os autores avaliaram a precisão da combinação de previsões de rendimento modeladas usando diferentes esquemas de ponderação. Isso incluía dar a cada tipo de modelo peso igual ou ponderar cada modelo inversamente proporcional ao desvio padrão, variância ou erro quadrático médio de suas previsões. Dos esquemas examinados, quando todos os oito modelos foram usados no mesmo conjunto, a ponderação das réplicas inversamente proporcional à variância de cada réplica resultou no menor erro. Este esquema teve erro 1.6% menor que o melhor modelo único.
O melhor conjunto e esquema de ponderação para conjuntos compostos por 3 ou mais tipos de modelos apresentou um erro 7% menor que o melhor modelo único. Este conjunto foi ponderado pelo inverso do erro esperado de cada modelo e foi composto pelos dois tipos de modelo linear, o modelo de 'otimização consecutiva' da rede neural profunda e os modelos RF e SVR de aprendizado de máquina.
“Curiosamente, nosso conjunto de melhor desempenho incluiu dois dos modelos (RF e SVR) que tiveram um desempenho ruim por conta própria. A eficácia de um conjunto vem em parte da diferença nas previsões dos modelos – um pode ser muito alto e outro muito baixo, mas juntos eles acertam o alvo. No contexto certo, esses modelos podem aumentar a precisão.”
“Com base nestes resultados, onde a previsão é de primordial importância, um pesquisador ou criador estaria, na maioria das vezes, em melhor situação reunindo modelos do que usando um modelo sozinho”, explica Kick.
LEIA O ARTIGO:
Daniel R Kick, Jacob D Washburn, Ensemble of best linear unbiased predictor, machine learning and deep learning models predict maize yield better than each model alone, in silico Plants, Volume 5, Issue 2, 2023, diad015, https://doi.org/10.1093/insilicoplants/diad015
Adicionar comentário