Inicial » Aumentando a precisão da previsão de rendimento

Aumentando a precisão da previsão de rendimento

Os pesquisadores descobriram que a combinação de vários tipos de modelos melhora as previsões de rendimento das colheitas, superando os modelos únicos.

Você pode ouvir esta página como um arquivo de áudio. (Apenas inglês)

Para alimentar uma população global que deverá atingir 9.8 bilhões até 2050, a produção de alimentos precisará ser aumentado em 70%. Este desafio é ainda mais complicado pelo impacto negativo das alterações climáticas no rendimento das culturas.

O desenvolvimento de novas cultivares de culturas e a identificação de estratégias de gestão óptimas podem levar ao aumento dos rendimentos e ajudar a mitigar os efeitos das alterações climáticas. Os modelos de culturas servirão como ferramenta orientadora neste trabalho, permitindo previsões de rendimento com base em fatores como ambiente, práticas de manejo e características genéticas.

Para este propósito, um modelo é tão bom quanto suas previsões. Embora possa ser tentador desconsiderar todos os modelos, exceto aquele que demonstrou consistentemente a maior precisão em suas previsões, um novo estudo publicado no in silico Plants demonstra que combinar previsões de vários modelos pode resultar em maior precisão de previsão.

Embora a combinação de previsões de vários modelos tenha sido considerada benéfica para determinar características complexas, trabalhos anteriores não exploraram modelos que incorporassem interações genéticas e ambientais.

Daniel Kick e Jacob Washburn, ambos pesquisadores geneticistas do USDA-ARS e da Universidade de Missouri, testaram se as previsões de rendimento poderiam ser melhoradas usando combinações de diferentes tipos de modelos, números de modelos e esquemas de ponderação de modelos.

Os autores incluíram 8 tipos de modelos que incorporam informações genômicas, ambientais e de gerenciamento e representam 3 categorias de modelos em seu trabalho.

  • Modelos lineares são modelos estatísticos que assumem uma relação linear entre as variáveis ​​de entrada (dados genotípicos e ambientais) e a variável de saída (rendimento). Os tipos de modelos considerados neste estudo foram modelo linear de efeitos fixos (LM) e melhor modelo preditor linear imparcial (BLUP).
  • Modelos de aprendizado de máquina fazer previsões de rendimento com base em padrões nos dados de treinamento que podem não ser facilmente aparentes usando métodos estatísticos tradicionais. Os tipos de modelos considerados neste estudo foram k-vizinhos mais próximos (KNN), regressão de vizinho de raio (RNR), SVR e regressão florestal aleatória (RF).
  • Redes neurais profundas (DNNs) são um subconjunto de aprendizado de máquina que faz previsões de rendimento usando vários estágios de transformações de dados não lineares, onde os recursos dos dados são representados por camadas sucessivamente mais altas e mais abstratas. Esses modelos podem ser otimizados de diferentes maneiras. Os tipos de modelos considerados neste estudo foram 'otimização consecutiva' de sub-redes (DNN-CO) e 'otimização simultânea' de todas as sub-redes de uma só vez (DNN-SO).

“Esses modelos têm suposições diferentes sobre os dados. Alguns podem ser mais adequados para a previsão fenotípica do que outros e podem representar padrões nos dados que outros não percebem. Isso nos levou a treinar e testar um conjunto diversificado de modelos”, explicou Kick.

Os autores procuraram testar a robustez dos modelos de agrupamento e identificar os tipos de modelos, juntamente com as estratégias específicas de média do modelo, que foram mais eficazes na melhoria da previsão fenotípica. Os modelos foram treinados e testados para prever o rendimento a partir de dados genômicos, ambientais e de manejo usando um grande conjunto de dados de milho. A capacidade dos modelos individuais e conjuntos de modelos de prever com precisão o rendimento foi medida comparando a raiz do erro quadrático médio, que é proporcional à diferença entre o valor do rendimento observado e o valor do rendimento previsto.

Os modelos de conjunto frequentemente previam rendimento melhor do que os modelos individuais. As previsões de conjuntos de dois modelos tinham 77% de probabilidade de ter maior precisão em comparação com as previsões de qualquer modelo individual por si só. Contudo, empregar um maior número de modelos não foi uma panacéia. O benefício de adicionar modelos adicionais ao conjunto diminuiu com cada modelo adicionado. Além disso, a inclusão de modelos adicionais com previsões alinhadas com as do conjunto teve impacto mínimo ou nenhum impacto na precisão.

Gráfico mostrando maior variabilidade na raiz do erro quadrático médio para modelos únicos à esquerda em comparação com a variabilidade reduzida de conjuntos de dois modelos à direita.
Os conjuntos de modelos geralmente resultam em melhor precisão do que qualquer um dos modelos por si só.

A melhoria na precisão da previsão de conjuntos de dois modelos foi determinada pelos tipos de modelos utilizados. Por exemplo, a maioria das previsões dos modelos foi melhorada ao máximo quando combinada com um modelo de alto desempenho individual (um dos dois modelos lineares ou o DNN de 'otimização consecutiva'). As previsões para conjuntos de dois modelos foram menos melhoradas quando incluíram os modelos de aprendizado de máquina, KNN e RNR, ou o modelo de 'otimização simultânea' da rede neural profunda.

Os autores avaliaram a precisão da combinação de previsões de rendimento modeladas usando diferentes esquemas de ponderação. Isso incluía dar a cada tipo de modelo peso igual ou ponderar cada modelo inversamente proporcional ao desvio padrão, variância ou erro quadrático médio de suas previsões. Dos esquemas examinados, quando todos os oito modelos foram usados ​​no mesmo conjunto, a ponderação das réplicas inversamente proporcional à variância de cada réplica resultou no menor erro. Este esquema teve erro 1.6% menor que o melhor modelo único.

O melhor conjunto e esquema de ponderação para conjuntos compostos por 3 ou mais tipos de modelos apresentou um erro 7% menor que o melhor modelo único. Este conjunto foi ponderado pelo inverso do erro esperado de cada modelo e foi composto pelos dois tipos de modelo linear, o modelo de 'otimização consecutiva' da rede neural profunda e os modelos RF e SVR de aprendizado de máquina.

“Curiosamente, nosso conjunto de melhor desempenho incluiu dois dos modelos (RF e SVR) que tiveram um desempenho ruim por conta própria. A eficácia de um conjunto vem em parte da diferença nas previsões dos modelos – um pode ser muito alto e outro muito baixo, mas juntos eles acertam o alvo. No contexto certo, esses modelos podem aumentar a precisão.”

 “Com base nestes resultados, onde a previsão é de primordial importância, um pesquisador ou criador estaria, na maioria das vezes, em melhor situação reunindo modelos do que usando um modelo sozinho”, explica Kick.

LEIA O ARTIGO:

Daniel R Kick, Jacob D Washburn, Ensemble of best linear unbiased predictor, machine learning and deep learning models predict maize yield better than each model alonein silico Plants, Volume 5, Issue 2, 2023, diad015, https://doi.org/10.1093/insilicoplants/diad015

Rachel Shekar

Rachel (ela / ela) é editor fundador e gerente da in silico Plantas. Ela tem mestrado em Biologia Vegetal pela Universidade de Illinois. Ela tem mais de 15 anos de experiência editorial em periódicos acadêmicos, incluindo a fundação da GCB Bioenergy e a gestão da Global Change Biology. Rachel supervisionou o desenvolvimento da mídia social que tem sido uma parte importante da promoção de ambas as revistas.

Adicionar comentário

Deixe um comentário

Este site usa o Akismet para reduzir o spam. Saiba como seus dados de comentário são processados.

Leia isso no seu idioma

A Semana da Botânica

Nas manhãs de segunda-feira, enviamos um boletim informativo com os links que têm chamado a atenção de nossos leitores no Twitter e além. Você pode se inscrever para recebê-lo abaixo.

@BotanyOne no mastodonte

Carregando feed do Mastodon...

em áudio


arquivo