À medida que a mudança climática se intensifica, os cientistas estão trabalhando para encontrar os métodos, algoritmos ou modelos de melhor desempenho para simular o impacto da alta temperatura e/ou da disponibilidade limitada de água no crescimento, desenvolvimento e produtividade das culturas. A complexidade das interações planta-ambiente torna isso difícil, mas uma nova pesquisa mostrou que a integração de aprendizado de máquina e modelagem de culturas pode fornecer as respostas necessárias.

Dr. Ioannis Droutsas, pesquisador da Universidade de Leeds e coautores Incorporar algoritmos de aprendizado de máquina (ML) em um modelo de cultivo baseado em processos para criar uma nova estrutura de modelagem/ML de cultivos com alto desempenho na representação da resposta da cultura a uma ampla gama de ambientes, incluindo condições de estresse..

Os autores modificaram o modelo de cultivo baseado em processo existente O GLAM-Parti utiliza algoritmos de aprendizado de máquina para estimar variáveis ​​que geralmente escapam à capacidade preditiva do modelo de cultivo. O aprendizado de máquina foi usado para previsões diárias da eficiência do uso da radiação, da taxa de variação do índice de colheita e do estágio fenológico.

Para a avaliação da nova estrutura GLAM-Parti-ML, os autores usaram um conjunto de dados existente para uma cultivar de trigo cultivada sob uma ampla gama de temperaturas, radiação solar e condições de umidade atmosférica, incluindo exposição ao estresse térmico. Metade dos dados foi usada para treinar os algoritmos de aprendizado de máquina e a outra metade para testar o modelo.

O modelo foi executado com os dados meteorológicos de temperatura, radiação solar e déficit de pressão de vapor, os determinantes climáticos mais significativos do crescimento do trigo para condições irrigadas e bem fertilizadas. As produções de biomassa e rendimento de grãos, bem como os dias até a antese e maturidade foram comparados com as medições de campo no final da temporada.

Um fluxograma mostrando a metodologia para integração do ML no GLAM-Parti. O conjunto de dados é dividido em tratamentos de treinamento e teste. Os dados da cultura dos tratamentos de treinamento são usados ​​para ajustar séries temporais de biomassa e rendimento, que então derivam as variáveis ​​alvo RUE e dHI/dt para treinamento de Random Forests (RF) e XGBoost. Os tratamentos de teste são usados ​​na avaliação de GLAM-Parti com RF e XGBoost, respectivamente.
Metodologia para integração do ML no GLAM-Parti.

A equipe aplicou Random Forests e Extreme Gradient Boosting. Ambos os modelos ML exibiram alta eficiência em aprender os padrões entre insumos e desempenho da cultura (em termos de eficiência de uso de radiação) durante o curso da estação de crescimento. Isso resultou em boa habilidade de modelo para biomassa de cultivo; GLAM-Parti-ML reproduziu 98% da variação observada tanto na biomassa quanto no rendimento de grãos e o erro do modelo foi inferior a 20%. Além disso, o modelo reproduziu pelo menos 98% da variação observada nos dias até a antese e maturidade com menos de 11% de erro. No entanto, o início de ambos os estádios fenológicos foi subestimado, predizendo antese e maturidade mais cedo do que o observado.

Quatro figuras são mostradas. Os gráficos de barras pareados comparam a biomassa observada e prevista, produção de grãos, emergência até a antese e emergência até as datas de maturidade. Todas possuem 12 cultivares listadas no eixo x e uma linha vertical vermelha no centro indicando que 6 das cultivares são utilizadas para treinamento de Random Forests e as outras 6 são tratamentos utilizados para teste de modelo. O eixo y para a figura A é a biomassa em toneladas por hectare de 0-20. A biomassa para três das cultivares de treinamento e uma cultivar de teste é de cerca de 5 toneladas por hectare, enquanto o valor para outras cultivares é de cerca de 10 toneladas por hectare. Os valores de previsão de treinamento são superestimados e subestimados uniformemente, enquanto os valores de teste mostram previsões subestimadas. O eixo y para a figura B é o rendimento de grãos em toneladas por hectare de 0-8. A biomassa para duas das cultivares de treinamento e uma cultivar de teste é de cerca de 1 tonelada por hectare, enquanto o valor para outras cultivares é de cerca de 5 toneladas por hectare. Os valores de previsão de treinamento são superestimados e subestimados uniformemente, enquanto os valores de teste mostram previsões subestimadas. O eixo y para a figura C é a emergência até a antese de 0 a 100 dias. A data da antese varia para as cultivares de treinamento e teste e varia de 50 a 100 dias. Os valores de previsão de treinamento são iguais aos valores observados, enquanto os valores de teste mostram previsões subestimadas. O eixo y para a figura D é a emergência até a maturidade de 0-150 dias. A data de maturação varia para as cultivares de treinamento e teste e varia de 75 a 150 dias. Os valores de previsão de treinamento são iguais aos valores observados, enquanto os valores de teste mostram que as previsões são subestimadas.
Comparação entre os valores observados e simulados pelo GLAM-Parti para uma cultivar de trigo cultivada sob uma ampla gama de temperaturas, radiação solar e condições de umidade atmosférica, incluindo exposição ao estresse térmico. Linhas vermelhas verticais separam os tratamentos usados ​​para treinamento de Random Forests (à esquerda da linha vermelha) e os tratamentos usados ​​para teste de modelo (à direita da linha vermelha).

Em seguida, o GLAM-Parti foi comparado ao seu antecessor, GLAM, um modelo de cultivo baseado em processo sem integração de aprendizado de máquina. O GLAM foi calibrado com 100% dos dados e o GLAM-Parti com apenas 50%. No entanto, GLAM-Parti-ML teve valores de erro mais baixos para biomassa, rendimento e dias para maturidade e antese, indicando que as parametrizações de aprendizado de máquina melhoraram o modelo, apesar de serem treinadas em apenas metade dos dados.

Para avaliar ainda mais o GLAM-Parti-ML, os autores usaram um segundo conjunto de dados de três cultivares de trigo cultivadas em muitos experimentos de campo em seis países. Novamente, metade dos dados foi usada para treinar os algoritmos de aprendizado de máquina e a outra metade para testar o modelo.

Quatro figuras são mostradas. Os gráficos de dispersão comparam a biomassa observada e prevista, produção de grãos, emergência até a antese e emergência até as datas de maturidade para o trigo cultivado em 4 países. Os eixos da figura A são biomassa em toneladas por hectare de 0-15. O valor de R ao quadrado é 0.73. Os eixos y para a figura B são o rendimento de grãos em toneladas por hectare de 0-7.5. O valor de R ao quadrado é 0.76. Os eixos da figura C são da emergência à antese de 0 a 100 dias. O valor de R ao quadrado é 0.66. Os eixos da figura são da emergência à maturidade de 0 a 120 dias. O valor de R ao quadrado é 0.79.
Comparação entre os valores observados e simulados pelo GLAM-Parti para três cultivares de trigo cultivadas em muitos experimentos de campo em seis países.

Mais uma vez, o modelo teve excelente desempenho. Reproduziu 73% da variação de biomassa entre localidades e cultivares com 15% de erro e 76% da variação de rendimento de grãos com 16% de erro. A fenologia da cultura foi mais precisa para os dias até a maturidade (9.9% de erro) do que antese (13.2% de erro). Novamente houve viés negativo na predição de ambos os estádios fenológicos.

Droutsas conclui, “o uso de um conjunto de dados de treinamento maior melhoraria muito as simulações do modelo. No entanto, existem poucos conjuntos de dados com as medições necessárias.”

LEIA O ARTIGO:

Ioannis Droutsas, Andrew J Challinor, Chetan R Deva, Enli Wang, Integração de aprendizado de máquina em modelagem baseada em processos para melhorar a simulação de respostas complexas de culturas, in silico Plants, 2022, diac017, https://doi.org/10.1093/insilicoplants/diac017