Catalogar a diversidade de plantas e descrever novas espécies é uma tarefa crítica e contínua que é dificultada pela escassez de conhecimento especializado e um processo inerentemente lento. Mesmo sob condições ideais, coletar um espécime na natureza, descrevê-lo como uma nova espécie e publicar essa descrição pode levar de um a dois anos. Mais frequentemente, pode levar décadas. Herbários em todo o mundo abrigam um acúmulo de até um milhão de espécimes não identificados, e acredita-se que já contenham o maioria das espécies de plantas não descritas. Algoritmos de computador que aproveitam o aprendizado de máquina, treinados em conjuntos de dados anotados de alta qualidade, podem ser uma parte fundamental da solução.

Em um novo artigo publicado em Aplicações em Ciências Vegetais' Machine Learning in Plant Biology edição especial, autor principal Damon P. Little e colegas procuraram maneiras de aproveitar este potencial. Os autores organizaram um concurso no Plataforma de ciência de dados Kaggle desenvolver um algoritmo de identificação automática de espécies usando aprendizado de máquina. O grupo apresentou um conjunto de dados para treinamento que incluiu mais de 46,000 espécimes de herbário representados por 683 espécies da família Melastomataceae. Como é típico de coleções de herbários, algumas dessas espécies foram representadas por muitos espécimes, e outras por relativamente poucos.

Diagrama de fluxo de trabalho do Desafio Herbário 2019. Fonte: Pequeno et al. 2020.

A competição durou vários meses e produziu 254 modelos criados por 22 equipes diferentes. As quatro principais entradas foram capazes de identificar as espécies com mais de 88% de precisão. As equipes vencedoras eram de uma empresa privada e de uma universidade pública da China, uma equipe do Facebook AI Research e, pasmem, uma pessoa, veterinária de formação, que “entrou na competição durante as férias e desenhou os modelos no celular. ”

Embora os resultados da competição tenham sido melhores do que o esperado, apenas a primeira etapa do problema foi abordada. Atualmente, os algoritmos só conseguem atribuir espécimes ao táxon mais provável dentre aqueles com os quais foram treinados; eles não conseguem designar espécimes como desconhecidos ou novos. “Os algoritmos não são treinados 'para saber o que não sabem', eles são treinados e construídos para fornecer resultados com base nos dados de treinamento”, afirma Barbara Ambrose, coautora e curadora associada em Genômica Vegetal no Jardim Botânico de Nova York. O próximo passo é formular um algoritmo que possa designar um espécime como uma provável nova espécie. Os autores estão atualmente buscando financiamento para enfrentar esse desafio.

Ambrose e Little estão trabalhando no desenvolvimento de uma ferramenta que qualquer herbário poderá usar para analisar seus espécimes não identificados. “A ideia é enviar uma foto do seu espécime e o algoritmo fornecerá suas cinco principais opções. Acreditamos que isso ajudará a reduzir o acúmulo de espécimes e a dificuldade de encaminhá-los a um especialista do grupo. Muitos herbários são pequenos e podem não ter conhecimento especializado em taxonomia, então isso os ajudaria a organizar suas coleções”, diz Ambrose. “Isso não está longe de se tornar realidade, já que o Dr. Little desenvolveu um protótipo que estamos chamando de [nome do protótipo].” iCuratePrecisaremos de mais financiamento e tempo para fazer... iCurate mais robusto para beneficiar herbários em todo o mundo. Mas espero que isso não esteja muito longe no futuro.”

Nesse sentido, Ambrose e Little organizaram recentemente um segunda competição Kaggle que expande enormemente o escopo taxonômico do primeiro. “Tivemos 153 equipes competindo nesta competição com um conjunto de dados de mais de 1 milhão de espécimes representando mais de 32,000 espécies de plantas vasculares. Com os algoritmos desenvolvidos durante esta competição, estamos prontos para desenvolver ainda mais. iCurate e lidar com a automação do reconhecimento de novas espécies.”