Existem muitos restos fósseis de plantas que poderiam ajudar a escrever novas histórias evolutivas de famílias botânicas. Comum entre os restos são as folhas, que podem fornecer uma excelente maneira de identificar as plantas. Mas os recursos para identificação de folhas podem ser difíceis de acessar. Peter Wilf e seus colegas abordaram essa lacuna de conhecimento montando um banco de dados de acesso aberto de 30,252 imagens de espécimes de folhas comprovadas examinadas em nível de família. Além de fornecer um excelente recurso educacional para estudantes humanos, o banco de dados também pode fornecer aos projetos de aprendizado de máquina material para melhorar seus sistemas.

Folhas de muitas formas, mas nenhuma delas verde. As folhas fósseis são marrons e os espécimes preservados rosa.
Pares selecionados de folhas modernas e fósseis de um novo e grande conjunto de dados criado por uma equipe de cientistas liderada pela Penn State. Imagem: Wilf et al. 2022.

“A complexidade das folhas está fora de cogitação, e a terminologia que temos para descrevê-las é apenas o começo do que é necessário”, disse Peter Wilf disse em um comunicado de imprensa. “Os pesquisadores precisam de referências visuais muito mais acessíveis para estudar quais são as diferenças entre os muitos grupos de plantas, para que possamos colocar mais disso em palavras. Existem muitas famílias de plantas que parecem superficialmente semelhantes, e esta coleção oferece uma oportunidade de ver novos padrões.”

Não é apenas a complexidade que é o problema. Em seu artigo, Wilf e colegas também destacam o registro da arquitetura da folha, ou melhor, a falta dela. “Para construir seu conhecimento da arquitetura foliar, os pesquisadores ainda contam principalmente com a “tradição oral” de um número cada vez menor de colegas experientes e um punhado de pesquisas e guias de campo que enfatizam características foliares supostamente diagnósticas… Há literatura significativa sobre a arquitetura foliar e registros de fósseis de folhas de vários taxa... No entanto, muitos dos grupos mais diversos e ecologicamente significativos de angiospermas não têm praticamente nenhuma documentação de características diagnósticas de lâminas de folhas (por exemplo, Asteraceae, Rubiaceae) e, portanto, seus fósseis de folhas permanecem amplamente não reconhecidos, embora provavelmente escondido à vista de todos em coleções de museus…”

Acessar essas coleções pode ser um desafio. Fisicamente, eles podem estar em todo o mundo, levando a muitas despesas de viagem. Alguns herbários estão digitalizando suas coleções, mas são os herbários maiores e mais bem financiados que podem fazer isso. No artigo, Wilf e seus colegas também acrescentam que apenas estar disponível on-line geralmente não é suficiente para um projeto de pesquisa. “Na maioria dos conjuntos de imagens on-line, os downloads em massa não são feitos com facilidade, as imagens são reduzidas para baixa resolução e os nomes dos arquivos não são padronizados, exigindo um esforço manual significativo para reorganizá-los e combiná-los para um projeto específico. Adicionando mais complicações à modularidade dos dados, os dados taxonômicos muitas vezes se tornaram parcialmente obsoletos”.

“O que fizemos aqui foi disponibilizar esse enorme recurso educacional para todos, examinando e padronizando todas essas imagens de diferentes fontes legadas”, disse Wilf. “Demoramos 15 anos para fazer isso e converter todos os nomes de arquivos, mas agora você pode ter o pacote completo em sua área de trabalho com um único clique no navegador. Cada nome de arquivo tem as principais informações incorporadas, na mesma ordem para classificação alfa rápida: família, gênero, espécie e número do espécime. Os nomes dos arquivos podem ser pesquisados ​​rapidamente em segundos para o item em que você está interessado e as imagens podem ser visualizadas usando ferramentas padrão, como a barra de pesquisa do Windows. Todas as imagens são resolução original; nada é reduzido.”

Não são apenas os olhos humanos que podem se beneficiar do banco de dados. Os autores também falam sobre aprendizado de máquina. Eles descrevem alguns aplicativos como “fazendo descobertas espetaculares” na identificação de plantas. Mas eles também apontam alguns problemas. Primeiro, os algoritmos são opacos – não está claro o que os computadores reconheceram como recursos de diagnóstico ao identificar as plantas.

Outro problema é que poucos algoritmos identificam além do nível da espécie. O público gosta de conhecer as espécies de uma planta, mas pode ser útil saber o que conecta uma família de plantas. Para fósseis de folhas, pode muito bem não haver espécies ou gêneros existentes para conectar a uma imagem, portanto, ser capaz de identificar uma família por meio do aprendizado de máquina seria extremamente útil.

“Esse banco de dados disponibiliza as informações nessas coleções para pessoas de todo o mundo de uma forma mais fácil de pesquisar do que o original e mais acessível a análises digitais”, disse Scott Wing, coautor do artigo. “Achamos que o banco de dados incentivará novas pesquisas e também abrirá as coleções do museu para as pessoas.”

LEIA O ARTIGO

Wilf, P., Wing, SL, Meyer, HW, Rose, JA, Saha, R., Serre, T., Cúneo, NR, Donovan, MP, Erwin, DM, Gandolfo, MA, González-Akre, E., Herrera, F., Hu, S., Iglesias, A., Johnson, KR, Karim, TS e Zou, X. (2021) “Um conjunto de dados de imagem de folhas limpas, radiografadas e fósseis examinadas para plantar família para humanos e aprendizado de máquina”, PhytoKeys, https://doi.org/10.3897/phytokeys.187.72350

ACESSE O BANCO DE DADOS

Wilf, P., Wing, SL, Meyer, HW, Rose, JA, Saha, R., Serre, T., Rubén Cúneo, N., Donovan, M., Erwin, DM, Gandolfo, MA, Gonzalez-Akre, EB, Herrera, F., Hu, S., Iglesias, A., Johnson, KR, Karim, TS e Zou, X. (2021) “Coleta de imagens e dados de suporte para: Um conjunto de dados de imagens de imagens limpas, radiografadas, e folhas fósseis examinadas para plantar família para aprendizado humano e de máquina.” Figshare +, https://doi.org/10.25452/figshare.plus.14980698