Um dos vários workshops interativos oferecidos no Botany 2020 foi sobre o Flora digital da América do Norte (Norte do México, para dar seu nome completo; FNA para abreviar), que pode ser encontrado em versão beta aqui.. O workshop funcionou como uma introdução ao projeto e uma cartilha sobre como usá-lo para pesquisas semânticas e produção de informações na forma de listas de táxons. Muitos de nós estão familiarizados com a versão impressa da FNA, uma enorme série de 30 volumes em andamento desde 1993, dos quais 21 foram publicados até agora. Quando concluído, o projeto tratará mais de 20,000 espécies de plantas – cerca de 7% do total mundial – incluindo sinônimos, chaves de identificação, descrições, intervalos, ilustrações e muito mais.

A fraqueza das floras impressas, no entanto, é que elas podem ficar desatualizadas rapidamente, à medida que a compreensão científica dos grupos muda. A taxonomia da samambaia, por exemplo, já mudou significativamente desde que a FNA começou a ser publicada. Entre no FNA Online, um repositório pesquisável que pode ser atualizado conforme necessário para permanecer atualizado. Conversei com Jocelyn Pender, Gerente de Dados de Biodiversidade para Agricultura e Agroalimentar do Canadá e facilitadora do workshop, sobre os objetivos e desafios do projeto FNA Online.

Dois dos principais objetivos do projeto são manter-se atualizado e expandir a base de usuários, tornando as descrições taxonômicas facilmente pesquisáveis ​​tanto por humanos quanto por máquinas. “Acredito que o futuro das floras é digital e centrado em dados”, afirma Pender. “Estamos construindo o FNA Online com isso em mente. Gostaríamos de ampliar a utilidade do FNA para além do seu grupo tradicional de usuários, composto por botânicos profissionais, taxonomistas, etc., abrangendo um grupo mais amplo que inclua educadores, cientistas cidadãos, botânicos amadores, reguladores, formuladores de políticas, horticultores, agrônomos, ecólogos, biólogos moleculares, filogeneticistas, etc. Isso significa aumentar o número de maneiras pelas quais os usuários podem interagir com o conteúdo. Nossa visão inclui chaves interativas disponíveis em vários níveis de conhecimento, listas de verificação instantâneas para reguladores e educadores, e matrizes de caracteres taxonômicos para download para ecólogos e biólogos moleculares.”

Um grande desafio para os criadores da FNA digital é tornar as descrições taxonômicas, escritas em linguagem natural por muitos autores diferentes, legíveis por máquina para que possam ser facilmente pesquisadas e comparadas. Vários aspectos do uso da linguagem natural, e de descrições taxonômicas em particular, tornam essa tarefa difícil.

Primeiro, autores individuais têm estilos de descrição únicos e usam vocabulário diferente. “Enfrentamos desafios para permitir a comparação de conteúdo analisado entre os tratamentos”, explica Pender. “Como podemos desenvolver uma chave interativa que permita aos usuários filtrar as plantas para a cor das pétalas 'vermelho' quando um autor descreveu as pétalas como 'fúcsia' e o outro como 'castanho-avermelhado'? Temos trabalhado arduamente para desenvolver sinonímias para os termos, mas isso é trabalhoso e sujeito a erros humanos e inferências incorretas.”

Outro obstáculo reside na complexidade da linguagem botânica. “Um termo pode ter dois significados únicos e não sobrepostos em duas famílias”, diz Pender. “Além disso, dentro de alguns grupos complexos, não há um forte consenso entre os botânicos sobre o significado das palavras. Por fim, as descrições taxonômicas usam um estilo particular de sublinguagem que é telegráfico; omite palavras não essenciais que os humanos inserem facilmente. As máquinas lutam para fazer inferências que conectam frases e ideias”.

Por essas e outras razões, o analisador de linguagem gera 'lixo' - saída sem sentido de nomes ou valores que são difíceis de contornar e devem ser resolvidos para que as funções de pesquisa estejam totalmente operacionais. Até o momento, a equipe por trás da flora digital analisou todas as descrições em todos os volumes publicados da FNA, mas ainda está trabalhando para melhorar a “limpeza” e a organização dos dados. Uma equipe canadense também está em processo de construção de uma Flora do Canadá on-line dedicada, que Pender prevê como “um produto mash-up de dados em evolução, integrando dados de espécimes, dados de ocorrência, dados de características analisadas de várias fontes”.

Se você quiser experimentar o beta do FNA Online, o site oferece uma guia para compor várias consultas e tipos de saída. Pender espera que uma grande variedade de usuários o experimente. “[Nós] adoraríamos grupos de usuários e casos de uso que ainda não imaginamos.”