Skip to content

Lobz/IntegraFlora

Repository files navigation

IntegraFlora

Como usar as listas de espécie

As listas de espécies já geradas podem ser baixadas aqui: Você pode ler ou baioxar listas individuais aqui:

Resumo do workflow da ferramenta

A ferramenta IntegraFlora consiste em um pacote R e uma coleção de scripts que devem ser executados sequencialmente, assim como scripts para construção dos arquivos auxiliares de entrada. Para usar a ferramenta para gerar novas listas de espécie, o usuário precisa baixar os dados de ocorrência de espécies da área desejada (eg, do estado de São Paulo) das fontes de dados, e salvar os arquivos nas pastas especificadas no README. Os arquivos auxiliares (de descrição das UCs) estão inclusos no repositório, mas também podem ser atualizados pelo usuário.

Nos primeiros scripts, em analyses/formatData/, os dados de ocorrência das diferentes fontes são padronizados, garantindo que os nomes das colunas estejam no padrão DarwinCore e que colunas com os mesmos nomes estejam no mesmo padrão de formatação. Em seguida, no script analyses/joinData.R, os dados são consolidados em uma única tabela e formatados com auxílio do pacote plantR. Nessa etapa, os nomes de coletores e identificadores são padronizados, assim como datas, números de coleta e códigos institucionais. Além disso, no script analyses/saopaulo.R, fazemos o tratamento e correção dos campos de localidade, a atribuição e checagem de coordenadas geográficas, a correção dos nomes científicos, e a atribuição de um valor de confiança da identificação, baseada na especialização do identificador.

Com os dados tratados e checados, é aplicado o algoritmo de detecção de duplicatas, baseado em combinações de sobrenome do coletor, ano de coleta, local de coleta, família ou espécie, e número de coleta. A detecção de duplicatas reduz drasticamente o volume de dados ao remover as duplicatas virtuais (mesmo registro de herbário, baixado de bancos de dados diferentes), e ajuda a completar dados faltantes ou corrigir identificações pouco confiáveis.

A partir daqui, temos uma tabela de ocorrências, que filtramos para conter apenas ocorrências do estado de São Paulo. No script analyses/getOccs.R, essas ocorrências serão filtradas por seus campos de município, localidade e coordenadas geográficas para gerar arquivos separados para cada UC, contendo todas as ocorrências associadas àquela UC, com diferentes graus de confiança de acordo com a origem da associação (mais detalhes abaixo). Por fim, no script analyses/treatOccs.R, são selecionadas as ocorrências com maior grau de confiança para cada táxon, e essas são organizadas em listas de espécie ordenadas por família e nome científico.

Estrutura de diretorios e conteúdo do repositório

  • analyses/ - scripts para tratamento dos dados
    • formatData - scripts de padronização dos dados de cada fonte
  • data - dados usados pela ferramenta, informações sobre bases de dados e localidades
  • data-input - dados brutos baixados dos Herbários Virtuais
  • data-tmp - arquivos intermediários criados por esta ferramenta
  • plots - figuras
  • R - funções usadas pelos scripts
  • results - resultados, incluindo as listas de espécies
    • allfields - listas de espécies contendo todos os campos, em formato .csv
    • checklists - listas de espécies no formato do Catálogo de Plantas das UCs do Brasil
    • total - todos os registros encontrados em cada UC, em formato .rda
    • total-treated - todos os registros encontrados em cada UC, em formato .csv

Como usar esta ferramenta:

  1. Antes de começar, é preciso baixar os dados atualizados das bases de dados:
  • GBIF - arquivos .zip
  • Reflora - arquivos .csv
  • splink (obs.: para baixar dados em grandes quantidades, será necessário criar uma conta) - arquivos .txt
  • JABOT - arquivos .csv

Os dados devem ser salvos nas respectivas pastas dentro de data-input/Occurrences/. No caso de mais de um arquivo serem salvos na mesma pasta, o script combinará os dados dos arquivos diferentes antes de iniciar o tratamento dos dados. No caso dos dados Reflora, por favor abra os arquivos e salve como csv na mesma pasta antes de prosseguir.

  1. Execute os scripts da pasta analyses/formatData/ e os script analyses/joinData.R.

  2. Execute o script analyses/saopaulo.R. Esse script pode consumir muita memória e processamento, dependendo do número de registros. Por isso, garanta que os recursos de seu computador estejam disponíveis. Antes dessa etapa, você pode opcionalmente adicionar sinônimos de localidades no arquivo results/locations/locGazetteer.csv.

  3. Opcionalmente, adicione nomes alternativos de localidades na tabela de nomes alternativos.

  4. Execute os scripts analyses/getOccs.R e analyses/treatOccs.R.

  5. Você pode produzir algumas estatísticas e figuras a partir dos seus resultados usando o script analyses/resultStats.R.

  6. Os resultados podem ser encontrados na pasta results/checklist.

Critério de Confiança e critério de seleção para lista

A partir dos totais de registros associados a cada UC, as listas finais são produzidas selecionando-se um registro para representar cada espécie, variedade, forma ou subspécie, além de um registro para representar cada gênero ou família não representado por registros com identificações mais precisas. Esses representantes são selecionados de acordo com os critérios de confiança em localidade e identificação, na escala "Ouro">"Prata">"Bronze">"Latão", e em caso de empate, na presença de informação de barcode e em quão recente foi a coleta.

O critério de confiança em localização se baseia em qual foi o método de seleção utilizado, de acordo com a seguinte tabela:

Categoria Fonte da seleção Grau de confiança
locality_exact Busca pelos nomes da UC usando expressões regulares nos campos textuais Ouro
plantr_exact Identificador de localidade plantR idêntico ao da UC em algum município Ouro
intersect_high Registros encontrados pelos dois métodos anteriores em UCs com mais de 98% de sua área dentro da UC alvo Ouro
intersect_medium Registros encontrados pelos dois métodos anteriores em UCs com mais de 80% de sua área dentro da UC alvo Prata
coords_original Coordenadas originais do registro Bronze
coords_gazet Coordenadas da localidade, obtidas do gazeteiro Prata
coords_both Ambas as coordenadas originais e da localidade Ouro

O critério de confiança na identificação depende da especialização do identificador ou do coletor, usando os valores da coluna tax_check produzida pela função validateTax do pacote plantR:

tax_check Significado Grau de confiança
high Identificador é taxonomista especialista da família Ouro
medium Identificador é taxonomista generalista Prata
low Identificador não é nem especialista nem generalista Bronze
unkown Identificador não está listado Latão

Apoio

Esta ferramenta foi financiada pela FAPESP como parte do projeto 2024/07747-9 - "Aprimoramento e integração de bases de dados geoespaciais sobre a flora paulista", filiado ao Biota Síntese.

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Generated from JGCRI/rtemplate