IntegraFlora

Como usar as listas de espécie

As listas de espécies já geradas podem ser baixadas aqui: Você pode ler ou baioxar listas individuais aqui:

Resumo do workflow da ferramenta

A ferramenta IntegraFlora consiste em um pacote R e uma coleção de scripts que devem ser executados sequencialmente, assim como scripts para construção dos arquivos auxiliares de entrada. Para usar a ferramenta para gerar novas listas de espécie, o usuário precisa baixar os dados de ocorrência de espécies da área desejada (eg, do estado de São Paulo) das fontes de dados, e salvar os arquivos nas pastas especificadas no README. Os arquivos auxiliares (de descrição das UCs) estão inclusos no repositório, mas também podem ser atualizados pelo usuário.

Nos primeiros scripts, em analyses/formatData/, os dados de ocorrência das diferentes fontes são padronizados, garantindo que os nomes das colunas estejam no padrão DarwinCore e que colunas com os mesmos nomes estejam no mesmo padrão de formatação. Em seguida, no script analyses/joinData.R, os dados são consolidados em uma única tabela e formatados com auxílio do pacote plantR. Nessa etapa, os nomes de coletores e identificadores são padronizados, assim como datas, números de coleta e códigos institucionais. Além disso, no script analyses/saopaulo.R, fazemos o tratamento e correção dos campos de localidade, a atribuição e checagem de coordenadas geográficas, a correção dos nomes científicos, e a atribuição de um valor de confiança da identificação, baseada na especialização do identificador.

Com os dados tratados e checados, é aplicado o algoritmo de detecção de duplicatas, baseado em combinações de sobrenome do coletor, ano de coleta, local de coleta, família ou espécie, e número de coleta. A detecção de duplicatas reduz drasticamente o volume de dados ao remover as duplicatas virtuais (mesmo registro de herbário, baixado de bancos de dados diferentes), e ajuda a completar dados faltantes ou corrigir identificações pouco confiáveis.

A partir daqui, temos uma tabela de ocorrências, que filtramos para conter apenas ocorrências do estado de São Paulo. No script analyses/getOccs.R, essas ocorrências serão filtradas por seus campos de município, localidade e coordenadas geográficas para gerar arquivos separados para cada UC, contendo todas as ocorrências associadas àquela UC, com diferentes graus de confiança de acordo com a origem da associação (mais detalhes abaixo). Por fim, no script analyses/treatOccs.R, são selecionadas as ocorrências com maior grau de confiança para cada táxon, e essas são organizadas em listas de espécie ordenadas por família e nome científico.

Estrutura de diretorios e conteúdo do repositório

analyses/ - scripts para tratamento dos dados
- formatData - scripts de padronização dos dados de cada fonte
data - dados usados pela ferramenta, informações sobre bases de dados e localidades
data-input - dados brutos baixados dos Herbários Virtuais
- GBIF - arquivos baixados do GBIF
- JABOT - arquivos baixados do JABOT
- Reflora - arquivos baixados do Reflora
- splink - arquivos baixados do splink
data-tmp - arquivos intermediários criados por esta ferramenta
plots - figuras
R - funções usadas pelos scripts
results - resultados, incluindo as listas de espécies
- allfields - listas de espécies contendo todos os campos, em formato .csv
- checklists - listas de espécies no formato do Catálogo de Plantas das UCs do Brasil
- total - todos os registros encontrados em cada UC, em formato .rda
- total-treated - todos os registros encontrados em cada UC, em formato .csv

Como usar esta ferramenta:

Antes de começar, é preciso baixar os dados atualizados das bases de dados:

GBIF - arquivos .zip
Reflora - arquivos .csv
splink (obs.: para baixar dados em grandes quantidades, será necessário criar uma conta) - arquivos .txt
JABOT - arquivos .csv

Os dados devem ser salvos nas respectivas pastas dentro de data-input/Occurrences/. No caso de mais de um arquivo serem salvos na mesma pasta, o script combinará os dados dos arquivos diferentes antes de iniciar o tratamento dos dados. No caso dos dados Reflora, por favor abra os arquivos e salve como csv na mesma pasta antes de prosseguir.

Execute os scripts da pasta analyses/formatData/ e os script analyses/joinData.R.
Execute o script analyses/saopaulo.R. Esse script pode consumir muita memória e processamento, dependendo do número de registros. Por isso, garanta que os recursos de seu computador estejam disponíveis. Antes dessa etapa, você pode opcionalmente adicionar sinônimos de localidades no arquivo results/locations/locGazetteer.csv.
Opcionalmente, adicione nomes alternativos de localidades na tabela de nomes alternativos.
Execute os scripts analyses/getOccs.R e analyses/treatOccs.R.
Você pode produzir algumas estatísticas e figuras a partir dos seus resultados usando o script analyses/resultStats.R.
Os resultados podem ser encontrados na pasta results/checklist.

Critério de Confiança e critério de seleção para lista

A partir dos totais de registros associados a cada UC, as listas finais são produzidas selecionando-se um registro para representar cada espécie, variedade, forma ou subspécie, além de um registro para representar cada gênero ou família não representado por registros com identificações mais precisas. Esses representantes são selecionados de acordo com os critérios de confiança em localidade e identificação, na escala "Ouro">"Prata">"Bronze">"Latão", e em caso de empate, na presença de informação de barcode e em quão recente foi a coleta.

O critério de confiança em localização se baseia em qual foi o método de seleção utilizado, de acordo com a seguinte tabela:

Categoria	Fonte da seleção	Grau de confiança
locality_exact	Busca pelos nomes da UC usando expressões regulares nos campos textuais	Ouro
plantr_exact	Identificador de localidade plantR idêntico ao da UC em algum município	Ouro
intersect_high	Registros encontrados pelos dois métodos anteriores em UCs com mais de 98% de sua área dentro da UC alvo	Ouro
intersect_medium	Registros encontrados pelos dois métodos anteriores em UCs com mais de 80% de sua área dentro da UC alvo	Prata
coords_original	Coordenadas originais do registro	Bronze
coords_gazet	Coordenadas da localidade, obtidas do gazeteiro	Prata
coords_both	Ambas as coordenadas originais e da localidade	Ouro

O critério de confiança na identificação depende da especialização do identificador ou do coletor, usando os valores da coluna tax_check produzida pela função validateTax do pacote plantR:

tax_check	Significado	Grau de confiança
high	Identificador é taxonomista especialista da família	Ouro
medium	Identificador é taxonomista generalista	Prata
low	Identificador não é nem especialista nem generalista	Bronze
unkown	Identificador não está listado	Latão

Apoio

Esta ferramenta foi financiada pela FAPESP como parte do projeto 2024/07747-9 - "Aprimoramento e integração de bases de dados geoespaciais sobre a flora paulista", filiado ao Biota Síntese.

Name		Name	Last commit message	Last commit date
Latest commit History 337 Commits
.github		.github
.vscode		.vscode
R		R
analyses		analyses
data-input		data-input
data-tmp		data-tmp
data		data
inst/extras		inst/extras
man		man
plots		plots
results		results
tests		tests
.Rbuildignore		.Rbuildignore
.gitignore		.gitignore
CITATION.md		CITATION.md
DESCRIPTION		DESCRIPTION
DISCLAIMER		DISCLAIMER
LICENSE		LICENSE
NAMESPACE		NAMESPACE
NEWS.md		NEWS.md
README.md		README.md
SUPPORT.md		SUPPORT.md
_config.yml		_config.yml
_pkgdown.yml		_pkgdown.yml
convert_xslx.sh		convert_xslx.sh
duplicated-wfo.csv		duplicated-wfo.csv
make.R		make.R
rtemplate.Rproj		rtemplate.Rproj

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

IntegraFlora

Como usar as listas de espécie

Resumo do workflow da ferramenta

Estrutura de diretorios e conteúdo do repositório

Como usar esta ferramenta:

Critério de Confiança e critério de seleção para lista

Apoio

About

Uh oh!

Releases

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

IntegraFlora

Como usar as listas de espécie

Resumo do workflow da ferramenta

Estrutura de diretorios e conteúdo do repositório

Como usar esta ferramenta:

Critério de Confiança e critério de seleção para lista

Apoio

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Packages