Skip to content

[epic] Realizar as correções de criação do arquivo kbart #94

Description

@robertatakenaka

Processamento de pacotes KBART das coleções SciELO

Realizar correções e manter o branch https://github.com/scieloorg/processing/tree/codex/python3-14-migration como se fosse o principal, pois é com este branch que o ambiente é atualizado (qualquer dúvida falar com @rondinelisaad )


1. Extração do arquivo KBART

Para cada pacote .zip, o script extrai o arquivo journals_kbart.csv.


2. Renomeação dos arquivos

#129

Cada arquivo extraído é renomeado no padrão:

SciELO_<coleção>_AllTitles_<data>.csv

Se o arquivo estiver vazio, recebe o sufixo _vazio.csv.


3. Padronização do cabeçalho KBART

#91

Os cabeçalhos traduzidos, como:

Título do Periódico (publication_title)

São substituídos pelos nomes padrão em inglês:

publication_title
print_identifier
online_identifier
title_url
coverage_depth
...

4. Preenchimento de coverage_depth

#92

Todos os registros recebem:

coverage_depth = fulltext

5. Conversão de URLs para HTTPS

#72

O script substitui http:// por https:// no campo title_url para as coleções elegíveis.


6. Coleções mantidas em HTTP

As seguintes coleções não têm suas URLs convertidas para HTTPS:

  • tabs_bol
  • tabs_col
  • tabs_per
  • tabs_cub
  • tabs_sss
  • tabs_ury

7. Correção específica da Venezuela

#67

Para SciELO_ven, o script substitui:

http://www.scielo.org.ve

por:

https://ve.scielo.org

8. Correção específica da Espanha

#64

Para SciELO_esp, o script atualiza o PID nas URLs:

pid=1575-0620&

por:

pid=2013-6463&

9. Correção específica da West Indies

#93

Para tabs_wid, o script substitui o domínio:

caribbean.scielo.org

por:

westindies.scielo.org

E adiciona o parâmetro &nrm=iso quando ele ainda não existe.

Metadata

Metadata

Labels

No labels
No labels

Type

No type

Fields

No fields configured for issues without a type.

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions