Análise de Dados do Panorama da COVID-19 no Brasil e no Mundo

João Gustavo
Data Hackers
Published in
13 min readJun 3, 2021

--

To read in English, click here!

COVID-19 é uma doença infecciosa causada por recém-descoberto coronavírus.

Transmitido principalmente por meio de gotículas provenientes de tosses ou espirros de pessoas infectadas, a gravidade dos sintomas varia muito de pessoa para pessoa.

Fato é, não se sabe muita coisa a respeito do COVID-19. Estudos estão sendo realizados no mundo todo, porém os resultados ainda não são conclusivos e definitivos.

Até o presente momento, observa-se que cerca de 80% dos casos confirmados são assintomáticos e rápidos. A maioria das pessoas que se encaixam nesse grupo, se recupera sem nenhuma sequela.

No entanto, 15% das pessoas terão infecções graves e precisarão de oxigênio. O restante das pessoas, que representam 5%, serão classificadas como infecções muito graves e precisarão de ventilação assistida, por meio de respiradores mecânicos em ambiente hospitalar.

Com o objetivo de elevar a consciência situacional a respeito do COVID-19 no Brasil, irei realizar uma análise sobre os dados públicos da doença.

Obtenção dos Dados

Os dados usados foram obtidos a partir de um repositório no GitHub, sobre a Covid-19, do OWID (Our World in Data). Portanto, o dataset a ser analisado é um arquivo.csv(owid-covid-data.csv) — Dados sobre o COVID-19 (coronavírus) por Our World in Data

Análise Exploratória dos Dados

Aqui é onde você vai adquirir o conhecimento necessário, assim será capaz de absorver todos os insights obtidos através da análise.

A melhor forma para começarmos é checar como é o corpo do nosso DataFrame, sendo assim, vamos descobrir como estão distribuídos nossos dados.

Após digitar apenas uma linha de código, foi possível vermos que nosso DataFrame possui:

  • 84 530 entradas
  • 59 colunas

É notável que o DataFrame possui muitas variáveis e cada uma delas será explicada no dicionário abaixo.

Dicionário de Variáveis

  • iso_code - ISO 3166-1 alfa-3 - códigos de países de três letras
  • continent - Continente da localização geográfica
  • location - Localização geográfica
  • date - Data de observação
  • total_cases - Total de casos confirmados de COVID-19
  • new_cases - Novos casos confirmados de COVID-19
  • new_cases_smoothed - Novos casos confirmados de COVID-19 (7 dias suavizados)
  • total_deaths - Total de mortes atribuídas à COVID-19
  • new_deaths - Novas mortes atribuídas à COVID-19
  • new_deaths_smoothed - Novas mortes atribuídas à COVID-19 (7 dias suavizados)
  • total_cases_per_million - Total de casos confirmados de COVID-19 por 1.000.000 de pessoas
  • new_cases_per_million - Novos casos confirmados de COVID-19 por 1.000.000 de pessoas
  • new_cases_smoothed_per_million - Novos casos confirmados de COVID-19 (7 dias suavizados) por 1.000.000 de pessoas
  • total_deaths_per_million - Total de mortes atribuídas à COVID-19 por 1.000.000 de pessoas
  • new_deaths_per_million - Novas mortes atribuídas à COVID-19 por 1.000.000 de pessoas
  • new_deaths_smoothed_per_million - Novas mortes atribuídas à COVID-19 (7 dias suavizados) por 1.000.000 de pessoas
  • reproduction_rate - Estimativa em tempo real da taxa de reprodução efetiva (R) da COVID-19
  • icu_patients - Número de pacientes COVID-19 em unidades de terapia intensiva (UTIs) em um determinado dia
  • icu_patients_per_million - Número de pacientes COVID-19 em unidades de terapia intensiva (UTIs) em um determinado dia por 1.000.000 de pessoas
  • hosp_patients - Número de pacientes da COVID-19 no hospital em um determinado dia
  • hosp_patients_per_million - Número de pacientes COVID-19 no hospital em um determinado dia por 1.000.000 de pessoas
  • weekly_icu_admissions - Número de pacientes COVID-19 recém admitidos em unidades de terapia intensiva (UTIs) em uma determinada semana
  • weekly_icu_admissions_per_million - Número de pacientes COVID-19 recém admitidos em unidades de terapia intensiva (UTIs) em uma determinada semana por 1.000.000 de pessoas
  • weekly_hosp_admissions - Número de pacientes COVID-19 recém admitidos em hospitais em uma determinada semana
  • weekly_hosp_admissions_per_million - Número de pacientes COVID-19 recém admitidos em hospitais em uma determinada semana por 1.000.000 de pessoas
  • total_tests - Testes totais para a COVID-19
  • new_tests - Novos testes para a COVID-19 (apenas calculados para dias consecutivos)
  • total_tests_per_thousand - Testes totais para COVID-19 por 1.000 pessoas
  • new_tests_per_thousand - New tests for COVID-19 per 1,000 people
  • new_tests_smoothed - Novos testes para a COVID-19 (7 dias suavizados). Para países que não relatam dados de testes diariamente, assumimos que os testes mudaram igualmente diariamente em quaisquer períodos em que não foram relatados dados. Isto produz uma série completa de números diários, que é então calculada como média em uma janela rolante de 7 dias.
  • new_tests_smoothed_per_thousand - Novos testes para COVID-19 (7 dias suavizados) por 1.000 pessoas
  • positive_rate - A parte dos testes COVID-19 que são positivos, dada como média móvel de 7 dias (este é o inverso dos tests_per_case)
  • tests_per_case - Testes realizados por novo caso confirmado de COVID-19, dado como uma média móvel de 7 dias (este é o inverso de positive_rate)
  • tests_units - Unidades utilizadas pelo local para relatar seus dados de teste
  • total_vaccinations - Número total de doses de vacinação COVID-19 administradas
  • people_vaccinated - Número total de pessoas que receberam pelo menos uma dose de vacina
  • people_fully_vaccinated - Número total de pessoas que receberam todas as doses prescritas pelo protocolo de vacinação
  • new_vaccinations - Novas doses de vacinação COVID-19 administradas (apenas calculadas para dias consecutivos)
  • new_vaccinations_smoothed - Novas doses de vacinação COVID-19 administradas (7 dias suavizadas). Para países que não reportam dados de vacinação diariamente, assumimos que a vacinação mudou igualmente diariamente durante quaisquer períodos em que não foram reportados dados. Isto produz uma série completa de números diários, que é então calculada como média em uma janela rolante de 7 dias.
  • total_vaccinations_per_hundred - Número total de doses de vacinação COVID-19 administradas por 100 pessoas na população total
  • people_vaccinated_per_hundred - Número total de pessoas que receberam pelo menos uma dose de vacina por 100 pessoas na população total
  • people_fully_vaccinated_per_hundred - Número total de pessoas que receberam todas as doses prescritas pelo protocolo de vacinação por 100 pessoas na população total
  • new_vaccinations_smoothed_per_million - Novas doses de vacinação COVID-19 administradas (7 dias suavizadas) por 1.000.000 de pessoas na população total
  • stringency_index - Índice de Estringência de Resposta do Governo: medida composta baseada em 9 indicadores de resposta, incluindo fechamento de escolas, fechamento de locais de trabalho e proibição de viagens, redimensionada para um valor de 0 a 100 (100 = resposta mais estrita)
  • population - Population in 2020
  • population_density - Número de pessoas dividido por área de terreno, medido em quilômetros quadrados, ano mais recente disponível
  • median_age - Idade média da população, projeção da ONU para 2020
  • aged_65_older - Parte da população com 65 anos de idade ou mais, ano mais recente disponível
  • aged_70_older - Participação da população com 70 anos de idade ou mais em 2015
  • gdp_per_capita - Produto interno bruto em paridade de poder de compra (dólar internacional constante em 2011), ano mais recente disponível
  • extreme_poverty - Participação da população vivendo em extrema pobreza, ano mais recente disponível desde 2010
  • cardiovasc_death_rate - Taxa de mortalidade por doença cardiovascular em 2017 (número anual de mortes por 100.000 pessoas)
  • diabetes_prevalence - Prevalência do diabetes (% da população de 20 a 79 anos de idade) em 2017
  • female_smokers - Participação de mulheres que fumam, ano mais recente disponível
  • male_smokers - Participação de homens que fumam, ano mais recente disponível
  • handwashing_facilities - Parte da população com instalações básicas de lavagem de mãos nas instalações, o ano mais recente disponível
  • hospital_beds_per_thousand - Leitos hospitalares por 1.000 pessoas, o ano mais recente disponível desde 2010
  • life_expectancy - Expectativa de vida ao nascer em 2019
  • human_development_index - Um índice composto que mede o desempenho médio em três dimensões básicas do desenvolvimento humano - uma vida longa e saudável, conhecimento e um padrão de vida decente.

Tipos de Dados

Podemos falar também, sobre os tipos de dados encontrados no nosso DataFrame, que em sua maioria são dados do tipo Float(dados com casas decimais), entretanto, temos algumas exceções com dados sendo do tipo object(dados não numéricos).

Primeiras entradas

Em seguida, vamos conhecer nosso DataFrame, vamos olhar as 5 primeiras entradas e ver o que elas nos dizem.

Cinco primeiras entradas

Após checarmos as primeiras entradas, podemos notar a ausência de alguns valores. Entretanto, não há sentido em fazermos uma limpeza extensa quando se trata de dados a respeito de um vírus, pois esses dados já correspondem a realidade.

Limpeza dos Dados

Portanto, iremos analisar as variáveis com mais valores ausentes e depois poderemos definir qual o tratamento mais adequado.

Após analisarmos os dados ausentes, é notável que:

  • weekly_icu_admissions,weekly_icu_admissions_per_million,weekly_hosp_admissions e weekly_hosp_admissions_per_million - se tornam variáveis irrelevantes para a análise, visto que, cerca de 98% dos valores estão ausentes por isso pode ser excluída. A variável,tests_units também será excluída, pois não há relevância para a análise.
  • icu_patients,icu_patients_per_million,hosp_patients e hosp_patients_per_million - são variáveis referentes a um único dia de registro, possuem mais de 87% dos valores ausentes. Sendo assim, estes serão excluídos, de modo a termos uma análise o mais próximo possível da realidade.

Visualizando Dados

Essa parte é destinada à visualização dos dados, seja através de gráficos ou por meio do DataFrame.

Países Com Mais Casos

Em seguida, vamos localizar quais Países possuem mais casos para a data 2021–04–27, em ordem, são:

  • Mundo148.716.872 casos registrados no Mundo todo.
  • Estados Unidos32.175.725 casos registrados, podemos levar em consideração as dimensões do País, dimensões continentais e segundo a CNN BRASIL, um dos possíveis motivos pela grande qauntidade de casos foi também a falha do governo americano em agir de forma rápida e decisiva para evitar a disseminação do vírus.
  • India17.997.113 casos registrados, um País com uma população gigantesca, cerca de 1.366 bilhões de pessoas. Apesar de ser um país com um território menor, possui uma elevada densidade demográfica, o que explicaria a quantidade de casos.
  • Brazil14.441.563 casos registrados, aqui também temos um País com dimensões continentais, mas uma população menor que a da India e dos Estados Unidos, a quantidade de casos elevados se deve por falta de preparo, pela negligência da população, em relação ao lockdown e o uso de máscaras o que resultou em uma grande disseminação do vírus.
  • França5.595.403 casos registrados, um dos grandes motivos para a grande quantidade de casos foi a demora para o o governo agir, gerando uma disseminação ainda maior do vírus.
  • Russia4.725.252 casos registrados, um país de dimensões continentais, mas com uma população menor do que a de Países de dimensões parecidas, porém possui um clima favorável para a disseminação do vírus. Entretanto, não se encaixa nos 5 países com mais mortes, o que é um ponto extremamente positivo.

Países Com Mais Mortes

Em seguida, vamos localizar quais Países possuem mais mortes para a data 2021–04–27

Podemos notar que os Países que mais possuem mortes, em ordem, são:

  • Mundo3.134.956 mortes registradas no Mundo todo.
  • Estados Unidos573.381 mortes registradas, era de se esperar, o país com mais casos também é o com mais mortes.
  • Brasil395.022 mortes registradas, não é o segundo País com mais casos mas é o segundo com mais mortes, possivelmente pela falta de recursos e o despreparo do País para lidar com o vírus.
  • Mexico215.547 mortes registradas, aqui temos um caso inesperado, não se encaixa nos 5 países com mais casos, mas está entre os 5 com mais mortes.
  • India201.187 mortes registradas, está em segundo com a quantidade de casos, mas em quarto na quantidade de mortes, ao que parece a India soube lidar com o vírus de forma eficiente, para que houvesse um número reduzido de mortos.
  • Reino Unido127.705 mortes registradas, não chega a aparecer entre os 5 países com mais casos, mas é um dos 5 com mais mortos, definitivamente é um caso curioso.

Gráficos dos 5 Países Total de Mortes e de Casos

Para termos uma visualização gráfica, que muitas vezes se torna mais eficiente para obter informações do que um texto, irei plotar gráficos para os 5 Países com mais mortes e casos.

Portanto, também irei colocar para efeito de comparação gráficos onde o mundo estará presente, sendo assim, poderemos relacionar os números dos países com os números totais do globo.

Nos gráficos podemos ver que quanto maior a barra, mais escura e por consequência esse é o maior número.

  • Quando colocamos o Mundo junto dos Países, podemos ver que apesar da quantidade de casos ser grande em um País a quantidade total de casos no mundo chega a ser de aproximadamente 1,8% da população mundial, ou seja, 98,2% da população mundial não chegou a contrair o Covid-19. Temos que levar em consideração, que 1,8% de 7,866 bilhões é uma grande quantidade.
  • Quando falamos da quantidade total de mortes, temos 3.134.956 mortes no mundo e 148.716.872 casos, cerca de 2,1% das pessoas que contraíram o vírus morreram, enquanto 97,9% se recuperaram.

Gráficos de Mortes e Casos ao Decorrer do Tempo

Em seguida, irei plotar um gráfico para que possamos ver a evolução dos casos e mortes de Covid-19 ao decorrer do tempo. Os gráficos terão os Países acima e o Mundo como objeto de análise.

Alguns dos insights que podemos retirar dos gráficos são:

  • O Estados Unidos sempre se manteve em primeiro na quantidade de casos, sendo que em novembro de 2020 houve um aumento expressivo no registro de casos.
  • Apesar da India se manter a frente do Brasil na quantidade de casos, o Brasil possui uma grande quantidade de mortes a mais.
  • O País onde mais teve mortes registradas é o Estados Unidos
  • Quando colocamos o Mundo no gráfico, o crescimento dele se torna bem mais expressivo, uma vez que é a soma dos casos e mortes de todos os Países do globo.

Análise Exploratória para o Brasil

Agora para uma análise específica para o Brasil, irei fazer uma cópia do DataFrame que irá me retornar apenas as entradas que possuem o Brasil como localização.

Vamos conhecer esse dataset, podemos ver as 5 primeiras entradas para isso.

A data mais recente presente no DataFrame é do dia 27–04–2021.

Primeira Morte no Brasil

A primeira morte no Brasil, foi registrada em:

  • 17 de Março de 2020 — Nesse dia já haviam 321 casos e foi quando ocorreu a primeira morte por Covid-19 no Brasil.

Primeiro Caso no Brasil

O primeiro caso de Covid-19 no Brasil, foi registrado em:

  • 26 de Fevereiro de 2020 — Data de quando foi registrado o primeiro caso de Covid-19 no Brasil.

Primeiro Caso e Primeira Morte

Sabemos que o primeiro caso e a primeira morte no Brasil, ocorreram nas seguintes datas:

  • 26 de Fevereiro de 2020 - Primeiro caso de Covid-19 registrado no Brasil.
  • 17 de Março de 2020 - Primeira morte por Covid-19 registrada no Brasil.

Tempo decorrido entre o Primeiro Caso e a Primeira Morte

Entre o primeiro caso registrado e a primeira morte, se passaram:

  • 20 dias — entre o primeiro caso e a primeira morte.

Visualizando Dados do Brasil em Comparação a América do Sul

O Brasil sem sombra de dúvidas foi um dos Países que mais sofreu com a pandemia do Coronavírus e para fins de comparação, iremos fazer uma análise do Brasil em comparação aos 5 Países com mais casos e mais mortes da América Do Sul.

Para isso vamos criar uma cópia do DataFrame onde estarão presentes apenas entradas que o continente seja a América do Sul. Vamos conhecer o dataset olhando as 5 primeiras entradas.

Países com Mais Casos

Em seguida, iremos localizar quais países da América do Sul possuem mais casos para a data mais atual.

Os Países que mais possuem casos, em ordem, são:

  • Brasil14.441.563 casos registrados.
  • Argentina2.905.172 casos resgistrados
  • Colômbia2.804.881 casos registrados
  • Peru1.768.186 casos registrados
  • Chile1.179.772 casos registrados

É notável a diferença do número de casos do Brasil quando comparado aos outros Países. Se torna um dado assustador quando descobrimos que, apenas os casos do Brasil, representam mais de 50% de todos os casos da América do Sul.

Países com Mais Mortes

Por fim, vamos localizar quais Países da América do Sul possuem mais mortes para a data mais atual.

Os países que mais possuem mortes, em ordem, são:

  • Brasil395.022 mortes registradas.
  • Colômbia72.235 mortes registradas.
  • Argentina62.599 mortes registradas.
  • Peru60.013 mortes registradas.
  • Chile26.020 mortes registradas.

Portanto, aqui vemos mais uma vez que o Brasil se mantém liderando a quantidade de mortes, assim como os casos. Entretanto, a Argentina possui mais casos que a Colômbia, mas possui menos mortes.

Gráficos dos 5 Países Total de Mortes e de Casos(América Do Sul)

Gráficos para visualizarmos a disposição dos casos e das mortes nos Países da América do Sul.

Nos gráficos podemos notar que o Brasil se mantém em primeiro, seja para casos ou para mortes.

Alguns outros insights que podemos tirar dos gráficos, são:

  • O Brasil representa a maior parte tanto dos casos, quanto das mortes na América do Sul.
  • O Brasil representa mais de 50% das mortes da América do Sul, com 395.022 mortes registradas. Sendo que a América do Sul possui 658.283 mortes registradas.
  • Apesar da Argentina ter mais casos que a Colômbia, possui menos mortes.

Gráficos de Mortes e Casos ao Decorrer do Tempo(América do Sul)

Gráficos para vermos a evolução da Covid-19 nos Países da América do sul.

Alguns dos insights que tive com os gráficos, são:

  • O Brasil teve grande influência no gráfico da América do Sul, sabendo que possuem um comportamento parecido e são os que mais se assemelham em quantidade de casos e mortes.
  • O Chile se mantém em último seja na quantidade de casos ou mortes.

Conclusão

Nesta análise, podemos obter informações diversas sobre a covid-19. Por exemplo, agora nós sabemos que o Estados Unidos é de longe o País com mais casos e mortes, o Brasil é o segundo País com mais mortes, a Índia possui mais casos que o Brasil mas possui menos mortes e podemos ressaltar que o Brasil é o País da América do Sul que mais sofreu com a Pandemia. Alguns outros fatos curiosos são:

  • Não é por ter mais casos que também terão mais mortes e vice-versa, exemplos disso são a Índia e o México.
  • O México possui não se encaixa entre os 5 Países com mais casos, mas se encaixa entre os 5 com mais mortes.

Para ter acesso ao projeto, clique aqui! Aproveita para me seguir no LinkedIn e fica de olho no meu GitHub, lá você poderá encontrar mais projetos futuramente.

--

--