Volver a Curso
Curso Bases del Web Scraping con Python.
0% Completado
0/0 Steps
-
Antes de empezar el curso
Grupos y foros -
Bienvenida
-
Preparar ambiente de trabajoPreparar ambiente de trabajo en Linux
-
Preparar ambiente de trabajo en Windows
-
Curso Bases del Web Scraping con PythonMódulo 1 - ¿Qué es el Web Scraping?2 Temas
-
Módulo 2 - Inspección de Sitios y Extracción2 Temas
-
Módulo 3 - El archivo Robots.txt1 Tema
-
Módulo 4 - Proyecto final8 Temas
-
Proyecto extra - COVID 195 Temas
-
Encuesta
Participantes 211
Lección Progreso
0% Completado
Crearemos nuestro proyecto:
scrapy startproject Covid19
Recuerda que debemos entrar a nuestra carpeta del proyecto:
cd Covid19
Y ahora vamos a crear nuestra araña:
scrapy genspider covid www.bbc.com/news/world-51235105
y ahora en nuestro método parse traremos nuestros datos y a su vez haremos la limpieza para poder guardarlos
def parse(self, response):
item = Covid19Item()
value_convert = []
values = [x.strip() for x in response.css("table.core tbody tr.core__row td.core__value::text").getall()]
[value_convert.append(int(x.replace(",","") if x !="" else 0 )) for x in values]
item['countrie'] = [ x.strip() for x in response.css("table.core tbody tr.core__row td.core__region::text").getall()]
item['values'] = value_convert
yield item
Como puedes observar ya incluímos lo que es la limpieza de datos y la conversión de los casos y muertes de str a int utilizando lo mismo de la clase anterior.
Excelente ahora vamos a ver lo que es nuestra base de datos y nuestros pipelines.