Crearemos nuestro proyecto:
scrapy startproject Covid19
Recuerda que debemos entrar a nuestra carpeta del proyecto:
cd Covid19
Y ahora vamos a crear nuestra araña:
scrapy genspider covid www.bbc.com/news/world-51235105
y ahora en nuestro método parse traremos nuestros datos y a su vez haremos la limpieza para poder guardarlos
def parse(self, response):
item = Covid19Item()
value_convert = []
values = [x.strip() for x in response.css("table.core tbody tr.core__row td.core__value::text").getall()]
[value_convert.append(int(x.replace(",","") if x !="" else 0 )) for x in values]
item['countrie'] = [ x.strip() for x in response.css("table.core tbody tr.core__row td.core__region::text").getall()]
item['values'] = value_convert
yield item
Como puedes observar ya incluímos lo que es la limpieza de datos y la conversión de los casos y muertes de str a int utilizando lo mismo de la clase anterior.
Excelente ahora vamos a ver lo que es nuestra base de datos y nuestros pipelines.