Volver a Curso
Curso Bases del Web Scraping con Python.
0% Completado
0/0 Steps
-
Antes de empezar el curso
0.- Grupos y foros -
1.- Bienvenida
-
Preparar ambiente de trabajo2.- Preparar ambiente de trabajo en Linux
-
3.- Preparar ambiente de trabajo en Windows
-
Curso Bases del Web Scraping con Python4.- ¿Qué es el Web Scraping?2 Temas
-
5.- Inspección de Sitios y Extracción2 Temas
-
6.- El archivo Robots.txt1 Tema
-
7.- Proyecto final8 Temas
-
7.1.- Inspección de Sitio
-
7.2.- Shell
-
7.3.- Startproject
-
7.4.- ¿Qué es el ítem?, creación de Ítem, uso de Item y creación de archivos
-
7.5.- Pipelines y BD(PostgreSQL)
-
7.6.- Conexión a BD, creación de Tabla y almacenamiento de Datos
-
7.7.- Instalación de PostgreSQL en Windows
-
7.8.- Instalar Postgresql en Linux
-
7.1.- Inspección de Sitio
-
8.- Proyecto extra - COVID 195 Temas
-
9.- Encuesta
Participantes 211
Lección Progreso
0% Completado
Crearemos nuestro proyecto:
scrapy startproject Covid19
Recuerda que debemos entrar a nuestra carpeta del proyecto:
cd Covid19
Y ahora vamos a crear nuestra araña:
scrapy genspider covid www.bbc.com/news/world-51235105
y ahora en nuestro método parse traremos nuestros datos y a su vez haremos la limpieza para poder guardarlos
def parse(self, response):
item = Covid19Item()
value_convert = []
values = [x.strip() for x in response.css("table.core tbody tr.core__row td.core__value::text").getall()]
[value_convert.append(int(x.replace(",","") if x !="" else 0 )) for x in values]
item['countrie'] = [ x.strip() for x in response.css("table.core tbody tr.core__row td.core__region::text").getall()]
item['values'] = value_convert
yield item
Como puedes observar ya incluímos lo que es la limpieza de datos y la conversión de los casos y muertes de str a int utilizando lo mismo de la clase anterior.
Excelente ahora vamos a ver lo que es nuestra base de datos y nuestros pipelines.