Obtener datos por medio de Web Scraper

jaime
today 31 enero, 2020 label Categoría:  ¿Cómo organizar tus datos?

Para comenzar ¿qué es scrapping? es una técnica utilizada mediante programas de software para extraer información de sitios web. Usualmente, estos programas simulan la navegación de un humano ya sea utilizando el protocolo HTTP o manualmente. En este caso utilizaremos una extensión de Google Chrome, acá te dejo el link.

Se llama Web Scraper y veremos cómo utilizarlo para extraer información de un sitio llamado IMDb (Internet Movie Database), en ella encontramos bases de datos con las valoraciones de series y películas.

Mi intensión será extraer la información de una serie por temporadas y la valoración que tuvo durante su transmisión, te dejo el link para que hagamos el ejercicio: Link IMDb con la serie Game Of Thrones.

Esta será nuestra página de aterrizaje y ahora veremos por qué. En ella podemos ver el número de temporadas en la parte inferior izquierda y al dar clic a una de ellas nos muestra la información por cada temporada y capítulo, a continuación extraeré: nombre de capítulo, número de capítulo y a qué temporada corresponde, valoración e imagen.

Al hacer esta acción por temporada le diré que regrese a nuestra página de aterrizaje para que ejecute la misma acción una y otra vez hasta completar la tarea .

Paso 1

Hacemos clic izquierdo en nuestro mouse y presionamos en inspeccionar, esta ventana que se abre es muy utilizada por programadores para ver la estructura de una página y detectar errores.

Si no aparece Web Scraper en la fila superior, le damos clic a las flechitas que van hacia la derecha y ahí nos aparecerá, al entrar al modulo podremos ver archivos que ya hallamos trabajado previamente.

En la segunda fila encontramos 3 opciones, vamos a crear una nueva búsqueda dando clic en Create new sitemap, ahí colocamos el nombre de nuestro proyecto que debe estar solo en minúsculas y sin caracteres especiales y en la parte de la URL copiamos y pegamos la página de aterrizaje (la primer página donde contiene todos los número de temporadas) y le damos clic a Create Sitemap.

Ya una vez dentro agregamos nuestra primer selección donde como primer paso le diremos que entre a cada link presionando el botón Add new selector.

Una vez dentro vemos diferentes campos que tendremos que llenar:

  • El primero es el Id donde pondremos cualquier nombre, entre más descriptivo mejor, para este ejemplo le pondré «temporadas».
  • El segundo es Type, acá salen diversas opciones que veremos algunas de ellas más adelante, esta sección es donde le decimos qué acción queremos que realice, en este caso es que entre al link de cada temporada para extraer la información.
  • Seleccionamos el cuadro de ☑ Multiple para que nos haga la selección de todos los elementos dentro de ese contenedor.
  • Seleccionamos nuestro primer y ultimo elemento el cual se pondrá de color verde para indicarnos el elemento a seleccionar y al presionarlos se volverán a color rojo y presionamos el botón de Save selector.

Paso 2

Al salvar el Selector, nos creará un nuevo elemento con el nombre que le dimos que fue «temporada» al cual accederemos dandole clic para extraer la información de cada capitulo y entrando al primer link, para este caso al link con el número 1 que es el de la primer temporada.