Práctica 6: Búsqueda de Páginas Web
Objetivo:
- Encontrar la mayor cantidad de páginas web en el menor tiempo posible.
Forma de trabajo:
- Esta práctica se desarrollará en equipo.
Desarrollo:
- Crear una base de datos donde se almacenará las páginas encontradas.
- Tomar como llave índice las páginas encontradas (para evitar repeticiones).
- Seleccionar una IP o nombre de dominio inicial de la búsqueda.
- Realizar una programa (se recomienda en lenguaje Java, pero puede ser en cualquier lenguaje de programación) para que que realice las búsquedas.
- El programa iniciará con la IP ó nombre de dominio seleccionado previamente y a partir de ahí buscará todos los enlaces que salen de esa página (etiquetas "a href") y los almacenará en la base de datos.
- En un segundo ciclo del programa, se buscará dentro de las páginas que se encontraron previamente, y este proceso se realiza de manera constante, encontrando nuevas páginas y buscando dentro de las nuevas páginas.
- Para acelerar el proceso se recomienda crear varios hilos para hacer múltiples búsquedas.
- Como punto de referencia para saber si su algoritmo es bueno, el semestre pasado se lograron 33,000 páginas encontradas en un minuto, esperemos que se pueda superar este número.
Reporte del alumno (resultados):
- Dentro del laboratorio se probará el algoritmo y contabilizará la cantidad de páginas encontradas en un minuto (sin repetir).
- Al término de la práctica, se entregará por equipo el código en una memoria USB.
FECHA DE ENTREGA: viernes 17 de marzo
Portal de Tecnología desarrollado por: Rogelio Ferreira Escutia