Práctica 7: Indexado de Páginas Web
Objetivo:
- Desarrollar un motor de búsqueda que se encargue de indexar n sitios Web estáticos, y que almacene sus resultados en una base de datos para que puedan ser consultados por un usuario.
Forma de trabajo:
- Esta práctica se desarrollará en equipo.
Desarrollo:
Interconectar equipos:
- Computadoras clientes y servidor deben estar en red y con conexión a internet donde puedan accesar a n sitios Web en los cuales se realizará la búsqueda:.
Desarrollar software de búsqueda:
- Desarrollar en una lenguaje de programación (se recomienda Java) un algoritmo de búsqueda de sitios Web.
- Por cada sitio Web encontrado se deberá descargar su código HMTL para su análisis posterior.
Preprocesamiento de la Información:
Por cada sitio Web encontrado se recomienda hacer un preprocesamiento que consiste en:
- Quitar publicidad.
- Quitar etiquetas.
- Quitar formato y sólo dejar el texto de la página.
Procesamiento de la Información:
Por último ya que se tiene la información se puede hacer su análisis. Hay muchas técnicas y formas de hacer este análisis, en este caso se hará alguno muy sencillo que consistirá en:
- Identificar y contar las palabras significativas del texto (quitando preposiciones).
- Hacer una lista de las palabras que mas se repiten.
- La palabra que más se repita en una página nos quiará hacia su indexado.
Indexado:
Una vez que se identificaron las palabras que mas se repiten, se indexa el sitio (se almacena en una base de datos), con su nombre de dominio, la palabra que mas se repitió y una puntuación o ranking, basada en la repetición de la palabra (esto es para hacer una comparación con otras páginas parecidas).
Búsqueda de información por el cliente:
Los anteriores pasos los hace el Servidor el cual construye una base de datos con la información de todas las páginas que indexó. A continuación se hace una página Web para que pueda ser accesada por el Cliente, donde el Cliente escribirá lo que quiere buscar, y el Servidor buscará dentro de su base de datos, regresando al Cliente los resultados de la búsqueda (al igual que lo hace el motor de búsqueda de Google o cualquier otro motor de búsqueda actual).
Reporte del alumno (resultados):
- Se verificará que el servidor indexe sitios en tiempo real de internet.
- Posteriormente se realizará una búsqueda desde el cliente y se revisará que logre encontrar información que haya sido indexada previamente.
- Al término de la práctica, se entregará por equipo el código en una memoria USB.
FECHA DE ENTREGA: viernes 24 de marzo
Portal de Tecnología desarrollado por: Rogelio Ferreira Escutia