Principal >
Cursos >
Ciencia de Datos > Actividades y Material de Apoyo
Actividades y Material de Apoyo
Sesión 1: Introducción a Ciencia de Datos (Lunes 16 de enero)
Parte: "Arranque del Curso"
Parte: Introducción a Ciencia de Datos (Teórica)
- Conceptos de Ciencia de Datos (presentación en PDF y PowerPoint).
- Habilidades de un Científico de Datos (presentación en PDF y PowerPoint).
- Herramientas para Ciencia de Datos (presentación en PDF y PowerPoint).
- Conceptos sobre Datos (presentación en PDF y PowerPoint).
Parte: Python (Práctica)
Parte: Formatos de Datos (Teórico/Práctica)
EJEMPLOS:
Textos y Archivos utilizados:
Archivos de Texto:
Archivos de Texto (CSV):
Archivos de Hojas de Cálculo (XLS):
Archivos de Hojas de Cálculo (XLS):
TAREA 1: Dataset Covid
- Ir al sitio: https://datos.gob.mx/busca/dataset/informacion-referente-a-casos-covid-19-en-mexico
- Hacer click en "Descargar" para obtener el archivo CSV sobre casos de COVID en México.
- Del paso anterior se descargará el archivo "datos_abiertos_covid19.zip" (125 MB).
- Descomprimir el archivo anterior y obtendremos el archivo "230117COVID19MEXICO.csv" (1.06 GB)
- Los Metadatos del dataset anterior se pueden descargar de este enlace: https://datosabiertos.salud.gob.mx/gobmx/salud/datos_abiertos/diccionario_datos_covid19.zip
- Hacer un programa en Python que lea el CSV del Covid y realice los cálculos necesarios para contestar las siguientes preguntas, las cuales deberá imprimir el programa en pantalla:
- ¿Cuál es el promedio de Edad de todos los pacientes?
- ¿Cuál es la cantidad de Hombres y Mujeres?
- ¿Cuántos pacientes eran de Michoacán?
- ¿Cuántos pacientes eran de Morelia?
- ¿Cuántos pacientes eran "diabéticos" y tenían "hipertensión" al mismo tiempo?
- Subir el programa en Python a la plataforma GitHub Classroom (se les enviará al su correo electrónico institucional el enlace para accesar al repositorio GitHub especial para subir sus tareas del curso).
Sesión 2: Probabilidad y Estadística (Martes 17 de enero)
Parte: Estadística (Teórico/Práctica)
- Conceptos básicos de estadística (presentación en PDF y PowerPoint).
- Ejemplo de una Regresión Lineal (presentación en PDF y PowerPoint).
Códigos de Ejemplo:
Parte: Proabilidad (Teórico/Práctica)
- Conceptos básicos de probabilidad (presentación en PDF y PowerPoint).
Códigos de Ejemplo:
TAREA 2: Lista de Aceptados
- Descargar el archivo "RESULTADOS DEL EXAMEN DE ADMISIÓN 2022", que se encuentra en el siguiente enlace: archivo_001_lista_de_aceptados_2022.pdf
- De la lista de alumnos aceptados que aparecen en el archivo anterior, se deberá seleccionar las listas de 2 carreras diferentes, las que ustedes decidan (están marcadas en color verde).
- Con las 2 carreras seleccionadas anteriormente, hacer un programa en Python que lea el archivo anterior y realice los cálculos necesarios para contestar las siguientes preguntas, las cuales deberán imprimirse en pantalla:
- ¿Cuál es el promedio mas alto? (imprimir los promedios de ambas carreras)
- ¿Cuál carrera tiene la mayor dispersión con respecto a la calificación obtenida? (imprimir ambas desviaciones estándar)
- ¿Cuál es es la calificación más alta y cuál la mas baja de cada carrera? (imprimir el nombre completo del alumno y su calificación obtenida)
- ¿Cuáles son las 5 calificaciones más altas contando ambas carreras? (imprimir el nombre completo del alumno, la carrera y su calificación obtenida)
- Subir el programa en Python a la plataforma GitHub Classroom (se les enviará a su correo electrónico institucional el enlace para accesar al repositorio GitHub especial para subir las tareas del curso).
- RECOMENDACIONES: Se puede extraer de manera manual los datos necesarios (copiar las listas verdes) y pegarlas a una hoja de Excel(XLS) ó a un editor de texto para crear un archivo nuevo (CVS), y hacer el procesamiento en este nuevo archivo por medio de Python, para evitar leer directamente el archivo PDF (el cual resulta mas complicado). En caso de crear un archivo nuevo, también hay que subirlo al GitHub Classroom.
Sesión 3: Machine Learning (Miércoles 18 de enero)
Parte: Historia (Teórico)
Parte: Conceptos (Teórico/Práctica)
Códigos de Ejemplo
Regresión Lineal
K-Means:
KNN:
SVM:
Decision Trees:
Random Forest:
Sesión 4: Deep Learning (Jueves 19 de enero)
Parte: Historia (Teórico)
Parte: Conceptos (Teórico/Práctica)
Sesión 5: Procesamiento del Lenguaje Natural (Viernes 20 de enero)
Parte: Pre-Procesamiento de Información (Teórico/Práctica)
Códigos de Ejemplo:
Parte: Análisis de Textos (Teórico/Práctica)
Códigos de Ejemplo:
- Calcula la Diversidad Léxica de un texto (codigo python, python_lenguaje_natural_diversidad_lexica.py).
- Buscar las palabras mas repetidas de un texto (codigo python, python_nlp_palabras_mas_repetidas.py).
- Buscar las palabras mas repetidas de un texto y generar su "nube de palabras" (codigo python, python_nlp_nube_de_palabras.py).
- Generar una “Nube de Palabras” a partir de una página de Wikipedia (codigo python, python_nlp_nube_de_palabras_wikipedia.py).
- Analizar un texto para determinar su polaridad (positivo, negativo ó neutral) (codigo python, python_nlp_analisis_sentimientos_manual.py).
- Analiza un texto para determinar su polaridad (positivo, negativo ó neutral) utilizando listas de palabras positivas y negativas (codigo python, python_nlp_analisis_sentimientos_con_listas.py).
- Analiza un texto para determinar su polaridad (positivo, negativo ó neutral) usando TextBlob (codigo python, python_nlp_analisis_sentimientos_con_textblob.py).
- Analiza un "tuit" para determinar su polaridad usando TextBlob (codigo python, python_nlp_analisis_sentimientos_twitter.py).
Parte: Listas de Palabras (Práctica)
Parte: Textos de Prueba (Práctica)
Parte: ChatBots (Teórico/Práctica)
Códigos de Ejemplo:
TAREA 3: Análisis de un Libro
- Buscar en Internet un libro de dominio público en formato "txt" y que esté en "español".
- De acuerdo al libro seleccionado anteriormente, hacer un programa en Python que lea el archivo "txt" y realice los cálculos necesarios para hacer las siguientes operaciones:
- ¿Cuál es la "Diversidad Léxica del libro? (imprimir en pantalla)
- ¿De qué temas trata el libro? (buscar e imprimir en pantalla las 5 palabras más repetidas)
- Generar la nube de ideas del libro.
- ¿El contenido del libro es positivo ó negativo? (análisis de sentimientos)
- Subir el programa en Python y el libro utilizado a la plataforma GitHub Classroom (se les enviará a su correo electrónico institucional el enlace para accesar al repositorio GitHub especial para subir las tareas del curso).
Trabajo Actual y Tendencias
- Proyectos de IoT en el ITM - Cluster con Legos y Raspberrys (presentación en PDF y PowerPoint).
- Proyectos de Ciencia de Datos en el ITM (presentación en PDF y PowerPoint).
- Tendencias en Ciencia de Datos (presentación en PDF y PowerPoint).
- Aplicaciones Prácticas de Inteligencia Artificial (acetatos en PDF y PowerPoint).
Usted se encuentra Aquí >
Principal >
Cursos >
Ciencia de Datos > Actividades y Material de Apoyo
Portal de Tecnología desarrollado por: Rogelio Ferreira Escutia