xumarhu.net - Cursos - Ciencia de Datos - Actividades y Material de Apoyo

Principal > Cursos > Ciencia de Datos > Actividades y Material de Apoyo

Actividades y Material de Apoyo

Sesión 1: Introducción a Ciencia de Datos (Lunes 16 de enero)

Parte: "Arranque del Curso"

Prentación del Curso (presentación en PDF y PowerPoint).

Parte: Introducción a Ciencia de Datos (Teórica)

Conceptos de Ciencia de Datos (presentación en PDF y PowerPoint).
Habilidades de un Científico de Datos (presentación en PDF y PowerPoint).
Herramientas para Ciencia de Datos (presentación en PDF y PowerPoint).
Conceptos sobre Datos (presentación en PDF y PowerPoint).

Parte: Python (Práctica)

Historia de Python (acetatos en PDF y PowerPoint).
Sitio oficial de Python (acetatos en https://www.python.org/.
Sitio oficial para descargar Python (acetatos en https://www.python.org/downloads/.
Documentación oficial de Python 3.11.1 https://docs.python.org/3/.
"The Zen of Python" https://www.python.org/dev/peps/pep-0020/.
"Guías de estilo para código en Python" https://www.python.org/dev/peps/pep-0008/.
Instalación de Python:
- Instalación de Python (Linux) (manual en HTML).
- Instalación de Python (Mac) (manual en HTML).
Herramientas para programar en Python (acetatos en PDF y PowerPoint).
Extensiones para Python en VSC (presentación en PDF y PowerPoint).
Visual Studio Code (editor de Texto): https://code.visualstudio.com/Download.
Instalación de Visual Studio Code:
- Instalación de Visual Studio Code (Linux) (manual en HTML).

Parte: Formatos de Datos (Teórico/Práctica)

Introducción a la programación con Python (presentación en PDF y PowerPoint).
Archivos de Texto (presentación en PDF y PowerPoint).
Archivos CSV (presentación en PDF y PowerPoint).
Archivos XLS (presentación en PDF y PowerPoint).
Archivos XML (presentación en PDF y PowerPoint).
Archivos JSON (presentación en PDF y PowerPoint).
Archivos HTML (presentación en PDF y PowerPoint).

EJEMPLOS:

Textos y Archivos utilizados:

Fragmento de la Poesía "En Paz", de Amado Nervo (archivo TXT, texto_005_fragmento_en_paz_amado_nervo.txt)
Lista de "lenguajes" de programación en un archivo JSON (archivo JSON, texto_004_json_lenguajes.json)
Factura del SAT en formato XML (archivo JSON, texto_006_xml_factura.xml)

Archivos de Texto:

Leer un archivo de texto externo (codigo python, python_datos_texto_abrir.py).
Lee un archivo de texto externo usando sintaxis en bloque (codigo python, python_datos_texto_abrir_bloque.py).
Leer un archivo de texto externo que está en unicode (codigo python, python_datos_texto_abrir_unicode.py).

Archivos de Texto (CSV):

Leer un archivo de texto externo por renglones en formato CSV (codigo python, python_datos_csv_renglones.py).
Leer un archivo de texto externo por renglones en formato CSV y pasarlo a una lista (codigo python, python_datos_csv_renglones_lista.py).

Archivos de Hojas de Cálculo (XLS):

Leer un archivo XLS e imprimir el número de filas, de columnas y el contenido (codigo python, python_excel_01_filas_columnas_contenido.py).
Leer una hoja de cálculo en formato de Excel y calcular el promedio de la primera fila (codigo python, python_excel_02_promedio_fila.py).

Archivos de Hojas de Cálculo (XLS):

Leer un archivo XLS e imprimir el número de filas, de columnas y el contenido (codigo python, python_excel_01_filas_columnas_contenido.py).
Leer una hoja de cálculo en formato de Excel y calcular el promedio de la primera fila (codigo python, python_excel_02_promedio_fila.py).

TAREA 1: Dataset Covid

Ir al sitio: https://datos.gob.mx/busca/dataset/informacion-referente-a-casos-covid-19-en-mexico
Hacer click en "Descargar" para obtener el archivo CSV sobre casos de COVID en México.
Del paso anterior se descargará el archivo "datos_abiertos_covid19.zip" (125 MB).
Descomprimir el archivo anterior y obtendremos el archivo "230117COVID19MEXICO.csv" (1.06 GB)
Los Metadatos del dataset anterior se pueden descargar de este enlace: https://datosabiertos.salud.gob.mx/gobmx/salud/datos_abiertos/diccionario_datos_covid19.zip
Hacer un programa en Python que lea el CSV del Covid y realice los cálculos necesarios para contestar las siguientes preguntas, las cuales deberá imprimir el programa en pantalla:
1. ¿Cuál es el promedio de Edad de todos los pacientes?
2. ¿Cuál es la cantidad de Hombres y Mujeres?
3. ¿Cuántos pacientes eran de Michoacán?
4. ¿Cuántos pacientes eran de Morelia?
5. ¿Cuántos pacientes eran "diabéticos" y tenían "hipertensión" al mismo tiempo?
Subir el programa en Python a la plataforma GitHub Classroom (se les enviará al su correo electrónico institucional el enlace para accesar al repositorio GitHub especial para subir sus tareas del curso).

Sesión 2: Probabilidad y Estadística (Martes 17 de enero)

Parte: Estadística (Teórico/Práctica)

Conceptos básicos de estadística (presentación en PDF y PowerPoint).
Ejemplo de una Regresión Lineal (presentación en PDF y PowerPoint).

Códigos de Ejemplo:

Diagrama de dispersión de edades y pesos que se obtienen de una lista (código python, python_estadistica_diagrama_dispersion.py).

Parte: Proabilidad (Teórico/Práctica)

Conceptos básicos de probabilidad (presentación en PDF y PowerPoint).

Códigos de Ejemplo:

Lanzar 10 veces una moneda e imprimir el resultado (codigo python, python_probabilidad_lanzar_10_veces_moneda.py).
Lanzar una moneda 100,000 veces e imprimir el resultado (codigo python, python_probabilidad_ley_grandes_numeros.py.py).

TAREA 2: Lista de Aceptados

Descargar el archivo "RESULTADOS DEL EXAMEN DE ADMISIÓN 2022", que se encuentra en el siguiente enlace: archivo_001_lista_de_aceptados_2022.pdf
De la lista de alumnos aceptados que aparecen en el archivo anterior, se deberá seleccionar las listas de 2 carreras diferentes, las que ustedes decidan (están marcadas en color verde).
Con las 2 carreras seleccionadas anteriormente, hacer un programa en Python que lea el archivo anterior y realice los cálculos necesarios para contestar las siguientes preguntas, las cuales deberán imprimirse en pantalla:
1. ¿Cuál es el promedio mas alto? (imprimir los promedios de ambas carreras)
2. ¿Cuál carrera tiene la mayor dispersión con respecto a la calificación obtenida? (imprimir ambas desviaciones estándar)
3. ¿Cuál es es la calificación más alta y cuál la mas baja de cada carrera? (imprimir el nombre completo del alumno y su calificación obtenida)
4. ¿Cuáles son las 5 calificaciones más altas contando ambas carreras? (imprimir el nombre completo del alumno, la carrera y su calificación obtenida)
Subir el programa en Python a la plataforma GitHub Classroom (se les enviará a su correo electrónico institucional el enlace para accesar al repositorio GitHub especial para subir las tareas del curso).
RECOMENDACIONES: Se puede extraer de manera manual los datos necesarios (copiar las listas verdes) y pegarlas a una hoja de Excel(XLS) ó a un editor de texto para crear un archivo nuevo (CVS), y hacer el procesamiento en este nuevo archivo por medio de Python, para evitar leer directamente el archivo PDF (el cual resulta mas complicado). En caso de crear un archivo nuevo, también hay que subirlo al GitHub Classroom.

Sesión 3: Machine Learning (Miércoles 18 de enero)

Parte: Historia (Teórico)

Historia del Machine Learning (acetatos en PDF y PowerPoint).

Parte: Conceptos (Teórico/Práctica)

Algoritmos de Machine Learning (acetatos en PDF y PowerPoint).

Códigos de Ejemplo

Regresión Lineal

Predecir la temperatura promedio para el mes de julio del año 2023 en Nueva York (código python, python_data_science_predecir_temperatura.py).

K-Means:

Clasifica 10 puntos en 2 clases usando K-Means (código python, python_ml_kmeans.py).

KNN:

Dados 10 puntos etiquetados en 2 Clusters predice a qué categoría pertenece un nuevo punto usando KNN (código python, python_ml_knn.py).

SVM:

Clasificador de flores "iris" de acuerdo a la longitud de sus pétalos usando SVM (código python, python_ml_svm.py).

Decision Trees:

Genera el árbol de decisiones para analizar las características de las flores "iris" en formato ".dot" (código python, python_ml_decision_trees.py).

Random Forest:

Compara 3 técnicas para determinar su eficiencia al predecir lanzamientos de una moneda (código python, python_ml_random_forest.py).

Sesión 4: Deep Learning (Jueves 19 de enero)

Parte: Historia (Teórico)

Historia del Deep Learning (acetatos en PDF y PowerPoint).

Parte: Conceptos (Teórico/Práctica)

Reconocimiento de números (acetatos en PDF y PowerPoint).

Sesión 5: Procesamiento del Lenguaje Natural (Viernes 20 de enero)

Parte: Pre-Procesamiento de Información (Teórico/Práctica)

Limpieza de Datos (presentación en PDF y PowerPoint).
Segmentación de Textos (presentación en PDF y PowerPoint).

Códigos de Ejemplo:

Eliminar los símbolos y caracteres no deseados de un texto (codigo python, python_nlp_eliminar_simbolos.py).
Eliminar los símbolos y caracteres no deseados de un texto usando expresiones regulares (codigo python, python_nlp_eliminar_simbolos_expresiones_regulares.py).
Buscar las palabras relevantes de ua frase (tokenizar) quitando las "stopwords" (codigo python, python_nlp_tokenizar_frase.py).

Parte: Análisis de Textos (Teórico/Práctica)

Diversidad Léxica (presentación en PDF y PowerPoint).
Palabras mas importantes (presentación en PDF y PowerPoint).
Nubes de Palabras (presentación en PDF y PowerPoint).
Análisis de Sentimientos (presentación en PDF y PowerPoint).

Códigos de Ejemplo:

Calcula la Diversidad Léxica de un texto (codigo python, python_lenguaje_natural_diversidad_lexica.py).
Buscar las palabras mas repetidas de un texto (codigo python, python_nlp_palabras_mas_repetidas.py).
Buscar las palabras mas repetidas de un texto y generar su "nube de palabras" (codigo python, python_nlp_nube_de_palabras.py).
Generar una “Nube de Palabras” a partir de una página de Wikipedia (codigo python, python_nlp_nube_de_palabras_wikipedia.py).
Analizar un texto para determinar su polaridad (positivo, negativo ó neutral) (codigo python, python_nlp_analisis_sentimientos_manual.py).
Analiza un texto para determinar su polaridad (positivo, negativo ó neutral) utilizando listas de palabras positivas y negativas (codigo python, python_nlp_analisis_sentimientos_con_listas.py).
Analiza un texto para determinar su polaridad (positivo, negativo ó neutral) usando TextBlob (codigo python, python_nlp_analisis_sentimientos_con_textblob.py).
Analiza un "tuit" para determinar su polaridad usando TextBlob (codigo python, python_nlp_analisis_sentimientos_twitter.py).

Parte: Listas de Palabras (Práctica)

Lista de palabras "positivas" en español (archivo TXT, texto_002_palabras_positivas.txt)
Lista de palabras "negativas" en español (archivo TXT, texto_003_palabras_negativas.txt)

Parte: Textos de Prueba (Práctica)

Don Quijote de la mancha (archivo TXT, texto_001_don_quijote.txt)
Discurso de Steve Jobs en la Universidad de Stanford, 12 de junio del 2005 (archivo TXT, discurso_steve_jobs_stanford_12_junio_2005.txt)
"Sentimientos de la Nación", José María Morelos y Pavón, 14 de septiembre de 1813 (archivo TXT, discurso_sentimientos_14_septiembre_1813.txt)

Parte: ChatBots (Teórico/Práctica)

Chatbots (presentación en PDF y PowerPoint).

Códigos de Ejemplo:

Hacer un chatbot básico en un ciclo infinito para esperar por preguntas y contestar (codigo python, python_nlp_chatbot_01.py).
Hacer un chatbot que respondan preguntas específicas sobre una pizzería (codigo python, python_nlp_chatbot_03_pizzeria.py).
Compara 2 vectores para ver su parecido usando la similitud coseno (codigo python, python_nlp_similaridad_de_vectores_coseno.py).
Compara 2 textos para ver su parecido usando la similitud coseno (codigo python, python_nlp_similaridad_de_textos_coseno.py).

TAREA 3: Análisis de un Libro

Buscar en Internet un libro de dominio público en formato "txt" y que esté en "español".
De acuerdo al libro seleccionado anteriormente, hacer un programa en Python que lea el archivo "txt" y realice los cálculos necesarios para hacer las siguientes operaciones:
1. ¿Cuál es la "Diversidad Léxica del libro? (imprimir en pantalla)
2. ¿De qué temas trata el libro? (buscar e imprimir en pantalla las 5 palabras más repetidas)
3. Generar la nube de ideas del libro.
4. ¿El contenido del libro es positivo ó negativo? (análisis de sentimientos)
Subir el programa en Python y el libro utilizado a la plataforma GitHub Classroom (se les enviará a su correo electrónico institucional el enlace para accesar al repositorio GitHub especial para subir las tareas del curso).

Trabajo Actual y Tendencias

Proyectos de IoT en el ITM - Cluster con Legos y Raspberrys (presentación en PDF y PowerPoint).
Proyectos de Ciencia de Datos en el ITM (presentación en PDF y PowerPoint).
Tendencias en Ciencia de Datos (presentación en PDF y PowerPoint).
Aplicaciones Prácticas de Inteligencia Artificial (acetatos en PDF y PowerPoint).

Usted se encuentra Aquí > Principal > Cursos > Ciencia de Datos > Actividades y Material de Apoyo

Portal de Tecnología desarrollado por: Rogelio Ferreira Escutia