Para finalizar este tutorial, abordaremos algunas buenas prácticas que te ayudarán a trabajar de manera más eficiente y a evitar problemas comunes con los archivos CSV, seguidas de algunos ejercicios prácticos para consolidar lo aprendido.
Seguir estas recomendaciones te permitirá crear y manejar archivos CSV de forma más robusta y compatible.
Siempre que compartas o generes un archivo CSV, es una buena práctica documentar qué delimitador (coma, punto y coma, tabulación) y qué codificación (UTF-8, ISO-8859-1) se utilizaron. Esto evita problemas de interpretación en el receptor.
datos_productos_utf8_coma.csv
).README.txt
adjunto.Los encabezados de las columnas deben ser descriptivos, concisos y no contener caracteres especiales o espacios si es posible (usar guiones bajos _
en su lugar). Esto facilita el procesamiento programático y la comprensión humana.
Nombre Cliente
, Fecha de Venta
nombre_cliente
, fecha_venta
YYYY-MM-DD
(ej. 2023-10-27
). Evita formatos como MM/DD/YY
o DD/MM/YY
que pueden ser confusos.
.
es el estándar en programación, pero la coma ,
es común en algunas regiones). Si usas coma como separador decimal, entonces el delimitador de campos no debería ser la coma.
true/false
, 1/0
o T/F
de forma consistente.
Para archivos CSV que cambian con frecuencia o son parte de un proyecto colaborativo, considera usar sistemas de control de versiones como Git. Aunque Git no está optimizado para archivos binarios grandes, para CSV de tamaño razonable puede ser útil para rastrear cambios. Para CSV muy grandes, considera soluciones de versionado de datos (Data Version Control - DVC) o bases de datos.
Aplica lo aprendido con estos ejercicios. Puedes usar Python con pandas o el lenguaje de tu elección.
Crea un script que genere un archivo CSV llamado productos_inventario.csv
con las siguientes columnas y al menos 5 registros:
id_producto
(entero)nombre_producto
(cadena)categoria
(cadena, ej. "Electrónica", "Alimentos", "Hogar")precio_unitario
(decimal)stock_disponible
(entero)fecha_ultima_revision
(fecha en formato YYYY-MM-DD)Asegúrate de que al menos un producto tenga un nombre con una coma interna (ej. "Televisor, Smart TV") y que se maneje correctamente con comillas.
Descarga el dataset titanic.csv
de Kaggle (puedes buscar "Titanic Dataset Kaggle" y descargar el archivo train.csv
). Luego, escribe un script que:
titanic.csv
en un DataFrame de pandas..info()
, .describe()
).titanic_analisis.csv
con las columnas Survived
, Pclass
, Sex
, Age
, Fare
, y la nueva columna FamilySize
(sumando SibSp
y Parch
).Partiendo del ejercicio anterior, supongamos que tienes un DataFrame con los resultados de un análisis (ej. la tasa de supervivencia por clase y género). Escribe un script que:
Clase,Genero,Tasa_Supervivencia
).reporte_supervivencia.csv
.Desarrolla una pequeña aplicación (puede ser en Python con una interfaz de línea de comandos simple) que permita al usuario:
categoria == 'Electrónica'
).Este mini proyecto integrará la lectura, el filtrado, la selección y la escritura de CSV, consolidando gran parte de lo aprendido en el tutorial.