- Descripción del Problema
- Descripción de los datos
- Limpieza de datos
- Exploración de datos
- Resultados
Obtención y Limpieza de datos
Los datos fueron obtenidos principalmente de 2 fuentes, estas fuentes son:
De la primera opción se obtiene fácilmente los datos de los programas de las carreras de caballos (qué caballos van a correr, en qué pista, a qué hora, qué día, etc), así como también datos estadísticos útiles como por ejemplo cuántas veces ha salido primero ese caballo en esa pista, cuántas veces salió segundo, la posición en tabla general del caballo. Los datos se encuentran en formato JSON, pero el problema es que no presenta los resultados de las carreras:
De la segunda fuente obtenemos los datos que nos interesan un poco más, ya que son los resultados de las carreras, con el caballo, jinete, el stud, el preparador, la distancia con respecto al ganador y lo más importante, el lugar con el cual llegó en la carrera.
Estos datos vienen en formato html y contienen la información de las tablas.
Para obtener los datos se creó y usó un script en python el cual recorre los archivos html (un ciclo de get's para cada url) y extrae las tablas de resultados (desde el html parseado) para guardarlos en un *.csv con la fecha del encuentro, el lugar, el premio, la distancia de la carrera y obviamente los resultados de las carreras.
Para limpiar los datos se usó un script que elimina los recursos que tienen valores muy lejos del promedio (unas 3 o 4 veces la desviación estándar), sin embargo, existen valores que por restricción física o por las reglas de las carreras no son validos y deben ser considerados outliers.
Por ejemplo, la posición en que puede llegar los caballos existían datos que superaban el valor 90; datos que no tienen sentido ya que solo compiten a lo mas 18 caballos, por lo que se puede usar como restricción directa eliminar los recursos con posiciones de llegara fuera del rango real.
En el siguiente grafico se puede ver la posición vs el promedio de número partidos con datos sin limpiar.
En el siguiente grafico se puede ver la posición vs el promedio de número partidos con datos limpiados, como se puede ver, eliminar los datos outliers hace que la lectura e interpretación sea mas fácil.
Ademas de la posición, donde habían varios outliers era en los registros de los pesos de los caballos, como se puede ver en el siguiente gráfico:





