Resultados

Resultados

Para la clasificación se utilizó Weka. Los vectores de características tienen lo siguiente:

ID_CABALLO
ID_JINETE
ID_PREPARADOR
PESO_JINETE
PESO_CABALLO
ID_CARRERA
ID_STUD
HISTORIAL_RECIENTE
RATING

Se construyeron 2 clasificadores ya que cada vector se asoció a 2 etiquetas: Ganador (clases: TRUE o FALSE) o TOP4 (clases: TRUE o FALSE). El clasificador que usa la etiqueta “Ganador” para clasificar responde a la pregunta: “Dado un vector de características, ¿Llegará en primer lugar?”, mientras que el clasificador que usa la etiqueta “TOP4” para clasificar responde a la pregunta: “Dado un vector de características, ¿Llegará entre los primeros 4 lugares?” El clasificador intenta predecir el resultado en cada caso.

Para efectos de apuestas es importante lograr un buen Recall, para tener confianza en los positivos del clasificador.

Captura de pantalla 2016-05-30 a la(s) 7.52.50.png

La columna ‘a’ corresponde a que el clasificador respondió “No cumple” y la columna ‘b’ corresponde a cuando el clasificador respondió “Si cumple”. El caso relevante es cuando nos informa que un caballo si cumple, por lo cual necesitamos la menor cantidad de falsos positivos posibles.

Para mejorar el clasificador, se cambió a CostSensitive (NeiveBayes), y dado el contexto de “apuestas” se decidió “castigar mucho (relativo)” cuando el clasificador respondía dice “Si cumple” y se equivocaba, y “castigar poco (relativo)” cuando el clasificador dice “No cumple” a alguien que finalmente si ganaría. Los resultados son los siguientes (TOP4):

Captura de pantalla 2016-05-30 a la(s) 7.52.58.png

Captura de pantalla 2016-05-30 a la(s) 7.53.05.png

Captura de pantalla 2016-05-30 a la(s) 7.53.12.png

Captura de pantalla 2016-05-30 a la(s) 7.53.18.png

Captura de pantalla 2016-05-30 a la(s) 7.53.28.png

El máximo de diferencia entre acierto (Si apostar y ganar) y equivocación (Si apostar y no ganar) es de 377 aciertos sobre equivocaciones al clasificar en base a la etiqueta TOP4. Cuando se intentó clasificar usando la misma estrategia usando la etiqueta GANADOR, el mejor resultado obtenido fue el siguiente:

Captura de pantalla 2016-05-30 a la(s) 7.53.36.png

El resultado anterior indica que se obtuvo 162 equivocaciones sobre aciertos. Esto se puede deber a que la cantidad de ganadores es muy baja.

Horse Mining - Minería de Datos en Carreras de Caballos

martes, 5 de julio de 2016

Resultados