martes, 5 de julio de 2016

Resultados



Resultados

Para la clasificación se utilizó Weka. Los vectores de características tienen lo siguiente:

  1.  ID_CABALLO
  2. ID_JINETE
  3. ID_PREPARADOR
  4. PESO_JINETE
  5. PESO_CABALLO
  6. ID_CARRERA
  7. ID_STUD
  8. HISTORIAL_RECIENTE
  9. RATING


 Se construyeron 2 clasificadores ya que cada vector se asoció a 2 etiquetas: Ganador (clases: TRUE o FALSE) o TOP4 (clases: TRUE o FALSE). El clasificador que usa la etiqueta “Ganador” para clasificar responde a la pregunta: “Dado un vector de características, ¿Llegará en primer lugar?”, mientras que el clasificador que usa la etiqueta “TOP4” para clasificar responde a la pregunta: “Dado un vector de características, ¿Llegará entre los primeros 4 lugares?” El clasificador intenta predecir el resultado en cada caso.

Para efectos de apuestas es importante lograr un buen Recall, para tener confianza en los positivos del clasificador.
Captura de pantalla 2016-05-30 a la(s) 7.52.50.png 

La columna ‘a’ corresponde a que el clasificador respondió “No cumple” y la columna ‘b’ corresponde a cuando el clasificador respondió “Si cumple”. El caso relevante es cuando nos informa que un caballo si cumple, por lo cual necesitamos la menor cantidad de falsos positivos posibles.

Para mejorar el clasificador, se cambió a CostSensitive (NeiveBayes), y dado el contexto de “apuestas” se decidió “castigar mucho (relativo)” cuando el clasificador respondía dice “Si cumple” y se equivocaba, y “castigar poco (relativo)” cuando el clasificador dice “No cumple” a alguien que finalmente si ganaría. Los resultados son los siguientes (TOP4):
Captura de pantalla 2016-05-30 a la(s) 7.52.58.pngCaptura de pantalla 2016-05-30 a la(s) 7.53.05.pngCaptura de pantalla 2016-05-30 a la(s) 7.53.12.pngCaptura de pantalla 2016-05-30 a la(s) 7.53.18.pngCaptura de pantalla 2016-05-30 a la(s) 7.53.28.png
El máximo de diferencia entre acierto (Si apostar y ganar) y equivocación (Si apostar y no ganar) es de 377 aciertos sobre equivocaciones al clasificar en base a la etiqueta TOP4. Cuando se intentó clasificar usando la misma estrategia usando la etiqueta GANADOR, el mejor resultado obtenido fue el siguiente:


Captura de pantalla 2016-05-30 a la(s) 7.53.36.png 
El resultado anterior indica que se obtuvo 162 equivocaciones sobre aciertos. Esto se puede deber a que la cantidad de ganadores es muy baja.