Resultados
Para la clasificación se utilizó Weka. Los vectores de características tienen lo siguiente:
- ID_CABALLO
- ID_JINETE
- ID_PREPARADOR
- PESO_JINETE
- PESO_CABALLO
- ID_CARRERA
- ID_STUD
- HISTORIAL_RECIENTE
- RATING
Se construyeron 2 clasificadores ya que cada vector se asoció a 2 etiquetas: Ganador (clases: TRUE o FALSE) o TOP4 (clases: TRUE o FALSE). El clasificador que usa la etiqueta “Ganador” para clasificar responde a la pregunta: “Dado un vector de características, ¿Llegará en primer lugar?”, mientras que el clasificador que usa la etiqueta “TOP4” para clasificar responde a la pregunta: “Dado un vector de características, ¿Llegará entre los primeros 4 lugares?” El clasificador intenta predecir el resultado en cada caso.
Para efectos de apuestas es importante lograr un buen Recall, para tener confianza en los positivos del clasificador.
La columna ‘a’ corresponde a que el clasificador respondió “No cumple” y la columna ‘b’ corresponde a cuando el clasificador respondió “Si cumple”. El caso relevante es cuando nos informa que un caballo si cumple, por lo cual necesitamos la menor cantidad de falsos positivos posibles.
Para mejorar el clasificador, se cambió a CostSensitive (NeiveBayes), y dado el contexto de “apuestas” se decidió “castigar mucho (relativo)” cuando el clasificador respondía dice “Si cumple” y se equivocaba, y “castigar poco (relativo)” cuando el clasificador dice “No cumple” a alguien que finalmente si ganaría. Los resultados son los siguientes (TOP4):
El máximo de diferencia entre acierto (Si apostar y ganar) y equivocación (Si apostar y no ganar) es de 377 aciertos sobre equivocaciones al clasificar en base a la etiqueta TOP4. Cuando se intentó clasificar usando la misma estrategia usando la etiqueta GANADOR, el mejor resultado obtenido fue el siguiente:
El resultado anterior indica que se obtuvo 162 equivocaciones sobre aciertos. Esto se puede deber a que la cantidad de ganadores es muy baja.
