¿Se puede predecir el “muro” en el maratón?

Pablo Villalobos tras cruzar la meta en el maratón del Campeonato del Mundo en Daegu (Corea del Sur) en 2011

Pablo Villalobos tras cruzar la meta en el maratón del Campeonato del Mundo en Daegu (Corea del Sur) en 2011

Esta semana os escribo desde Valencia dónde me encuentro participando en la “Summer School in #MachineLearning” organizado por BigML en colaboración con la Universidad Politécnica de Valencia y desarrollada en Las Naves.

Han sido dos días apasionantes en los que aprender un poco más sobre el aprendizaje automático, el análisis predictivo de datos, sus aplicaciones, etc.

Como os pedí la semana pasada he empezado a recibir algunos datos de colaboradores a través del Blog y me he traído a Valencia bajo el brazo un archivo de datos que me hizo llegar Jesús y que había recopilado y analizado por su cuenta.

Los datos: Jesús había recopilado las marcas, para corredores que habían participado en ambas pruebas en su edición de 2014, la marca del medio maratón y del maratón de Valencia del año 2014, además de los parciales cada 5km del maratón. Un total de 1178 atletas con marcas entre 2h30 y 4h30.

Nuestro amigo Jesús había jugado ya con los datos consiguiendo la relación entre la marca en la media de Valencia y el maratón y, por tanto, estableciendo un tiempo estimado por esta fórmula para cada participante que podía o no coincidir con el ritmo real que habían desarrollado en la maratón. A partir de ahí, comparando los parciales cada 5km con ese ritmo estimado, se estudió su linealidad y la estrategia de carrera dividiendo esta en tres partes: de la salida al km15, del km15 al 30 y del 30 al final. Todo ello de cara a establecer si la estrategia de carrera era correr a un ritmo constante, más a menos (Pinchando al final) o de menos a más (Corriendo en negativo).

Las conclusiones eran muy interesantes y ahora nosotros queríamos aportar el punto de vista predictivo.

Hemos querido analizar los mismos datos con el objetivo de detectar qué variables pueden tener más peso a la hora de poder predecir si el corredor se va a encontrar con el MURO en el maratón. Algo muy interesante ¿Verdad? Porque el MURO en el maratón no nos lo queremos encontrar ninguno.

Cuando nos planteamos correr un maratón, lo más probable es que nuestra estrategia sea correrlo a un ritmo más o menos constante, aunque “pinchemos” un poco en la parte final, o, en el mejor de los casos, ser capaz de acelerar más en la parte final para correr en negativo.

Cuando se da la tercera situación, o sea, corremos mucho más lentos la parte final de la prueba, lo habitual es que nos hayamos encontrado con “el MURO” y, por tanto, no consigamos el objetivo de marca buscado.

Por todo ello, si conseguimos despejar aquellas variables que pueden predecir la llegada del MURO en el maratón podremos dar información al corredor de lo que debe o no debe hacer si quiere tener más posibilidades de hacer una carrera constante y conseguir su marca objetiva.

PRIMER PROBLEMA

Al analizar los datos nos damos cuenta de que no queremos utilizar la fórmula de estimación elaborada por Jesús a partir de los datos de la media y el maratón de 2014 ya que utiliza el dato del tiempo final del maratón de esos mismos corredores, una información que no deberíamos tener aún, sería hacernos un poco de trampas.

Esto lo hemos solucionado tomando otra fórmula estándar de predicción de marca en maratón a partir de la marca en la distancia de media maratón que aplicaremos a dicha marca para obtener el tiempo estimado que nos correspondería hacer en el maratón: Nuestro OBJETIVO.

SEGUNDO PROBLEMA

Está claro que utilizaremos los datos de los parciales de 5km de la prueba, pero ¿hasta dónde? De nada nos sirve que nos digan a qué ritmo tenemos que correr entre el km25 y el km30 cuando ya no tenemos margen de maniobra para evitar el MURO que tenemos delante. Por ello hemos decidido que sólo vamos a utilizar variables de la primera mitad de la prueba de cara a buscar esa capacidad de predicción.

¿Qué datos hemos utilizado?

  • Marca del medio maratón de Valencia 2014
  • Marca de maratón estimada por una fórmula estándar
  • Ritmo minutos/km d la marca estimada en maratón
  • Tiempos parciales de la marca estimada en maratón para 5, 10, 15 y medio maratón
  • Tiempos parciales reales del maratón de Valencia en 5, 10, 15 y medio maratón
  • Tiempos reales del maratón de Valencia en Splits Salida-5km, 5km-10km, 10km-15km, 15km-Media.
  • Diferencial en % entre los tiempos real y estimado del maratón en los splits Salida-5km, 5km-10km, 10km-15km, 15km-Medio maratón.
  • Linealidad (pendiente de la recta definida por los parciales reales del maratón).
  • Si el atleta ha encontrado el muro o no. Definimos el muro como una variación entre dos splits consecutivos a partir del 20-25km de más de un 6%

Hemos subido el archivo en formato CSV a BigML (lo compartiremos en breve en la Galería de BigML ya que el acceso es gratuito con archivos pequeños como este y podréis hacer vuestros experimentos y análisis en la herramienta para ver si mejoráis mis resultados).

Ahora os dejo un vídeo para que podáis ver cómo hemos trabajado los datos en BigML y lo sencillo que puede llegar a ser generar un modelo, evaluarlo y jugar con él. Cuantos más conocimientos de análisis de datos tengáis más vais a disfrutar con ello.


CONCLUSIONES

Como habréis visto en el vídeo, no hemos tenido un resultado muy positivo respecto a las variables con las que hemos trabajado. La opción es buscar más o nuevas variables que nos permitan aumentar la “accuracy” del modelo.

Desde mi punto de vista, creo que los parciales de 5km son demasiado amplios por lo que restan mucha sensibilidad. Si en lugar de esos parciales tuviéramos los archivos de datos de los GPS de los corredores con parciales de cada kilómetro, se podrían sacar más variables que tuviera más correlación con evitar el MURO.

Además, sería interesante poder incluir más variables que nos podríamos plantear recoger de cara a las ediciones de 2015, como por ejemplo: Qué tipo de avituallamiento, zapatillas, descanso la noche anterior al maratón, a qué hora os despertasteis esa mañana, qué tomasteis para cenar y desayunar antes del maratón, etc.

Creo que es una buena idea para lanzar desde este blog si os animáis.