Ya tenemos Big Data en el tenis, ¿lo hacemos predictivo?

tenis

El Proyecto de este blog, Datos y Deporte, como os comenté en la primera entrada, tiene entre sus objetivos presentar o descubrir a muchos amantes de los datos, de las estadísticas y el deporte, cómo una herramienta de análisis predictivo y de aprendizaje automático puede ayudarles a exprimir vuestros datos deportivos de una forma diferente o, al menos, con un objetivo más.

Por ello de vez en cuando me haré eco de proyectos o bases de datos en otros deportes que crea que son interesantes de cara a abrir la mente a los aficionados a los mismos y que puedan experimentar en primera persona, a través del acceso gratuito a BigML para pequeños archivos o Datasets, cómo podr trabajar con ellos.

Este es el caso del artículo de esta semana, mi primera incursión en un deporte diferente al mío, en concreto al TENIS. Un deporte con un gran seguimiento mundial gracias a desarrollo de la ATP y la WTA, circuitos profesionales masculinos y femenino respectivamente.

Todos estamos acostumbrados a ver datos de tenis, los juegos, los sets ganados por los jugadores, el porcentaje de primeros saques, de errores no forzados, son buenas estadísticas pero yo buscaba algo más, un punto mayor de extracción de datos como pueda ser el paso de saber los tiempos de mis series a tener el registro cada 3 segundos de posición, velocidad, pulso, etc.

Este punto de análisis existe en otros deportes como los deportes USA ( fútbol americano o béisbol) e incluso el vóley que ha especializado mucho el trabajo de análisis de datos incluyendo en sus equipos técnicos la figura del estadístico desde hace ya bastantes años.

Pero en tenis no me sonaba nada así que me puse a bucear por la red y no tardé encontrar lo que buscaba, un proyecto puesto en marcha a finales de 2013 por Jeff Sackmann denominado “The Match Charting Project” o, traducido, el “proyecto de cartografiado de partidos”, incluído dentro de un gran proyecto como es Tennis Abstract que debe ser la Biblia de los estadísticos del tenis mundial.

En dicho proyecto Jeff Sackmann desarrolla unas planillas en EXCEL para registrar o cartografiar partidos de tenis con gran cantidad de datos, más allá de los puntos, como la dirección y profundidad de los saques y de los golpeos de ambos contendientes, categorizando los golpes, trayectorias, errores forzados y no forzados, y, por tanto, generando una cantidad de datos de cara partido muy grande.

En su Web os podéis descargar la planilla, que él considera que con el registro de dos partidos completos tendréis habilidad suficiente para ir bastante rápido registrando partidos casi en tiempo real mientras los veis en la TV o Youtube, y también existe una App en Android para ello.

Jeff recopila los registros de decenas de colaboradores voluntarios que cumplimentan los datos y se los envían compartiendo posteriormente  la información con todo el mundo. Actualmente de más de 1000 partidos de tenis desde los años 80 y de multitud de torneos, superficies y, por supuesto, jugadores, aunque resta mucho trabajo por hacer. Supongo que el futuro, si la ATP/WTA y la asociación de entrenadores de tenis, se pone con ello, sería la automatización del registro de datos a través de un sistema de cámaras en las pistas de los torneos de todo el mundo (Puede ser un buen proyecto a presentar a la ATP/WTA y ser pionero como lo fue PROZONE Sports en fútbol).

Aquí os dejo el enlace al GitHub dónde os podéis descargar los diferentes CSVs con muchísima información extraída d ls partidos codificados hasta la fecha: https://github.com/JeffSackmann/tennis_MatchChartingProject

Creo que es un buen momento para proponeros, a los que os queráis mojar, os guste o no el tenis, a trabajar con esos datos y desarrollar un análisis o visualización de datos que podamos presentar en el Blog: Modelos, anomalías o predicciones, aunque sean simples, con los que dentro de un mes podamos armar un artículo sencillo con las mejores o más clarificantes.

Seréis protagonistas y coautores de un nuevo artículo en el blog con los puntos más interesantes y quién sabe si alguna sorpresa más.

Por mi parte ya me he puesto a trabajar sobre los datos para construirme un dataset del que extraer información relevante con la que responder a preguntas como: ¿Qué golpeos de Nadal son más determinantes para ganar puntos? ¿Cómo evoluciona el % de efectividad respecto al aumento de peloteo en los puntos? ¿Comportammiento del primer servicio respecto a situaciones adversas de marcador o qué diferencia de efectividad tienen los tenistas entre el primer saque de cada juego y el saque cuando el marcador es adverso (Puntos de break)? Y miles de preguntas que os podéis hacer.

¿Se puede predecir el “muro” en el maratón?

Pablo Villalobos tras cruzar la meta en el maratón del Campeonato del Mundo en Daegu (Corea del Sur) en 2011

Pablo Villalobos tras cruzar la meta en el maratón del Campeonato del Mundo en Daegu (Corea del Sur) en 2011

Esta semana os escribo desde Valencia dónde me encuentro participando en la “Summer School in #MachineLearning” organizado por BigML en colaboración con la Universidad Politécnica de Valencia y desarrollada en Las Naves.

Han sido dos días apasionantes en los que aprender un poco más sobre el aprendizaje automático, el análisis predictivo de datos, sus aplicaciones, etc.

Como os pedí la semana pasada he empezado a recibir algunos datos de colaboradores a través del Blog y me he traído a Valencia bajo el brazo un archivo de datos que me hizo llegar Jesús y que había recopilado y analizado por su cuenta.

Los datos: Jesús había recopilado las marcas, para corredores que habían participado en ambas pruebas en su edición de 2014, la marca del medio maratón y del maratón de Valencia del año 2014, además de los parciales cada 5km del maratón. Un total de 1178 atletas con marcas entre 2h30 y 4h30.

Nuestro amigo Jesús había jugado ya con los datos consiguiendo la relación entre la marca en la media de Valencia y el maratón y, por tanto, estableciendo un tiempo estimado por esta fórmula para cada participante que podía o no coincidir con el ritmo real que habían desarrollado en la maratón. A partir de ahí, comparando los parciales cada 5km con ese ritmo estimado, se estudió su linealidad y la estrategia de carrera dividiendo esta en tres partes: de la salida al km15, del km15 al 30 y del 30 al final. Todo ello de cara a establecer si la estrategia de carrera era correr a un ritmo constante, más a menos (Pinchando al final) o de menos a más (Corriendo en negativo).

Las conclusiones eran muy interesantes y ahora nosotros queríamos aportar el punto de vista predictivo.

Hemos querido analizar los mismos datos con el objetivo de detectar qué variables pueden tener más peso a la hora de poder predecir si el corredor se va a encontrar con el MURO en el maratón. Algo muy interesante ¿Verdad? Porque el MURO en el maratón no nos lo queremos encontrar ninguno.

Cuando nos planteamos correr un maratón, lo más probable es que nuestra estrategia sea correrlo a un ritmo más o menos constante, aunque “pinchemos” un poco en la parte final, o, en el mejor de los casos, ser capaz de acelerar más en la parte final para correr en negativo.

Cuando se da la tercera situación, o sea, corremos mucho más lentos la parte final de la prueba, lo habitual es que nos hayamos encontrado con “el MURO” y, por tanto, no consigamos el objetivo de marca buscado.

Por todo ello, si conseguimos despejar aquellas variables que pueden predecir la llegada del MURO en el maratón podremos dar información al corredor de lo que debe o no debe hacer si quiere tener más posibilidades de hacer una carrera constante y conseguir su marca objetiva.

PRIMER PROBLEMA

Al analizar los datos nos damos cuenta de que no queremos utilizar la fórmula de estimación elaborada por Jesús a partir de los datos de la media y el maratón de 2014 ya que utiliza el dato del tiempo final del maratón de esos mismos corredores, una información que no deberíamos tener aún, sería hacernos un poco de trampas.

Esto lo hemos solucionado tomando otra fórmula estándar de predicción de marca en maratón a partir de la marca en la distancia de media maratón que aplicaremos a dicha marca para obtener el tiempo estimado que nos correspondería hacer en el maratón: Nuestro OBJETIVO.

SEGUNDO PROBLEMA

Está claro que utilizaremos los datos de los parciales de 5km de la prueba, pero ¿hasta dónde? De nada nos sirve que nos digan a qué ritmo tenemos que correr entre el km25 y el km30 cuando ya no tenemos margen de maniobra para evitar el MURO que tenemos delante. Por ello hemos decidido que sólo vamos a utilizar variables de la primera mitad de la prueba de cara a buscar esa capacidad de predicción.

¿Qué datos hemos utilizado?

  • Marca del medio maratón de Valencia 2014
  • Marca de maratón estimada por una fórmula estándar
  • Ritmo minutos/km d la marca estimada en maratón
  • Tiempos parciales de la marca estimada en maratón para 5, 10, 15 y medio maratón
  • Tiempos parciales reales del maratón de Valencia en 5, 10, 15 y medio maratón
  • Tiempos reales del maratón de Valencia en Splits Salida-5km, 5km-10km, 10km-15km, 15km-Media.
  • Diferencial en % entre los tiempos real y estimado del maratón en los splits Salida-5km, 5km-10km, 10km-15km, 15km-Medio maratón.
  • Linealidad (pendiente de la recta definida por los parciales reales del maratón).
  • Si el atleta ha encontrado el muro o no. Definimos el muro como una variación entre dos splits consecutivos a partir del 20-25km de más de un 6%

Hemos subido el archivo en formato CSV a BigML (lo compartiremos en breve en la Galería de BigML ya que el acceso es gratuito con archivos pequeños como este y podréis hacer vuestros experimentos y análisis en la herramienta para ver si mejoráis mis resultados).

Ahora os dejo un vídeo para que podáis ver cómo hemos trabajado los datos en BigML y lo sencillo que puede llegar a ser generar un modelo, evaluarlo y jugar con él. Cuantos más conocimientos de análisis de datos tengáis más vais a disfrutar con ello.


CONCLUSIONES

Como habréis visto en el vídeo, no hemos tenido un resultado muy positivo respecto a las variables con las que hemos trabajado. La opción es buscar más o nuevas variables que nos permitan aumentar la “accuracy” del modelo.

Desde mi punto de vista, creo que los parciales de 5km son demasiado amplios por lo que restan mucha sensibilidad. Si en lugar de esos parciales tuviéramos los archivos de datos de los GPS de los corredores con parciales de cada kilómetro, se podrían sacar más variables que tuviera más correlación con evitar el MURO.

Además, sería interesante poder incluir más variables que nos podríamos plantear recoger de cara a las ediciones de 2015, como por ejemplo: Qué tipo de avituallamiento, zapatillas, descanso la noche anterior al maratón, a qué hora os despertasteis esa mañana, qué tomasteis para cenar y desayunar antes del maratón, etc.

Creo que es una buena idea para lanzar desde este blog si os animáis.

¿Tienes datos? ¿Los ponemos en marcha?

Uno de los objetivos de este blog, como os proponía en el artículo de presentación de la pasada semana, es que este blog tenga un perfil colaborativo. No serán únicamente mis datos y mis inquietudes las que muevan sus contenidos ya que estoy convencido de que vuestra curiosidad nos ofrecerá estupendas posibilidades de descubrir lo que el análisis predictivo de datos nos puede dar en el ámbito del deporte.

El mundo del deporte está lleno de datos, de información y muchos la guardamos, incluso sin darnos cuenta, en nuestros diarios de entrenamiento, en nuestros gadgets, sobre todo los últimos “wereables”, en nuestro día a día de trabajo como entrenadores, técnicos o como meros aficionados al deporte.

En la mayoría de ocasiones tenemos muchos más datos de los que necesitamos o somos capaces de manejar por lo que solemos simplificar con aquellos que consideramos que nos ayudan, de forma más o menos intuitiva, a tomar las decisiones adecuadas en nuestro entrenamiento, sin embargo, estoy convencido de que con herramientas como BigML y el análisis predictivo de datos podemos “atrevernos” a exprimir todos esos datos.

runners_data

Por ejemplo, cuando llegáis a casa tras vuestro entrenamiento de carrera ¿Qué información miráis o cuál es la que os pide el entrenador? Los tiempos de las series, el ritmo medio del rodaje, pulso medio o la recuperación, el parcial más rápido, … tenemos a nuestra disposición decenas de datos diferentes que, en la mayoría de ocasiones no sabemos cómo interpretar: tiempo de apoyo, cadencia, índices de entrenamiento o fatiga, …

Toda esa información y más la tenemos en nuestra mano pero nos es muy complicado poderla procesar y que nos den una información relevante de nuestro entrenamiento, si hemos trabajado lo suficiente, si nos hemos pasado, si mañana estaremos mejor o peor, si tenemos mayor riesgo de sobrecarga o lesión, etc.

Además, esto no sólo ocurre en nuestros deportes, en deportes colectivos como el fútbol, y otros también, se han desarrollado sistemas para el análisis completo del juego mediante imágenes que permiten una recogida de datos exahustiva tanto en entrenamientos como en competición.

Por ejemplo en el fútbol, una empresa como PROZONE Sports desarrolla, a través de una plataforma de captación de imágenes con 8 cámaras en un campo de fútbol, un software que es capáz de medir y analizar una inmensa cantidad de información sobre cada partido, de uno y otro equipo, desde la posición de cada jugador en cada instante de juego, su velocidad, sus posiciones relativas, desarrollo de acciones tácticas defensivas y ofensivas y un largo etcétera que suponen, para los equipos técnicos y entrenadores, una auténtica revolución.

Una ingente cantidad de información que hay que analizar y saber aprovechar en beneficio de tu equipo tanto para correcciones tácticas como para el trabajo físico para evaluar y optimizar el trabajo antes y después de los partidos.

futbool

Con herramientas como BigML y un conocimiento específico de esa información que puede ser relevante podríamos trabajar en base a esos datos en busca un análisis predictivo de patrones, anomalías o información relevante que nos ayude o, incluso, si se pudiera volcar en tiempo real a través de alguna APP, obtener información inmediata que nos permita mejorar en nuestra toma de decisiones, desde la optimización de los entrenamientos para nuestra maratón de primavera como para el próximo equipo campeón de la Champions League.

Esta próxima semana, los días 15 y 16 de septiembre, participaré en el Valencia Summer School in Machine Learning dónde espero desarrollar mis conocimientos sobre esta herramienta y sobre el tratamiento de los datos.

Llevo ya en la recámara varios archivos de datos con los que trabajar, y a finales de septiembre espero colgaros por aquí algún ejemplo de lo que se puede hacer con ellos.

Sin embargo, estoy seguro de que alguno de vosotros no le importaría que exprimiéramos un poco sus datos con un gran número de expertos que se darán cita en Las Naves, en Valencia, por lo que no tenéis más que poneros en contacto conmigo y me los llevo bajo el brazo para contaros lo que hemos podido hacer con ellos.

Si quieres sólo tienes que ponerte en contacto

Bienvenidos a “Datos y Deporte”

Pablo Villalobos entrando en meta en la Behobia-San Sebastián 2014. Foto: Félix Sánchez - Fotorunning

Pablo Villalobos entrando en meta en la Behobia-San Sebastián 2014. Foto: Félix Sánchez – Fotorunning

Queridos amigos,

Gracias por pasaros por esta ventana al mundo a la que me asomo para intentar explicar o mostrar a profanos como yo, aspectos que nos pueden sorprender y hasta ayudar en relación con los DATOS y el DEPORTE.

Pero ¿cómo llega un Licenciado en Ciencias del Deporte, atleta, maratoniano para más inri, a preocuparse por el “Machine Learning“? No lo se, pero es una aventura y un reto que me gusta y al que me lanzo.

Mi formación ha estado más ligada a la salud y a las ciencias sociales, mi experiencia vital con el deporte, y laboral con el entrenamiento deportivo, la comunicación y la orientación de deportistas en ámbitos académicos y laborales, aunque nunca he abandonado una gran predilección o gusto por las ciencias naturales: física y matemáticas sobre todo.

Quizás dentro de unos años haga como Steve Jobs y eche la vista atrás para unir todos los puntos. Mientras tanto lo que me moverá será el “hambre” por nuevos conocimientos que seguro que me llevaré de esta experiencia.

¿Qué es DatosyDeporte.com?

Desde siempre me recuerdo aficionado a los datos: Mis libretas de entrenamiento con anotaciones, series, pulso basal, estadísticas de rankings, progresiones de marcas, fórmulas para cálculos y estimaciones de VO2max, marcas de maratón, progresiones de records, etcétera.

Por esa afición y a través del fundador de BigML, Francisco J Martín, he descubierto un nuevo mundo a través del análisis predictivo de datos. Un mundo que nos ayuda, a los que tienen un conocimiento específico en un campo, a poder exprimir los datos, grandes volúmenes de datos, para dar una vuelta de tuerca más allá: Machine Learning, detección de patrones y anomalías y un largo etcétera de nuevos o no tan nuevos conceptos que aparecen gracias a herramientas mucho más accesibles y que nos ayudan a desarrollar APPs en la nube con respuesta en tiempo real.

Desde la fundación de la compañía, allá por 2011, cuando sólo era una pequeña Startup en Corvallis, Oregon, encabezada por un ingeniero informático español, supe que, si surgía la oportunidad, querría adentarme en ese mundo.

Así que esto es lo que me gustaría que fuera DatosyDeporte.com

En primer lugar una ventana muy personal  hacia el mundo de los datos, aunque seguro que a futuro habrá diferentes aportaciones que lo enriquecerán, desde una perspectiva muy cercana y transversal con el mundo del deporte: Datos de entrenamiento, estadísticas, apuestas, resultados, todo entrará en nuestro campo de visión, de todo el deporte. Seguro que os sorprenderán artículos, gadgets y aplicaciones que se están desarrollando gracias a estas herramientas.

En segundo lugar, un banco de pruebas para los aficionados a los datos como yo. Empezaré por lo que conozco ¿Qué poder hacer con toda esa información que guardan nuestros GPSs, Pulsómetros, Apps, Wereables y demás? ¿Cómo podemos conseguir que nos ayuden a mejorar u optimizar nuestra preparación física, nuestra salud? Intentaré trabajar con mis propios datos, o con los vuestros si me los á, y a través de la plataforma BigML enseñaros qué se puede hacer o qué podéis hacer con esta información para vuestro propio provecho.

Y en tercer lugar, un objetivo colaborativo. Conozco mis limitaciones y es imposible saber de todo, así que este blog será una ventana también para aquellos que quieran contar sus experimentos, sus pruebas con datos, ya sea en BigML o en otras plataformas. Por supuesto no estamos cerrados a nada. Si tienes datos relacionados con el deporte y crees que podemos exprimirlos no dudes en contactarme y nos ponemos en marcha para ayudarte, como hacen conmigo, a explorar esas posibilidades.

Intentaré publicar semanalmente, así que, nos leemos la próxima semana.