Ya tenemos Big Data en el tenis, ¿lo hacemos predictivo?

tenis

El Proyecto de este blog, Datos y Deporte, como os comenté en la primera entrada, tiene entre sus objetivos presentar o descubrir a muchos amantes de los datos, de las estadísticas y el deporte, cómo una herramienta de análisis predictivo y de aprendizaje automático puede ayudarles a exprimir vuestros datos deportivos de una forma diferente o, al menos, con un objetivo más.

Por ello de vez en cuando me haré eco de proyectos o bases de datos en otros deportes que crea que son interesantes de cara a abrir la mente a los aficionados a los mismos y que puedan experimentar en primera persona, a través del acceso gratuito a BigML para pequeños archivos o Datasets, cómo podr trabajar con ellos.

Este es el caso del artículo de esta semana, mi primera incursión en un deporte diferente al mío, en concreto al TENIS. Un deporte con un gran seguimiento mundial gracias a desarrollo de la ATP y la WTA, circuitos profesionales masculinos y femenino respectivamente.

Todos estamos acostumbrados a ver datos de tenis, los juegos, los sets ganados por los jugadores, el porcentaje de primeros saques, de errores no forzados, son buenas estadísticas pero yo buscaba algo más, un punto mayor de extracción de datos como pueda ser el paso de saber los tiempos de mis series a tener el registro cada 3 segundos de posición, velocidad, pulso, etc.

Este punto de análisis existe en otros deportes como los deportes USA ( fútbol americano o béisbol) e incluso el vóley que ha especializado mucho el trabajo de análisis de datos incluyendo en sus equipos técnicos la figura del estadístico desde hace ya bastantes años.

Pero en tenis no me sonaba nada así que me puse a bucear por la red y no tardé encontrar lo que buscaba, un proyecto puesto en marcha a finales de 2013 por Jeff Sackmann denominado “The Match Charting Project” o, traducido, el “proyecto de cartografiado de partidos”, incluído dentro de un gran proyecto como es Tennis Abstract que debe ser la Biblia de los estadísticos del tenis mundial.

En dicho proyecto Jeff Sackmann desarrolla unas planillas en EXCEL para registrar o cartografiar partidos de tenis con gran cantidad de datos, más allá de los puntos, como la dirección y profundidad de los saques y de los golpeos de ambos contendientes, categorizando los golpes, trayectorias, errores forzados y no forzados, y, por tanto, generando una cantidad de datos de cara partido muy grande.

En su Web os podéis descargar la planilla, que él considera que con el registro de dos partidos completos tendréis habilidad suficiente para ir bastante rápido registrando partidos casi en tiempo real mientras los veis en la TV o Youtube, y también existe una App en Android para ello.

Jeff recopila los registros de decenas de colaboradores voluntarios que cumplimentan los datos y se los envían compartiendo posteriormente  la información con todo el mundo. Actualmente de más de 1000 partidos de tenis desde los años 80 y de multitud de torneos, superficies y, por supuesto, jugadores, aunque resta mucho trabajo por hacer. Supongo que el futuro, si la ATP/WTA y la asociación de entrenadores de tenis, se pone con ello, sería la automatización del registro de datos a través de un sistema de cámaras en las pistas de los torneos de todo el mundo (Puede ser un buen proyecto a presentar a la ATP/WTA y ser pionero como lo fue PROZONE Sports en fútbol).

Aquí os dejo el enlace al GitHub dónde os podéis descargar los diferentes CSVs con muchísima información extraída d ls partidos codificados hasta la fecha: https://github.com/JeffSackmann/tennis_MatchChartingProject

Creo que es un buen momento para proponeros, a los que os queráis mojar, os guste o no el tenis, a trabajar con esos datos y desarrollar un análisis o visualización de datos que podamos presentar en el Blog: Modelos, anomalías o predicciones, aunque sean simples, con los que dentro de un mes podamos armar un artículo sencillo con las mejores o más clarificantes.

Seréis protagonistas y coautores de un nuevo artículo en el blog con los puntos más interesantes y quién sabe si alguna sorpresa más.

Por mi parte ya me he puesto a trabajar sobre los datos para construirme un dataset del que extraer información relevante con la que responder a preguntas como: ¿Qué golpeos de Nadal son más determinantes para ganar puntos? ¿Cómo evoluciona el % de efectividad respecto al aumento de peloteo en los puntos? ¿Comportammiento del primer servicio respecto a situaciones adversas de marcador o qué diferencia de efectividad tienen los tenistas entre el primer saque de cada juego y el saque cuando el marcador es adverso (Puntos de break)? Y miles de preguntas que os podéis hacer.

Un comentario en “Ya tenemos Big Data en el tenis, ¿lo hacemos predictivo?

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s