HelmkameraStadtradlerRennradlerBergradlerMonte Campo di LitigareBest of Hadersfeld:
Grad im Ohr gehabtProfil: hekker Song: On The Water The Walkmen Song: On The Water The Walkmen Song: Believe Achieve Cansei de Ser Sexy |
Dienstag, 27. Juli 2010Zeitfahrdatenverwursteln++, noch einmal
Soda, ein paar Stuendchen hatte ich noch uebrig fuer den 3. Teil der Zeitfahrverwurstelung. Muss sein. Weil ich draufgekommen bin, auf Trainingpeaks tun sie veroeffentlichen die Rohdaten von Chris Anker Sorensen beim Zeitfahren. Der ist doch sicher interessant! 1. 20. geworden, also nicht schlecht, 2. als 101. gestartet, also gerade beim gestern angesprochenen Umschwung. Da duerfte der Wind angefangen haben. In Relation zu den spaeter gestarteten GC-Favoriten sieht er aber erstaunlich gleichmaessig aus:
![]() Neues, viel cooleres, Diagramm fuer die Durchschnittsgeschwindigkeiten. Sorensen ist # 17. Durchgezogene Linie: Durchschnitt seit Start, gepunktet: Durchschnitt fuer den jeweiligen Abschnitt. Andere Startnummern: #1 Contador, #11 Schleck, #101 VdBroek, #181 Sanchez, #191 Menchov, #195 Gesink Also schauen wir uns mal seine Leistungsdaten genauer an, wenn sie schon da sind. Naja, das war dann gar net so einfach - das WKO-File ist irgendein raeudiges Binaer-Format. Ein frisch angelegter testhase fuers Webinterface von Trainingpeaks hat dann auch nur herausgefunden, dass das Flash fuer die Fisch ist. Man kann ein paar bunte Linien machen, aber nix exportieren. WKO+ ist nur fuer Windosen. Zum Glueck gibt's Open Source, naemlich wko2csv, ein schon laenger nicht mehr gewartetes Sourceforge-Projekt. Das erkannte zuerst den Versions-String net im File, ein wenig C++-Hack spaeter war die Nuss dann geknackt, und ein CSV-Dump da. Der musste noch beschnitten werden, weil Ein- und Ausrollen auch aufgezeichnet. Etwas geraten, aber es wird wohl hinkommen. Allerdings: Mit Zeit, Watt, Kadenz, Geschwindigkeit, Hoehe, Temperatur. Was? Keine Distanz? Vielleicht doch Binaerformat noch inkompatibel, aber was soll's: Wir haben eine Zeile fuer jede Sekunde, und da steht die aktuelle Geschwindigkeit drin. Also schnell im R: Neue Spalte, mit Summe aus vorheriger Zeile + aktuelle Geschwindigkeit/3.6 (dann hamma m/s). Summiert sich auf 51800 m, knapp genug an 52 km dran, passt mir. Zuerst mach ma das, was man in R immer macht: plot(sorensen$Speed ~ sorensen$Power), einfach, damit man mal ein Gefuehl fuer die Daten kriegt: ![]() Scatterplot Leistung vs. Geschwindigkeit. Keine Korrelation. Schauen wir nochmals. Zuerst die Daten nach Distanz in Sektionen partitionieren, und dann nur Sektion 1 und 2 malen: ![]() Scatterplot Leistung vs. Geschwindigkeit fuer Abschnitt 1 und 2. Wer sieht was? Naja. Das Auge meint, dass da nix linear ist. Man sieht hoechstens, dass er immer brav zwischen 40 und 55 gefahren ist und dabei 300 bis 450 Watt erstrampeln musste. Tatsaechlich, Korrelationskoeffizient ist raeudigste -0.07 (sollte nah an -1 oder 1 sein fuer negative bzw. positive Korrelation), das heisst: Staerker Treten nicht automatisch schneller. Klar, Wind und, oha! Steigungen. Wir haben ja die Hoehen angegeben: ![]() Hoehendiagramm, eingefaerbelt nach Abschnitten. Abschnitt 2 leider nicht huegeliger als 1, ganz im Gegentum. Sieht aber auch nicht wirklich aus nach einer Begruendung, warum 2. Abschnitt langsamer als die anderen. Au contraire, tut man die positiven Hoehenaenderungen aufsummieren (mit etwas R-Magie in 2 Zeilen gemacht!), kommt man fuer Abschnitt 1 auf 50 der insgesamt 150 Hoehenmeter, Abschnitt 2 hat gar nur 35. Abschnitt 3 hat genauso viel auf der halben Strecke! Hmpf. Naja, lustiges Zwischenintermezzo: ![]() Scatterplot Geschwindigkeit vs. Watt, eingefaerbelt nach Steigung (blau: rauf, rot: runter). Schoene Trennung, und keine Ueberraschung: Bergauf tritt es sich anstrengender. Bergauf muss man staerker treten und ist trotzdem langsamer! Wahnsinn, was einen die fortgeschrittene Datenmassage fuer arge Erkenntnisse liefern kann. Man koennte da noch Clustering betreiben, oder aus Geschwindigkeit, Watten, Kadenz und Steigung ausrechnen, mit welcher Uebersetzung er vielleicht gefahren ist, aber ich zu bloed, Zeit zu knapp und eh uninteressant. War Abschnitt 2 jetzt wirklich anstrengender? Vielleicht kommen wir ueber die Verteilung der Watte, aufgeschluesselt nach Abschnitt drauf: ![]() Verteilung der Watte auf den einzelnen Abschnitten. Naja, sieht man nix wirklich. Vielleicht doch densityplot? Hmpf. Abschnitt 3 und 4 sind ja viel kuerzer, daher weniger Datenpunkte, daher Kurve niedriger. Also doch density-Plot, der tut (hoffe ich!) nach Anzahl der Datenpunkte normalisieren und Wahrscheinlichkeiten angeben, dass ein Datenpunkt in einen Slot faellt: ![]() Density-Plot der Leistung in den verschiedenen Abschnitten: Abschnitt 2 ist sogar nach links verschoben, scheint also weniger anstrengend gewesen zu sein! Whoa. Abschnitt 2 ist weiter links als 1, und damit eigentlich sogar weniger anstrengend! 4 ist erwartungsgemaess viel weiter rechts, da wird nochmals ordentlich angedrueckt. Man koennte jetzt noch Masszahlen fuer Skew und Breite angeben. Koennte man. Haette man die muehsam massierten Daten noch. Weil einmal zu bloed gespielt, und ich hab geglaubt, ich lasse R jetzt nur ein paar Tausend Datenpunkte aufsummieren nach Abschnitten, aber irgendwas lief da schief. Jedenfalls bliess sich der Prozess auf ein paar GB Speicher auf, bevor er explodierte. Und Zwischenspeichern ist ja fuer Deppen, die nicht wissen, was sie tun. Mpf. Man muss schon sagen, R.app fuer OS X ist zwar fein, aber ein wenig mit der heissen Nadel gestrickt. Den richtigen Moment verpasst, und der Stop-Knopf funktioniert nimmer, dann muss man der aktuellen Berechnung ihren Lauf lassen. So ein eigener Thread fuer GUI-Aktionen, den sollte man sich doch leisten koennen. Aber, hat eh was gutes: Ein ungeloestes Raetsel, das die Forschung noch Jahrzehnte beschaeftigen wird, und ich kann mich endlich wieder um sowas aehnliches wie Leben kuemmern. Ich schliesse: Vielleicht ist es ja Absicht - schnell starten, dann normalisieren auf hohem Niveau und gegen Ende dann die letzten Reserven zusaetzlich verbrennen. Und aus. Montag, 26. Juli 2010Zeitfahrdatenverwursteln++
Irgendwie hab ich mir gedacht, dass das angesprochene Phaenomen des langsameren 2. Abschnitts nicht in Ruhe laesst. Also:
![]() Differenz der Durchschnittsgeschwindigkeiten Abschnitt 2 zu Abschnitt 1. Spaeterer Start: Langsamerer 2. Abschnitt. Zur Erhoehung des Schwierigkeitsgrades: Punkte fuer Fahrer eingefaerbt nach Finish-Zeit ([s]). Es ist denn tatsaechlich so, dass spaeter startende Leute den 2. Abschnitt langsamer fuhren als den 1. Auch ein t-Test ergibt da signifikante Unterschiede (p<10-8). Im Prinzip kann man sagen, dass bis Startnummer 48 der 2. Abschnitt im Schnitt schneller als der 1. gefahren wurde, nachher langsamer (49 % Wahrscheinlichkeit vs. 16 %). Von den letzten 55 Startern war ueberhaupt nur mehr einer schneller im 2. als im 1., und das war Mario Aerts (#102). Eine lineare Regression (R2 von nur 0,33) ergibt, dass man ab Startnummer 38 langsamer gefahren ist. Der Unterschied in den Durchschnitten der Durchschnittsgeschwindigkeitsdifferenzen (hrhr) fiele sogar deutlicher aus, wenn's nicht vorher Kristjan Koren (#43) gegeben haette, der ein wenig gebummelt hat. ![]() Durchschnittliche Aenderung der Durchschnittsgeschwindigkeit (Kopfweh?) aller Fahrer vorher (obere) und nachher (untere Grenze). Zum Spass habe ich noch die Grafik mit den ersten drei der Etappe um die zwei Ausreisser erweitert: ![]() Grafik erweitert um Mario Aerts und Kristjan Koren Nur, damit man die Klassen-Unterschiede ein wenig deutlicher sieht. Zeitfahrdatenverwursteln
Die Tour ist aus. Wieder 11 Monate emotionales Vakuum, das irgendwie ueberbrueckt werden muss, behelfsmaessig gekittet mit belanglosen Sachen, wie Leben. Naja, ein wenig kann man es hinauszoegern, indem man noch einmal ein wenig seziert.
Zeitfahren ist zwar zum Zuschauen echt wirklich unendlich oed, so nicht gerade herumgemenchovt wird, aber dafuer gibt's Daten! Heuer war es ja ein bisserl spannender, weil Andy Schleck, eigentlich der schlechtere Zeitfahrer, von seinen 8 Sekunden Rueckstand im GC auf Alberto beim ersten Checkpoint auf einmal 2 Sekunden gut gemacht hatte. 6 kurze Sekuendchen haben da noch gefehlt! Ein paar Stunden davor hatten die beiden Favoriten fuer den Etappensieg ein endliches Duell: Tony Martin fuehrte beim 1. Check mit 9 Sekunden auf den eigentlich viel besseren Fabian Cancellara. Fuer beide drehte sich aber das Schicksal dann, und im Ziel lag Alberto vor Andy und Fabian vor Tony. Ganz wichtig beim Zeitfahren ist angeblich das Pacing, also nicht am Anfang auf Anschlag und dann am Zahnfleisch ins Ziel kriechen. Aber auch locker dahindodeln, weil sonst zu viel verloren, holt man nimmermehr auf. Und weil es auf letour.fr alle Splits praktischerweise zum Copy & Paste im praktischen Tabulator-separierten Format gibt, und ich eh schon lang nix mehr mit R gemacht habe, schauen wir uns das einmal an. Frischerhands in R geladen, ein wenig herummassiert und dann mit ggplot2 ein paar einfache Bildchen gemalt. Anstatt da mit Sekunden rumzupfuschen, dachte ich, schauen wir uns an, wie sich die Durchgeschnittsgeschwindigkeiten auf Abschnitt 1 (km 0 bis km 18,2), Abschnitt 2 (km 18,2 bis 36,2), Abschnitt 3 (km 36,2 bis 45,4) und 4 (45,4 bis Ziel bei km 52,0) entwickelt haben, und zwar nur im jeweiligen Abschnitt. Man beachte: 3 und 4 sind nur ca. halb so lang wie 1 und 2. Zuerst die 3 besten auf dieser Etappe: Die sind recht frueh gestartet, weil die in den Bergen recht viel Zeit liegengelassen haben und dementsprechend weit hinten im GC sind. Grabsch war ueberhaupt die Rote Laterne, als 27. startete Martin, und dann noch als 39. Fabiaaaan. ![]() Durchschnittsgeschwindigkeiten der ersten 3 auf der Etappe von Start zu Check 1, Check 1 zu Check 2, 2 zu 3 und 3 zu Ziel. Gepunktete Linie: Gesamt-Schnitt. Schluessel: Fabiaaaan #13, Martin #115, Grabsch #113 (ich war zu faul, noch die Namen in die Legende einzubauen). Grabsch hat relativ langsam angefangen, und sich erst spaeter richtig gesteigert. Allerdings insgesamt einfach zu langsam - im Ziel fast 2 Minuten Rueckstand. Ein wenig besser sieht's bei Martin aus - der hatte allerdings einen seltsamen Einbruch auf Abschnitt 2. Abschnitt 3 war er genauso schnell wie Fabian, zum Schluss beschleunigte er zwar nochmals, aber alles nix gegen den Schweizer Zeitfahr-Weltmeister. Der hat fast gemuetlich angefangen (50er-Schnitt, pah), und dann kontinuierlich gesteigert. Auf den letzten 8 km legte er noch einen Schnitt von 54,3 km/h hin. Unglaublich - er hatte allerdings auch den Vorteil, dass er die Zeiten von Martin schon kannte und genau wusste, wie schnell er fahren musste. Zu dem Zeitpunkt hatte er schon von Abschnitt 2 genug Vorsprung, konnte sich also noch etwas "ausruhen", um am letzten Stueckerl so richtig die Sau rauszulassen. ![]() Durchschnittsgeschwindigkeiten der ersten 6 im GC von Start zu Check 1, Check 1 zu Check 2, 2 zu 3 und 3 zu Ziel. Gepunktete Linie: Gesamt-Schnitt. Bei den Klassement-Fahrern sah's ganz anders aus. Der Schnitt liegt weit darunter - lt. Fernsehkastl hat am Nachmittag ein richtig boeser Wind zu wehen begonnen. Bei allen sieht man den Einbruch auf Abschnitt 2, der duerfte besonders windanfaellig gewesen sein. Interessant waer, das genauer anzuschauen - nur 25 % aller 170 Leute fuhren auf Stueck 2 schneller als auf 1, aber ich hab noch nicht gelugt, ob das mit der Startreihenfolge korreliert. Anekdotisch: Auch bei Martin sieht man den Einbruch, also kann's nicht der Wind (allein) gewesen sein. Menchov (#191) war eindeutig der schnellste, Gesink (#195) der schneckigste. Spannend wird's im Vergleich der Gruenen mit der Orangen und Gelben Linie (#1: Alberto, #11: Andy, #181: Samuel Sanchez, ehemaligst 3. im Klassement, von Menchov eingestampft). Andy startete, wie gesagt, sehr schnell und lag vor Contador beim 1. Check. Aber er hat wohl ziemlich ueberdreht - die Abstaende zur gruenen Contador-Linie werden immer hoeher, er steigerte sich zwar wieder, aber bei weitem nicht im selben Ausmass wie Contador. Sanchez dagegen startete langsamer, lag dann fast ex-aequo (aber immer noch hinten), drehte dann voll auf und brach dafuer auf Abschnitt 4 etwas ein (im Vergleich zu Contador - er fuhr schon noch schneller als am 3.). Alberto selbst scheint sich auf den letzten 8 km die Seele aus dem Leib gefahren zu haben. Van den Broek dagegen bestes Beispiel fuer wie man's auch net macht: Entweder er hatte besonders boesen Wind auf den 2. 18 km, oder er hat sich auf dem ersten Stueckerl so vorausgabt, dass nix mehr uebrig war (immerhin war er schneller als Sanchez). Jedenfalls hat er dann nochmals voll reingenusst, und ist die letzten 8 km sogar schneller gewesen als Schleck, aber insgesamt war's dann trotzdem nur die 5.schnellste Zeit der 6 GC-Fahrer. So, und jetzt noch die Aenderung der Durchschnittsgeschwindigkeiten von Abschnitt 1 auf 2, 2 auf 3 und 3 auf 4, weil auch recht interessant (raeusper): ![]() Differenzen der Durchschnittsgeschwindigkeiten zwischen Check 1+2, 2+3 und 3+4. Van den Broek hat ordentlich beschleunigt. Das ist quasi die Masszahl fuer die Saurauslassung auf dem jeweiligen Abschnitt. VdBroek hatte seine Schweine tief in der Geheimgrube unterm Stall vergraben, aber dann trieb er die Schinkenspender quasi mit Fackel und Sense hinaus, dass es nur so quiekte. Von fast -3 km/h auf +3 km/h, und damit hat er sich anscheinend wirklich zu viele Koerndln aufgehoben gehabt. Wie schon angekuendigt, Fabian war der einzige, der auf Punkt 1 schon seine Grunzviechergatter geoeffnet hatte. Dass er sich von diesem hohen Niveau noch einmal am 2.meisten steigern konnte, spricht dann fuer einen eingebauten Motor, der magischerweise ohne Batterie und Laufgeraeusch funktioniert (bitte ankreuzen, wenn man italienischer Journalist ist) oder dafuer, dass er einfach der beste Zeitfahrer ist, im Moment (Drogen nehmen sie eh alle dieselben). Andy dagegen (#11, fuer die Kurzzeitgedaechtnisbeeintraechtigten) schien schon am Anfang ziemlich auf Anschlag gewesen zu sein - die geringsten Steigerungen von allen, und damit auch insgesamt eher nicht so gut abgeschnitten. Denis "The Pope" Menchov (sehr lustig: von Eurosport verliehener Boxer-Name, weil er immer den Boden kuesst) ist uebrigens der einzige, der zum Schluss deutlich weniger beschleunigen konnte als von 2 auf 3. Vielleicht wusste er aber auch schon, dass er mehr als genug Polster auf Sanchez hatte und ist deswegen nicht ganz auf Druck geradelt. Soda, genug generdet. Wer bis hierher gelesen hat: Wie fad kann einem eigentlich sein?!
(Seite 1 von 1, insgesamt 3 Einträge)
|
KalenderSucheKategorienVerwaltung des BlogsStatistikenLetzter Artikel: 27.07.2010 21:42
244 Artikel wurden geschrieben
65 Kommentare wurden abgegeben
|