1 00:00:00,000 --> 00:00:18,871 *36C3 Vorspannmusik* 2 00:00:18,871 --> 00:00:22,752 Herald 1: Ok. Spaß beiseite! Der nun folgende Zug is schon ganz schön lange 3 00:00:22,752 --> 00:00:27,420 unterwegs. Beim 33C3, da fuhr er mit Xerox ab. 4 00:00:27,420 --> 00:00:33,250 Herald 2: Beim 33C3 hat er dann SPIEGEL einmal gedataminet und hat geguckt. Was ist denn 5 00:00:33,250 --> 00:00:37,620 dort? SpiegelOnline! Und hat uns wirklich eine total perfekte Datenanalyse zu dem 6 00:00:37,620 --> 00:00:41,629 Thema gemacht? Herald 1: Und beim 36C3 geht's mit dieser 7 00:00:41,629 --> 00:00:45,590 Zugfahrt weiter. Bitte begrüßt mit 'nem ries'n Applaus David Kriesel. 8 00:00:45,590 --> 00:00:49,699 *Applaus* Herald 2: Applaus! Applaus! Applaus! 9 00:00:49,699 --> 00:00:53,120 *Applaus* Herald 1: Viel Spaß! 10 00:00:53,120 --> 00:00:57,229 *Applaus* 11 00:00:57,229 --> 00:01:02,940 David Kriesel: Also ich glaub: So geil bin ich noch nie niemals eingeleitet worden. 12 00:01:02,940 --> 00:01:06,850 *Lachen* D: Hm! Herzlich willkommen euch allen 13 00:01:06,850 --> 00:01:12,610 hier! Auch Herzlich willkommen an die Leute im Stream - an die Aluhüte im 14 00:01:12,610 --> 00:01:18,060 Besonderen. Die Aluhüte glühen aber leider noch nicht. Vielleicht kriegen wir das im 15 00:01:18,060 --> 00:01:22,330 Verlaufe dieses Vortrages noch hin. Mein Name ist David Kriesel. Ich bin 16 00:01:22,330 --> 00:01:26,600 Informatiker aus der Nähe von Bonn. Im richtigen Leben ist es mein Beruf 17 00:01:26,600 --> 00:01:33,149 interessante Sachen in größeren Datenmengen zu finden. Neudeutsch heißt 18 00:01:33,149 --> 00:01:37,670 das Data Scientist. Und zusätzlich zum Beruf habe ich verschiedene Projekte und 19 00:01:37,670 --> 00:01:43,039 manchmal nehme ich mir eines davon raus und halte hier einen Vortrag. Ich bin 20 00:01:43,039 --> 00:01:47,509 Rheinländer und bei uns sagt man Ab zweimal ist es Tradition und beim dritten 21 00:01:47,509 --> 00:01:51,670 Mal ist es Brauchtum. Ich bin jetzt das dritte Mal hier. Das ist schon voll 22 00:01:51,670 --> 00:01:57,789 Brauchtum und ich freue mich, dass es so oft geklappt hat. Unsere Geschichte heute 23 00:01:57,789 --> 00:02:06,340 beginnt im Jahr 2018. Am Ende des Jahres 2018 hat nämlich die Bahn gesagt, rund 75 24 00:02:06,340 --> 00:02:11,990 Prozent ihrer Fernzüge seien pünktlich gewesen. Dafür muss man erst mal wissen: 25 00:02:11,990 --> 00:02:17,490 Was ist denn pünktlich? Die Bahn errechnet das folgendermaßen: Die sagen: Wenn ein 26 00:02:17,490 --> 00:02:24,120 Zug bei einem Stopp weniger als sechs Minuten zu spät ankommt, dann ist er 27 00:02:24,120 --> 00:02:27,670 pünktlich. Das ist wirklich die Definition, und wir übernehmen das 28 00:02:27,670 --> 00:02:33,370 einfach. Da müssen wir dann nicht handeln. Und dann errechnen Sie den Prozentsatz 29 00:02:33,370 --> 00:02:39,290 aller Stopps, bei denen das der Fall ist. Und das wären bei knapp 75 Prozent in 2018 30 00:02:39,290 --> 00:02:43,690 so der Fall gewesen. Und das hat mich in meiner persönlichen Erfahrung irgendwie 31 00:02:43,690 --> 00:02:53,079 gestört. In den letzten Jahren bin ich quer durch Deutschland gereist, davon 32 00:02:53,079 --> 00:02:57,849 relativ häufig mit der Bahn. Und dann habe ich meine Mailbox geguckt, und für mehr 33 00:02:57,849 --> 00:03:03,470 als die Hälfte meiner Fahrten habe ich diese E-Mail von verspätungsalarm@bahn.de. 34 00:03:03,470 --> 00:03:09,720 Und da dachte ich Ich bin wohl dieser eine Typ - ja - der aufpassen muss, nicht vom 35 00:03:09,720 --> 00:03:16,750 Blitz getroffen zu werden, während er den Sechser im Lotto abholt. Ja? Ich wollte 36 00:03:16,750 --> 00:03:20,610 das dann genauer wissen. Also habe ich mal in die Statistiken geguckt, die auf der 37 00:03:20,610 --> 00:03:25,319 Webseite der Bahn sind. Dann habe ich gesehen: Das sind kaum welche. Die Bahn 38 00:03:25,319 --> 00:03:31,333 bietet auf ihrer Webseite nur die Prozent der pünktlichen Stopps pro Monat an. Fürs 39 00:03:31,333 --> 00:03:36,719 Gesamtnetz, bundesweit nochmal getrennt im Nah und Fernverkehr und das ist 40 00:03:36,719 --> 00:03:39,439 zusammengefasst. Damit kann man nichts anfangen. Man kann dann nicht nach 41 00:03:39,439 --> 00:03:43,189 bestimmten Verbindungen filtern. Man kann aber nicht gucken, bei welchen Bahnhöfen 42 00:03:43,189 --> 00:03:46,719 die Performance besonders schlecht ist oder gut ist und alles, was interessant 43 00:03:46,719 --> 00:03:50,790 ist oder was ich interessant fand, das geht nicht. Also habe ich am 8. Januar 44 00:03:50,790 --> 00:03:54,400 begonnen, die Deutsche Bahn zu vorratsdatenspeichern. 45 00:03:54,400 --> 00:04:08,799 *Lachen & Applaus* In diesem Datensatz gucken wir heute rein 46 00:04:08,799 --> 00:04:11,640 und wir werten das auch nicht nur aus, sondern ich werde auch ein bisschen Zeit 47 00:04:11,640 --> 00:04:15,010 darauf verwenden, euch grob zu erklären, wie man so ein Datenprojekt angeht und 48 00:04:15,010 --> 00:04:18,841 worauf man achten muss und wie man vor allem merkt, ob man Vertrauen in die Daten 49 00:04:18,841 --> 00:04:23,770 haben kann. Das muss ja nicht sein, dass alles stimmt, was man so herunterlädt, und 50 00:04:23,770 --> 00:04:27,370 über den ganzen Vortrag hinweg geb ich euch immer so ein paar... - Wie nenne ich 51 00:04:27,370 --> 00:04:32,221 das? - Praxistipps, die ihr mit nach Hause nehmen und an die ihr denken könnt, wenn 52 00:04:32,221 --> 00:04:37,080 ihr eine Bahnfahrt bucht. Disclaimer Vorweg: Ich habe mit der Bahn nicht über 53 00:04:37,080 --> 00:04:40,680 die Auswertungen gesprochen. Behaltet im Hinterkopf: Am Ende ist das ein kleines 54 00:04:40,680 --> 00:04:44,690 Hauptprojekt, und es kann durchaus sein, dass ich Fehler gemacht habe. Aber da wir 55 00:04:44,690 --> 00:04:47,841 auch noch über die Vertrauenswürdigkeit der Daten reden, könnt ihr selbst 56 00:04:47,841 --> 00:04:51,920 entscheiden, ob ihr meinen Daten vertraut oder nicht. Wir kucken uns jetzt endlich 57 00:04:51,920 --> 00:04:57,030 mal an, wie die Daten aussehen. Hier sehen wir eine fiktive Fahrt eines ICE. Ich gebe 58 00:04:57,030 --> 00:05:03,600 euch mal kurz fünf Sekunden für den ersten Überblick und danach erkläre ich die. Drei 59 00:05:03,600 --> 00:05:11,380 Sekunden reichen auch. So! Der ICE fährt in München los und jede weitere Zeile ist 60 00:05:11,380 --> 00:05:17,370 ein Stopp und irgendwann ist er am Ziel angekommen. Hier: Bergen auf Rügen. Eine 61 00:05:17,370 --> 00:05:21,920 Fahrt ist die Sequenz aller Stopps, die der Zug von Anfang bis Ende macht. Danach 62 00:05:21,920 --> 00:05:25,870 ist das eine neue Fahrt. Hier sind die Verspätungen pro Stopp. Der Zug ist mit 63 00:05:25,870 --> 00:05:30,120 sechs Minuten Verspätung abgefahren und nach der Messmethode der Bahn wäre der 64 00:05:30,120 --> 00:05:34,340 gerade als verspätet zu werten - an diesem Stopp. Und dann schwanken die 65 00:05:34,340 --> 00:05:39,639 Verspätungen. In Erfurt sind wir auch mal sechs Minuten zu früh dran gewesen. Die 66 00:05:39,639 --> 00:05:44,050 Verspätung ist negativ. Das passiert. In der Regel heißt das übrigens, dass der Zug 67 00:05:44,050 --> 00:05:48,039 dann einfach länger bleibt und nicht zu früh wieder abfährt. Am Berliner 68 00:05:48,039 --> 00:05:53,979 Flughafen; der Stopp fällt aus. In 20 Jahren werde ich diese Witze immer noch 69 00:05:53,979 --> 00:06:01,580 machen können. *Lachen & Applaus* 70 00:06:01,580 --> 00:06:07,510 Und diese Stopps aller Fahrten sind die Grundlage unserer Daten, meine Tabelle hat 71 00:06:07,510 --> 00:06:13,009 25 Millionen Zeilen. Das sind 25 Millionen Stopps von irgendwelchen Zügen. Das sind 72 00:06:13,009 --> 00:06:17,830 alle Stopps im Fernverkehr vom 8. Januar bis jetzt. Und auch der Nahverkehr, aber 73 00:06:17,830 --> 00:06:21,819 der nur an den Fernbahnhöfen. Komme ich gleich noch zu. Und die Tabelle hat auch 74 00:06:21,819 --> 00:06:26,690 verschiedenste Spalten - die, die ich hier vorführe und noch einige mehr. Wir können 75 00:06:26,690 --> 00:06:30,009 in einzelne Orte reingucken, in einzelne Fahrten reingucken, in Zeiträume 76 00:06:30,009 --> 00:06:33,250 reingucken. Wir können auch kompliziertere Auswertungen fahren. Machen wir auch heute 77 00:06:33,250 --> 00:06:37,039 noch. Zum Anfang, machen wir mal ein paar ganz einfache Sachen mit den Daten. Das 78 00:06:37,039 --> 00:06:40,690 ist nicht, um euch zu langweilen, aber wir müssen ja erst mal reinkommen, den 79 00:06:40,690 --> 00:06:44,450 Datensatz kennenlernen und so weiter. Wir sortieren jetzt die ganze Tabelle von 80 00:06:44,450 --> 00:06:48,190 Stopps, 25 Millionen Stück, mal nach Bahnhöfen und dann ermitteln wir die 81 00:06:48,190 --> 00:06:55,099 Anzahl der Stopps für jeden Bahnhof über das ganze Jahr hinweg. Jeder Bubble hier 82 00:06:55,099 --> 00:06:59,790 ist ein Bahnhof mit Fernverkehr und davon haben wir um die 350 Stück. Das sind die 83 00:06:59,790 --> 00:07:03,889 wichtigen. Und die Größe der Bubble gibt die Anzahl der erfassten Halte für den 84 00:07:03,889 --> 00:07:07,770 Bahnhof wieder, und zwar für alles, was da fährt: Fern- und Nahverkehr. Und der 85 00:07:07,770 --> 00:07:13,000 Größte, was das angeht, ist Köln Hauptbahnhof mit im Moment 380 000 Stopps 86 00:07:13,000 --> 00:07:18,070 in der Datenbank. Ich habe die Top 6 mal in der Karte beschriftet. Warum genau die 87 00:07:18,070 --> 00:07:22,569 Top 6? Weil der sechste Bahnhof genau Hamburg Dammtor ist und das wollte ich 88 00:07:22,569 --> 00:07:26,721 euch nicht vorenthalten. Das war unser letzter Congress-Bahnhof. Der Bahnhof 89 00:07:26,721 --> 00:07:30,849 Leipzig Messe ist übrigens deutlich, deutlich kleiner. Inklusive Nahverkehr 90 00:07:30,849 --> 00:07:34,479 haben wir hier so 60.000 Stopps im Jahr und überhaupt nur ein paar hundert 91 00:07:34,479 --> 00:07:38,180 Fernverkehr. Wo wir schon dabei sind, machen wir jetzt was aus Kundensicht 92 00:07:38,180 --> 00:07:44,699 Interessantes und färben mal die Bahnhöfe ein. Und zwar nach der Pünktlichkeit, nach 93 00:07:44,699 --> 00:07:49,530 dem Prozentsatz der Pünktlichkeit, der dortigen Stopps im Fernverkehr. Das ist 94 00:07:49,530 --> 00:07:56,400 die Pünktlichkeit. Knallrot ist 60 Prozent, knallblau ist 90 Prozent und 95 00:07:56,400 --> 00:08:00,751 dazwischen farblos. Das ist ungefähr der Durchschnitt bei 75. Als erstes sieht man 96 00:08:00,751 --> 00:08:11,119 In Ostdeutschland ist quasi alles blau. *Applaus* 97 00:08:11,119 --> 00:08:15,599 Ich bin sicher, das sind diese blühenden Landschaften, von denen Altkanzler Kohl 98 00:08:15,599 --> 00:08:21,740 immer sprach. In Nordrhein-Westfalen ist so ziemlich alles rot. Köln hat nur so 66 99 00:08:21,740 --> 00:08:27,150 Prozent Pünktlichkeit. Bonn ist wirklich eines der Schlusslichter mit 59 Prozent. 100 00:08:27,150 --> 00:08:30,039 Das sind die beiden Bahnhöfe, über die ich oft fahre. 101 00:08:30,039 --> 00:08:33,810 *Lachen* Generell. Der ganze dicht besiedelte Raum 102 00:08:33,810 --> 00:08:37,530 in Nordrhein-Westfalen ist ziemlich schlimm dran. Und ich habe euch ja gesagt, 103 00:08:37,530 --> 00:08:41,070 dass ich das ganze Projekt überhaupt erst gestartet habe, weil ich dachte, die 104 00:08:41,070 --> 00:08:44,960 Statistik der Bahn wäre falsch, weil meine Züge so häufig unpünktlich sind. Die 105 00:08:44,960 --> 00:08:52,190 simple Wahrheit ist, ich wohne nur schlecht. Hamburg, oben, ist auch schlimm. 106 00:08:52,190 --> 00:08:58,130 Das finde ich auch gerecht. Warum soll ich der Einzige sein? Irgendwo bei 60 Prozent, 107 00:08:58,130 --> 00:09:01,170 je nachdem, welchen Bahnhof man erwischt. Das sieht da jetzt röter aus, als es ist, 108 00:09:01,170 --> 00:09:04,920 weil die Dinger transparent sind. Und was die Pünktlichkeit angeht, haben wir uns 109 00:09:04,920 --> 00:09:09,950 mit Leipzig Messe definitiv verbessert. Wir sind hier so bei 80 Prozent oder etwas 110 00:09:09,950 --> 00:09:14,570 mehr. Ganz wichtig: Ich zeige ab jetzt jetzt überall, wo es nicht anders dran 111 00:09:14,570 --> 00:09:18,140 steht, nur noch den Fernverkehr an. Überhaupt wird der ganze Vortrag primär 112 00:09:18,140 --> 00:09:24,880 über den Fernverkehr gehen, weil über das wird meistens berichtet in den Medien und 113 00:09:24,880 --> 00:09:27,450 auch darüber gemeckert. Und der Fernverkehr ist das, worüber alle reden. 114 00:09:27,450 --> 00:09:31,420 Aber wenn ich sage, dass ich hier primär über den Fernverkehr heute rede, dann muss 115 00:09:31,420 --> 00:09:37,000 ich auch fair sein und das Folgende sagen: Der Nahverkehr, den wir jetzt auslassen, 116 00:09:37,000 --> 00:09:40,860 erreicht fast flächendeckend Pünktlichkeitswerte von besser als 90 117 00:09:40,860 --> 00:09:44,423 Prozent. Behaltet das bitte über den Rest des Vortrages im Hinterkopf. Die Bahn hat 118 00:09:44,423 --> 00:09:48,650 auch gute Seiten und bringt gerade im Nahverkehr eine ziemliche Menge Leute 119 00:09:48,650 --> 00:09:53,000 jeden Tag zu ihrem Job. Da geht sicher auch mal was schief, aber deutlich weniger 120 00:09:53,000 --> 00:09:55,820 als im Fernverkehr. *Applaus* 121 00:09:55,820 --> 00:10:02,970 Ich hoffe, die Leute von der Bahn hören zu und hören das jetzt gerade. Wir ändern 122 00:10:02,970 --> 00:10:06,310 jetz nochmal die Ansicht, die Pünktlichkeit pro Bahnhof waren ja 123 00:10:06,310 --> 00:10:10,320 interessant für den Kunden. Aber wenn man ein bisschen analytisch was machen will 124 00:10:10,320 --> 00:10:14,510 und bei der Bahn arbeitet, dann ist da das Interessante. Welche Bahnhöfe richtig viel 125 00:10:14,510 --> 00:10:20,060 Verspätung generieren, also dem Netz hinzufügen, und das ist die Ansicht. Ganz 126 00:10:20,060 --> 00:10:24,529 schlimm sind große Bahnhöfe mit vielen Stopps, die gleichzeitig jedem Zug, der da 127 00:10:24,529 --> 00:10:28,829 anhält noch so ein bisschen Verspätung mit auf den Weg geben. Die fünf schlimmsten 128 00:10:28,829 --> 00:10:36,630 sind Hamburg, Köln, Frankfurt Flughafen, Mannheim. Die sind alle mit mehr als 129 00:10:36,630 --> 00:10:42,491 50.000 hinzugefügten Verspätungsminuten im Messzeitraum. Spitzenreiter ist Frankfurt 130 00:10:42,491 --> 00:10:47,090 Hauptbahnhof mit 93.000 generierten Verspätungsminuten. Ich höre, wir haben 131 00:10:47,090 --> 00:10:50,250 eine Frankfurtfraktion, wie seid ihr hergekommen? *Lachen* 132 00:10:50,250 --> 00:10:52,550 Publikumseinrufe: Zu spät! Auto! 133 00:10:52,550 --> 00:10:56,570 D: Die sind heute erst angekommen. Ich hoffe 134 00:10:56,570 --> 00:11:03,120 ihr habt euch nicht gehetzt! Zweiter Tag abends. Es gibt aber auch Bahnhöfe 135 00:11:03,120 --> 00:11:07,399 funktionieren so gut, dass sie insgesamt Verspätungen aus dem Netz rausnehmen. Die 136 00:11:07,399 --> 00:11:11,450 Top drei sind Bremen, Berlin Hauptbahnhof und Berlin Spandau. 137 00:11:11,450 --> 00:11:18,970 *Applaus* Das hat mich sehr kalt erwischt. das mir 138 00:11:18,970 --> 00:11:25,480 völlig unverhofft ein Nachweis dieser Größenordnung gelungen ist: Es gibt 139 00:11:25,480 --> 00:11:30,420 tatsächlich etwas an Berlin, das funktioniert. *Lachen* 140 00:11:30,420 --> 00:11:36,900 Wir machen weiter - sonst artet das aus. Hier seht ihr im 141 00:11:36,900 --> 00:11:39,839 Vergleich, wie viele Fahrten es im Nahverkehr, Fernverkehr und von 142 00:11:39,839 --> 00:11:43,670 Drittanbietern gibt. Wir ihr seht, ist das weitaus meiste der Nahverkehr - hier 143 00:11:43,670 --> 00:11:47,940 orange. Hier sind mehr als fünf Millionen Fahrten im Datensatz. Dagegen gibt es nur 144 00:11:47,940 --> 00:11:51,760 circa eine Viertelmillion Fahrten im Fernverkehr - der ist hier blau - und es 145 00:11:51,760 --> 00:11:56,320 gibt noch ziemlich viele Fahrten von Drittanbietern. Wir dröseln das mal in 146 00:11:56,320 --> 00:11:59,660 einzelne Zugfahrten auf, einfach, damit wir sehen, was es gibt, bevor wir richtig 147 00:11:59,660 --> 00:12:04,110 einsteigen. Wir sehen jetzt, dass sich der Nahverkehr aufspaltet, in die drei 148 00:12:04,110 --> 00:12:10,180 dicksten Bubble: Regionalbahnen Regionalexpress, S-Bahn. Und der 149 00:12:10,180 --> 00:12:16,061 Fernverkehr in ICE, Intercity, das ist IC und Eurocity, EC. Die Abkürzungen verwende 150 00:12:16,061 --> 00:12:20,190 ich auch im Folgenden. Diese vergleichsweise kleinen blauen Punkte, das 151 00:12:20,190 --> 00:12:23,589 sind die eigentlich interessanten Zugarten für heute. Das sind nämlich die Züge, die 152 00:12:23,589 --> 00:12:27,709 quer durch Deutschland fahren. Da kann man richtig was sehen. Jetzt gehen wir einen 153 00:12:27,709 --> 00:12:32,350 Schritt weiter. Wir nehmen diese für uns relevanten Zugarten her - also ICE, 154 00:12:32,350 --> 00:12:37,550 Intercity, Eurocity - und dann schauen wir einfach mal, welche Zugart generell am 155 00:12:37,550 --> 00:12:43,780 spätesten dran ist, damit man gleich weiß, wo man ausweichen muss. Ich wiederhole 156 00:12:43,780 --> 00:12:46,730 nochmals, wie die Bahn das misst. Prozentzahl der Stopps, die maximal sechs 157 00:12:46,730 --> 00:12:51,940 Minuten zu spät sind, sind pünktlich. Im Fernverkehr am pünktlichsten sind die 158 00:12:51,940 --> 00:12:57,880 Intercity, mit gut 76 Prozent. Dicht danach folgen die ICE. Deutlich dahinter 159 00:12:57,880 --> 00:13:02,336 die Eurocity. Davon sind nicht mal 70 Prozent nach der Bahn-Definition 160 00:13:02,336 --> 00:13:06,120 pünktlich. Da muss ich sagen, das kann ich in der Tat aus persönlicher Erfahrung 161 00:13:06,120 --> 00:13:10,379 bestätigen. Nach meinem Eindruck ist die Qualität von den Teilen einfach schlechter 162 00:13:10,379 --> 00:13:14,560 - in jeder Hinsicht. Die Züge sehen, auch wenn ich damit fahre, immer relativ alt 163 00:13:14,560 --> 00:13:19,180 aus. Aber man muss auch fair sein. Die fahren internationaler als der Rest der 164 00:13:19,180 --> 00:13:22,801 Züge und wenn die direkt von außen Verspätungen mitbringen, kann die Bahn da 165 00:13:22,801 --> 00:13:26,360 nichts für und solche Fälle gibt es. Und es fehlt noch eine Größe, die wir messen 166 00:13:26,360 --> 00:13:30,540 können und die wir messen werden. Und über die schweigt sich die Bahn auf ihren 167 00:13:30,540 --> 00:13:34,730 Webseiten aus. Und wenn man sich so konsequent ausschweigt, hat das natürlich 168 00:13:34,730 --> 00:13:40,950 zur Folge, dass man sich für eine Analyse bewirbt. Das ist der Prozentsatz der 169 00:13:40,950 --> 00:13:46,889 Ausfälle. Hier ist er. Und das war für mich überraschend. ICEs sind ja das 170 00:13:46,889 --> 00:13:50,800 Flaggschiff der Bahn und anscheinend fallen die mit weitem Abstand am 171 00:13:50,800 --> 00:13:58,240 häufigsten aus. Eurocity gut zwei Prozent, Intercity gut drei Prozent und ICE über 172 00:13:58,240 --> 00:14:03,649 fünf Prozent. Also wenn ihr einen ICE bucht, dann taucht er in einem von 20 Mal 173 00:14:03,649 --> 00:14:09,860 einfach nicht auf. Das fand ich ganz schön stramm. Mich hat das überrascht. Mein 174 00:14:09,860 --> 00:14:16,110 Praxistipp an euch lautet also: Vorsicht mit den ICEs! Ich weise fairerweise 175 00:14:16,110 --> 00:14:20,050 nochmals darauf hin, dass das eine Auswertung von außen ist. Es besteht die 176 00:14:20,050 --> 00:14:24,260 Möglichkeit, dass das nicht stimmt oder da ewig viele Extrafahrten dann für die 177 00:14:24,260 --> 00:14:28,519 Ausfälle gefahren werden, die gar nicht im Plan standen, aber alle diese Stopps 178 00:14:28,519 --> 00:14:31,529 standen in deren Daten explizit als ausgefallen drin. Die Daten sehen 179 00:14:31,529 --> 00:14:34,829 insgesamt realistisch aus, und im SPIEGEL hatten Sie auch neulich eine Auswertung, 180 00:14:34,829 --> 00:14:38,529 wo Sie auf ähnliche Werte kamen. Also schlage ich vor, wir betrachten das mal 181 00:14:38,529 --> 00:14:45,201 als gegeben, bis die Bahn widerspricht. Übrigens einer der fettesten, nicht 182 00:14:45,201 --> 00:14:49,750 ausgefallenen Verspätungen in meinem Datensatz, war der ICE 576 von Stuttgart 183 00:14:49,750 --> 00:14:57,320 nach Hamburg, und zwar am 17. Oktober 2019. Der hatte 456 Minuten Verspätung. 184 00:14:57,320 --> 00:15:03,771 Das sind mehr als siebeneinhalb Stunden und der war nicht ausgefallen. Und um 185 00:15:03,771 --> 00:15:08,550 unseren Überblick zu vollenden, gucken wir uns jetzt das Ganze noch einmal über die 186 00:15:08,550 --> 00:15:12,889 Zeit an. Hier sehen wir die Fahrten über die Zeit, die ich für den Fernverkehr in 187 00:15:12,889 --> 00:15:17,380 der Datenbank habe. Die können wir uns mal angucken, wie das funktioniert. Wir sehen, 188 00:15:17,380 --> 00:15:21,050 dass wir so um die 800 Fahrten am Tag haben im Fernverkehr. Die niedersten 189 00:15:21,050 --> 00:15:25,251 Zacken sind immer Samstage, die hohen Zacken immer Freitage, das ist der 190 00:15:25,251 --> 00:15:28,410 Berufsverkehr. Hier sind Ostern und Pfingsten. Weihnachten habe ich nicht mehr 191 00:15:28,410 --> 00:15:33,100 hingekriegt. Und was sieht man noch? Man sieht zum Beispiel, dass ich zwischendurch 192 00:15:33,100 --> 00:15:39,040 Mist gebaut habe und ein paar Tage Daten verloren habe. Wer meinen letzten Vortrag 193 00:15:39,040 --> 00:15:43,480 hier gesehen hat, dem wird das bekannt vorkommen. Ich mache das jeden Vortrag. 194 00:15:43,480 --> 00:15:47,481 Aber ich war besser. Diesmal war ich so klug - ja - und dann hab ich mir ein 195 00:15:47,481 --> 00:15:52,320 vernünftiges Download Monitoring gebaut. Und dann dachte ich, ich wäre cool. Und 196 00:15:52,320 --> 00:15:56,339 dann habe ich es irgendwie geschafft, den Debian Server, auf dem das Ganze läuft, 197 00:15:56,339 --> 00:15:59,959 komplett zu crashen - also der hat gar nicht mehr geantwortet. Ich musste die 198 00:15:59,959 --> 00:16:05,160 Kiste hart booten, und ich war da gerade in Urlaub und habe das nicht gemerkt. Also 199 00:16:05,160 --> 00:16:09,570 diesmal Technischer Tipp für euch. Baut nicht nur ein Download Monitoring, sondern 200 00:16:09,570 --> 00:16:13,347 lasst das auch noch auf einem anderen Server laufen als den Download selbst. 201 00:16:13,347 --> 00:16:22,839 *Applaus* Und weil wir heute ja auf Bahnbewerbungen 202 00:16:22,839 --> 00:16:27,170 hin die Ausfälle besonders genau machen wollen: Hier sind die Ausfälle über die 203 00:16:27,170 --> 00:16:32,370 Zeit, das sind die Prozent der Stops pro Tag, die einfach ausgefallen sind und man 204 00:16:32,370 --> 00:16:38,740 sieht sofort zwei fette Spikes. Hier ist der Orkan Eberhard. Dieser Orkan ist am 205 00:16:38,740 --> 00:16:43,110 10. März über uns hereingebrochen, und am Nachmittag war der der Meinung, es würde 206 00:16:43,110 --> 00:16:48,290 jetzt mal reichen mit Bahnverkehr. Und den gucken wir uns auch noch genauer an, und 207 00:16:48,290 --> 00:16:51,850 hier ist der heißeste Tag des Jahres mit der Hitzewelle dieses Jahr. Und generell 208 00:16:51,850 --> 00:16:55,899 sieht man, wenn ihr hier so ein bisschen genauer guckt, dass es im Hochsommer eine 209 00:16:55,899 --> 00:16:59,300 stark erhöhte Ausfallrate gibt. Wie kommt das? 210 00:16:59,300 --> 00:17:04,430 Publikumseinruf: Klimaanlage D: Klimaanlage höre ich da. Die Ausfälle 211 00:17:04,430 --> 00:17:09,579 nach Zeit zerlegen wir jetzt nochmal in die relevanten Zugarten - bevor der alles 212 00:17:09,579 --> 00:17:15,610 vorwegnehmt nimmt - und das machen wir jetzt nicht mehr auf der Basis von Tagen, 213 00:17:15,610 --> 00:17:18,701 sondern von Wochen, das ist einfach etwas glatter. Und die gelbliche Linie sind die 214 00:17:18,701 --> 00:17:24,470 ICEs und da sieht man erst mal, was für ein fettes Problem die mit den ICEs im 215 00:17:24,470 --> 00:17:28,850 Sommer haben. Und ihr seht wie die Ausfälle der ICEs im Sommer im Vergleich 216 00:17:28,850 --> 00:17:34,510 zu den anderen Zugarten richtig stark nach oben ausbrechen. Das sind so um die 8 217 00:17:34,510 --> 00:17:39,681 Prozent Ausfallquote - fast an jedem zwölften Stop taucht so ein ICE in der 218 00:17:39,681 --> 00:17:46,100 warmen Zeit dann einfach nicht auf. Und in der Woche vom 22. Juli sind in der ganzen 219 00:17:46,100 --> 00:17:52,390 Woche sind mehr als 10 Prozent aller ICE Stopps ausgefallen. Also ich weiß nicht, 220 00:17:52,390 --> 00:17:56,200 wie euch das geht, aber das geht bei mir über die Fehlertoleranz. Also wenn das 221 00:17:56,200 --> 00:18:00,640 jeden Sommer so ist, wäre mein nächster Praxis Tipp für euch: Vorsicht mit ICEs im 222 00:18:00,640 --> 00:18:08,750 Sommer. Und jetzt, wo es kälter wird, fängt das auch wieder so an, aber wenn man 223 00:18:08,750 --> 00:18:11,710 das so anguckt - wir müssen noch ein bisschen abwarten. Es ist noch nicht raus, 224 00:18:11,710 --> 00:18:15,820 ob das wirklich so wird. In zwei, drei Monaten wissen wir mehr, wenn es richtig 225 00:18:15,820 --> 00:18:21,500 kalt war. Wir machen jetzt noch zwei kleine Sachen und danach reden wir mal 226 00:18:21,500 --> 00:18:25,090 darüber, wie man so ein Projekt überhaupt aufbaut und was die Grundregeln sind. Hier 227 00:18:25,090 --> 00:18:30,740 ist etwas Offensichtliches. Ich habe hier die Stops mal aller Fahrten sortiert nach 228 00:18:30,740 --> 00:18:35,840 der Zeit, die die Zugfahrt bereits vor diesem Stop gedauert hat. Von links nach 229 00:18:35,840 --> 00:18:39,000 rechts steigt die bereits gefahrene Laufzeit vor dem Stopp an, hier von null 230 00:18:39,000 --> 00:18:44,260 bis 500 Minuten. Und was sieht man? Früher in der Fahrt ist der Prozentsatz der 231 00:18:44,260 --> 00:18:48,420 pünktlichen Züge höher. Später in der Fahrt sinkt die prozentuale Pünktlichkeit 232 00:18:48,420 --> 00:18:54,040 krass ab. Bei 500 Minuten sind unter 60 Prozent pünktlich. Das habt ihr euch 233 00:18:54,040 --> 00:18:57,010 wahrscheinlich jetzt alle schon selbst gedacht. Warum sage ich das also? Weil ich 234 00:18:57,010 --> 00:18:59,880 die Bahn ein bisschen in Schutz nehmen möchte. Man sieht nämlich häufiger in den 235 00:18:59,880 --> 00:19:04,110 Medien irgendwelche Untersuchungen von Fahrten zwischen weit entfernteren 236 00:19:04,110 --> 00:19:08,130 Metropolen und da werden dann unglaublich schlechte Pünktlichkeiten gemessen. Und 237 00:19:08,130 --> 00:19:11,700 wenn ihr sowas seht, lasst mich euch sagen, die machen die Bahn schlimmer, als 238 00:19:11,700 --> 00:19:15,260 sie ist, weil sie durch weiter entfernen eben nur den Datenteil mit der hohen 239 00:19:15,260 --> 00:19:19,630 Verspätung auswählen. Und ganz ehrlich - die häufigen Probleme mit den japanischen 240 00:19:19,630 --> 00:19:25,270 Hochgeschwindigkeitszügen sind aus meiner Sicht auch einfach Stuss. Die verbinden in 241 00:19:25,270 --> 00:19:28,700 Japan nur die absolut riesigen Metropolen. Die haben ein komplettes Schienennetz für 242 00:19:28,700 --> 00:19:32,540 sich alleine. Der Fernverkehr der Bahn muss sich das Netz mit Güter- und 243 00:19:32,540 --> 00:19:37,061 Nahverkehr teilen und bindet auch noch die Mittelzentren mit an. Das ist nicht 244 00:19:37,061 --> 00:19:41,800 vergleichbar. So fair müssen wir schon sein. Trotzdem hier wieder mein Praxistipp 245 00:19:41,800 --> 00:19:45,331 für euch: Vorsicht mit Zügen, die bereits lange unterwegs sind. Ihr könnt ja, wenn 246 00:19:45,331 --> 00:19:49,080 ihr bucht sehen, was das für eine Zug Linie ist und woher die kommt, könnt ihr 247 00:19:49,080 --> 00:19:54,630 also mit einbeziehen. Als nächstes habe ich mich gefragt Ab welcher Verspätung 248 00:19:54,630 --> 00:20:00,580 wird es nicht mehr besser? Und dafür habe ich für alle Stops aller Fahrten geguckt. 249 00:20:00,580 --> 00:20:04,800 Wie sehr ist der gerade schon verspätet, und das hier ist von links nach rechts 250 00:20:04,800 --> 00:20:11,570 aufgetragen. Links stehen die wenig verspäteten Stops, rechts die, die mit 251 00:20:11,570 --> 00:20:17,100 mehr Verspätung. Und dann habe ich geguckt Wieviel Prozent bauen auf dem Rest ihrer 252 00:20:17,100 --> 00:20:21,970 Fahrt fünf Prozent der Verspätung ab und existieren noch also sind nicht 253 00:20:21,970 --> 00:20:26,870 ausgefallen. Ja? Hört sich jetzt kompliziert an, aber kurz: wieviel Prozent 254 00:20:26,870 --> 00:20:33,620 werden nochmal spürbar besser oder war es das jetzt? Und was man sieht ist, dass bei 255 00:20:33,620 --> 00:20:37,440 Verspätungen unter 40 Minuten noch mehr als die Hälfte der Züge am Ende der Fahrt 256 00:20:37,440 --> 00:20:42,690 besser dastehen als jetzt gerade und ab 40 Minuten Verspätung - da ist eine gut 257 00:20:42,690 --> 00:20:46,520 sichtbare Stufe in den Daten, die einzige - da scheint die Bahn die Dinger irgendwie 258 00:20:46,520 --> 00:20:53,080 aufzugeben. Ab da wird es in der Mehrzahl der Fälle bis zum Fahrtende nicht mehr 259 00:20:53,080 --> 00:20:56,880 besser. Woran das liegen könnte, darauf kommen wir gleich auch noch. Praxistipp für 260 00:20:56,880 --> 00:21:05,810 euch: Ab einer Verspätung von 40 Minuten erwägt ein anderes Transportmittel! So, 261 00:21:05,810 --> 00:21:09,600 das war ein Höllenritt. Jetzt haben wir schon diverse Praxistipps abgestaubt. Ich 262 00:21:09,600 --> 00:21:12,560 schlage vor, wir machen jetzt einen Einschub, und ich versuche, euch ein paar 263 00:21:12,560 --> 00:21:15,910 Anhaltspunkte zu geben, was ihr beachten sollte, wenn ihr Datenprojekte selber 264 00:21:15,910 --> 00:21:19,700 hochzieht. Und ich werde das kurz halten, so dass wir wieder in die Daten eintauchen 265 00:21:19,700 --> 00:21:25,960 können bald. Punkt 1: organisiert den Download gut. Die Bahn hat einige 266 00:21:25,960 --> 00:21:29,650 öffentliche Schnittstellen. Es gab hier auch schon einen schönen Vortrag zu 267 00:21:29,650 --> 00:21:33,600 ebendiesen Schnittstellen. Ich bin froh, dass jemand ermessen kann, wieviel 268 00:21:33,600 --> 00:21:40,260 Schmerzen ich gehabt habe. Über zwei davon kann man Fahrpläne und Veränderungen 269 00:21:40,260 --> 00:21:44,190 abrufen. Wenn ihr in eurem Smartphone mit der Bahn App oder Öffi Bahnverbindung 270 00:21:44,190 --> 00:21:49,650 nachguckt, dann macht euer Handy genau das. In den Fahrplänen steht, wann welcher 271 00:21:49,650 --> 00:21:54,820 Zug ankommen soll und in den Änderungen steht, was sich dem gegenüber verändert. 272 00:21:54,820 --> 00:22:00,210 Ausfälle, Verspätungen und so weiter. Das ist ein bisschen anstrengend, denn leider 273 00:22:00,210 --> 00:22:04,490 müsst ihr beides in getrennten Abfragen abrufen. Und wenn ihr die Schnittstellen 274 00:22:04,490 --> 00:22:09,180 abruft, erhaltet ihr nur zeitlich begrenzt Daten - paar Stündchen vor und zurück. 275 00:22:09,180 --> 00:22:14,900 Leider müsst ihr beides für jeden Bahnhof einzeln abrufen. Das bedeutet, wir können 276 00:22:14,900 --> 00:22:18,060 uns nicht am Schluss einfach ein Jahr Daten ziehen, sondern wir müssen wirklich 277 00:22:18,060 --> 00:22:21,520 über das ganze Jahr hinweg mit ein bisschen Infrastruktur sehr häufig Daten 278 00:22:21,520 --> 00:22:27,240 abrufen, die sich überlappen. Solche Szenarios findet man relativ häufig. Das 279 00:22:27,240 --> 00:22:29,130 funktioniert dann so, dass man die Downloads einfach erst einmal weg 280 00:22:29,130 --> 00:22:34,500 speichert und konkrete Werte auslesen und Duplikate raus sortieren - das passiert 281 00:22:34,500 --> 00:22:38,280 dann einfach alles später. Und jetzt machen wir mal eine Nebenrechnung auf. Wir 282 00:22:38,280 --> 00:22:42,740 haben sechseinhalbtausend Bahnhöfe in Deutschland. Für jeden müssen wir einzeln 283 00:22:42,740 --> 00:22:47,680 beides abrufen, also mal zwei. Und jetzt sagen wir mal, wir machen das alle zehn 284 00:22:47,680 --> 00:22:55,480 Minuten für Fahrplan und Änderungen. Das macht dann 6600 mal 2 mal 144. Das sind 285 00:22:55,480 --> 00:23:00,970 knapp zwei Millionen Abrufe am Tag. So ein Abruf hat im Durchschnitt 22 KB bei den 286 00:23:00,970 --> 00:23:05,520 Veränderungsdaten, ein bisschen weniger bei den Plandaten und wir würden dann so 287 00:23:05,520 --> 00:23:12,211 bei 40 Gigabyte XML landen, am Tag. Für das ganze Jahr - ja das parst sich dann 288 00:23:12,211 --> 00:23:22,360 auch nicht mehr von alleine. Für das ganze Jahr wären das dann 14 TB in 700 Millionen 289 00:23:22,360 --> 00:23:29,200 Requests. Diesen Moment kriegen die Admins der Bahn vermutlich einen Herzanfall. Wenn 290 00:23:29,200 --> 00:23:33,650 sie damit fertig sind, dann werden sie in ihre Logs schauen welche Abrufe von mir 291 00:23:33,650 --> 00:23:38,340 sind, und dann werden Sie Ihren Anwalt anrufen, um mir eine riesige Rechnung zu 292 00:23:38,340 --> 00:23:42,700 schicken. Aber die enttäuschen wir jetzt. Natürlich habe ich das nicht so gemacht. 293 00:23:42,700 --> 00:23:46,960 Erstmal hätte ich das speichern und verarbeiten müssen, das viel zu aufwendig. 294 00:23:46,960 --> 00:23:50,310 Und zweitens ist eine Sache ganz wichtig, wenn ihr so etwas macht. Ihr müsst den 295 00:23:50,310 --> 00:23:55,300 Traffic minimieren, und zwar aus zwei Gründen. Das sind die Punkte 2 und 3. 296 00:23:55,300 --> 00:24:01,110 Punkt 2: Handelt verantwortungsvoll. Das bedeutet, dass Ihr bitte nicht so viel 297 00:24:01,110 --> 00:24:05,700 Traffic erzeugt, dass ihr die Infrastruktur des Ziels abwürgt oder 298 00:24:05,700 --> 00:24:09,340 irgendwie unnötige Kosten verursacht. Das ist jetzt realistischer, als es sich 299 00:24:09,340 --> 00:24:13,720 anhört,vielleicht nicht bei der Bahn, aber beispielsweise bei den Justizportalen in 300 00:24:13,720 --> 00:24:18,401 Deutschland müsst ihr aufpassen. Die sind erstaunlich schwach auf der Brust... 301 00:24:18,401 --> 00:24:26,980 Hab ich gehört. *Gelächter und Applaus* 302 00:24:26,980 --> 00:24:35,260 Meine Lösung dafür: Ich rufe maximal stündlich ab und auch nur die ca. 303 00:24:35,260 --> 00:24:39,550 350 Fernbahnhöfe, das sind dann statt der zwei Millionen sofort nur noch 16 000 304 00:24:39,550 --> 00:24:43,180 Requests am Tag. In der Regel ist das nochmal deutlich geringer, weil man das 305 00:24:43,180 --> 00:24:49,060 adaptiv machen kann. Und in diesem Moment kriegen die Admins zwar keinen Herzanfall 306 00:24:49,060 --> 00:24:52,740 mehr, aber die sind trotzdem enttäuscht, weil sich dafür keine Rechnung mehr lohnt. 307 00:24:52,740 --> 00:25:01,930 Punkt 3: Fliegt unter dem Radar. Sowas soll ja eine Weihnachtsüberraschung bleiben. Da 308 00:25:01,930 --> 00:25:05,830 wäre es natürlich schlecht gewesen, wenn die Millionen Abrufe vom Server D. Kriesel 309 00:25:05,830 --> 00:25:09,340 kommend irgendwie in ihren Logs stehen haben. Das fällt nämlich irgendwann auf. 310 00:25:09,340 --> 00:25:13,220 Und die Lösung hierfür ist Ihr schickt die Abfragen über Tausende 311 00:25:13,220 --> 00:25:16,670 Zwischenstationen in der ganzen Welt. In der Fachsprache heißen die "anonyme 312 00:25:16,670 --> 00:25:24,630 Proxys". Mit anderen Worten: Wenn ich Massen von Daten runterlade, dann sieht 313 00:25:24,630 --> 00:25:28,980 das für das Ziel aus wie so ein Grundrauschen von winzigen Abfragen, die 314 00:25:28,980 --> 00:25:32,150 von der ganzen Welt kommen. Viele von euch werden das auch so machen. Niemand 315 00:25:32,150 --> 00:25:35,220 sieht mich, aber in Wirklichkeit laufen die Daten dann einfach im Hintergrund auf 316 00:25:35,220 --> 00:25:41,500 meinem Server wieder zusammen - sofern ich sie nicht crashe. An dieser Stelle 317 00:25:41,500 --> 00:25:45,360 hören, die Admins der Bahn vermutlich auf meine Abfrage in ihren Logs zu suchen. 318 00:25:45,360 --> 00:25:50,240 Und ich freue mich, dass sie jetzt wieder voll beim Vortrag dabei sind. Damit ich 319 00:25:50,240 --> 00:25:53,070 euch nicht abschrecke, so einen Aufwand müsst ihr nicht bei jedem Datenprojekt 320 00:25:53,070 --> 00:25:56,740 treiben. Das war vielleicht ein bisschen Overkill, weil ich das mal ausprobieren 321 00:25:56,740 --> 00:26:02,920 wollte mit den Proxys. Punkt 4: Es kann passieren, dass ihr nicht sicher seid, 322 00:26:02,920 --> 00:26:08,330 was ihr rechtlich dürft ohne dranzukommen. Die meisten unter uns sind keine Juristen, 323 00:26:08,330 --> 00:26:11,080 und manche AGB sind auch einfach mies formuliert. Und wenn ihr nicht sicher 324 00:26:11,080 --> 00:26:15,830 seid, was ihr dürft, dann fragt einen Anwalt, der für euch die AGB liest. Es 325 00:26:15,830 --> 00:26:19,820 gibt im Internet Portale, wo ihr für schmales Geld Anwälten Fragen stellen 326 00:26:19,820 --> 00:26:24,010 könnt, und danach kriegt ihr eine rechtsverbindliche Antwort. Wenn das 327 00:26:24,010 --> 00:26:30,230 nicht stimmt, haftet der. Bei mir kam dann leider raus, dass ich bei der Bahn lieber 328 00:26:30,230 --> 00:26:33,730 eine schriftliche Genehmigung erfragen sollte. Und das war so ein Moment, wo ich 329 00:26:33,730 --> 00:26:37,370 kurz dachte, dass das Projekt vielleicht auf der Kippe steht. Und das wäre schade 330 00:26:37,370 --> 00:26:40,470 gewesen, weil ich mir vorab schon ein bisschen Arbeit gemacht hatte. Also lest 331 00:26:40,470 --> 00:26:46,980 zuerst die AGB. Und Punkt 5: Habt trotz Hindernissen den Mut, es einfach zu tun. 332 00:26:46,980 --> 00:26:52,150 Ich hab dann gepokert und wirklich bei der Bahn nachgefragt, ob ich automatisiert 333 00:26:52,150 --> 00:26:56,663 Daten runterladen und darüber zum Beispiel einen kleinen Communityvortrag halten darf. 334 00:26:56,663 --> 00:26:57,510 *Lachen* 335 00:26:57,510 --> 00:27:08,350 *Applaus* Und sie haben es mir genehmigt. Ohne 336 00:27:08,350 --> 00:27:12,860 weitere Auflagen. Ohne Auflagen und ob sie wirklich so offen sind oder einfach 337 00:27:12,860 --> 00:27:17,770 vergessen haben zu googlen, weiß ich nicht. Aber ganz ehrlich: Das könnte 338 00:27:17,770 --> 00:27:20,050 jetzt mal einen Applaus für die Bahn wert sein. Das ist sportlich. 339 00:27:20,050 --> 00:27:31,119 *Applaus* Nicht schlecht. Ich hoffe, die hören zu. 340 00:27:31,119 --> 00:27:36,430 Und Punkt 6: Seid fair bei der Auswertung, wenn ihr Daten für ein Jahr habt, zum 341 00:27:36,430 --> 00:27:38,990 Beispiel, dann sucht ihr nicht die 4 Monate heraus, wo die Bahn besonders 342 00:27:38,990 --> 00:27:43,930 unpünktlich war, damit ihr fiesere Dinge behaupten könnt. Gängiges Mittel. Und das 343 00:27:43,930 --> 00:27:49,280 Wichtigste zuletzt - Punkt 7: Guckt, ob ihr euren eigenen Daten vertrauen könnt. 344 00:27:49,280 --> 00:27:51,920 Und das ist gar nicht so einfach. Und ich führe das jetzt mal vor. Und dann könnt 345 00:27:51,920 --> 00:27:54,731 ihr entscheiden, ob wir meinen Daten vertraut. Und außerdem ist das jetzt 346 00:27:54,731 --> 00:27:58,620 unsere Ausrede, dass wir diesen Einschub verlassen und endlich wieder in die Daten 347 00:27:58,620 --> 00:28:02,860 reingucken. Am besten schafft Ihr Vertrauen in einen Datensatz, indem ihr 348 00:28:02,860 --> 00:28:07,590 eine Analyse komplett nachbaut, die Quelle des Datensatzes, also hier die 349 00:28:07,590 --> 00:28:13,060 Bahn, schon mal gemacht hat. Die Bahn gibt auf ihrer Webseite ja pro Monat die 350 00:28:13,060 --> 00:28:17,870 Prozentzahl der pünktlichen Stopps an. Und in Ihren Dokumenten steht auch, wie sie 351 00:28:17,870 --> 00:28:22,120 das exakt ausrechnen. Und die hab ich einfach genau so nachgebaut und siehe 352 00:28:22,120 --> 00:28:27,711 da: Das sieht wirklich fast genauso aus. Die zwei größten Abweichungen sind die 353 00:28:27,711 --> 00:28:33,400 folgenden: Im Januar messe ich die Bahn einen halben Prozentpunkt schlechter, als 354 00:28:33,400 --> 00:28:37,050 sie ist. Das liegt vermutlich daran, dass ich erst am 8. Januar angefangen habe, 355 00:28:37,050 --> 00:28:42,720 Daten aufzunehmen. Und im September 0,8 Prozentpunkte. Das ist da, wo mir ein paar 356 00:28:42,720 --> 00:28:47,200 Tage fehlen. Ansonsten scheint bei mir die Bahn sogar generell minimal besser 357 00:28:47,200 --> 00:28:51,860 wegzukommen. Exakt die gleichen Werte werdet ihr nie kriegen. Die meisten 358 00:28:51,860 --> 00:28:55,850 Abweichungen sind hier um 0,1 Prozentpunkte, aber für eine Messung von 359 00:28:55,850 --> 00:29:01,150 außen ist das verdammt akkurat. Wenn eure Werte mit denen des Ziels so 360 00:29:01,150 --> 00:29:05,080 übereinstimmen, dann seid ihr auf einem guten Weg. Das heißt externe 361 00:29:05,080 --> 00:29:08,410 Verifikation, weil wir etwas Externes zum Vergleichen hatten. Jetzt kommt die 362 00:29:08,410 --> 00:29:12,570 interne, das bedeutet, ihr guckt in den Datensatz rein, ob da alles realistisch 363 00:29:12,570 --> 00:29:18,020 aussieht - zum Beispiel anhand der Tageszeiten. Jeder Punkt hier ist wieder 364 00:29:18,020 --> 00:29:22,770 ein Fernverkehrsbahnhof. Das ist der Tagesbeginn um 0 Uhr vom 9. März diesen 365 00:29:22,770 --> 00:29:26,860 Jahres. Ich gehe jetzt die Zeit Stunde für Stunde durch, und dann sehen wir, wie 366 00:29:26,860 --> 00:29:31,080 so ein Tag für die Bahn aussieht. Die Bahnhofspunkte schwellen an, wenn in der 367 00:29:31,080 --> 00:29:34,950 Stunde mehr Stopps stattgefunden haben. Und die Farbe markiert die Ausfälle: Blau 368 00:29:34,950 --> 00:29:38,640 ist wenig, Rot ist viel, dunkelrot entspricht 50 Prozent oder mehr 369 00:29:38,640 --> 00:29:45,660 Ausfällen. Und es ist jetzt null Uhr, und man sieht, dass noch einige wenige Züge 370 00:29:45,660 --> 00:29:52,200 des Vortages sozusagen unterwegs sind. Die Lumpensammler sozusagen. Und das wird 371 00:29:52,200 --> 00:29:56,730 jetzt immer weniger werden, und die Nachtruhe kehrt ein. Die Zeit vergeht. 372 00:29:56,730 --> 00:30:04,150 Nachtruhe. Und hier erwacht ein neuer Tag. Jetzt ist so langsam Vollbetrieb, es ist 373 00:30:04,150 --> 00:30:10,141 8 Uhr. Wir sehen hier ein paar punktuelle Ereignisse, die für Ausfälle sorgen. Das 374 00:30:10,141 --> 00:30:15,980 sind die roten Flecken, da ist Unwetter oder so passiert. Keine Notizen. Es ist 375 00:30:15,980 --> 00:30:27,330 Mittag. Jetzt wird es wieder weniger. Der Tag geht seinem Ende entgegen. Die letzte 376 00:30:27,330 --> 00:30:31,210 Stunde des Tages. Ein neuer Tag beginnt: Das ist der zehnte März. Wir sehen wieder 377 00:30:31,210 --> 00:30:37,570 die letzten Züge bevor die Nachtruhe beginnt. Alles schläft. Der Tag wird 378 00:30:37,570 --> 00:30:42,720 älter, es ist 6 Uhr. Man sieht schon ein bisschen Traffic. Es ist 9 Uhr, wir sind 379 00:30:42,720 --> 00:30:47,630 wieder im Vollbetrieb. Es ist Mittag am 10. März, und wir erinnern uns: An dem 380 00:30:47,630 --> 00:31:01,040 Tag war ja was. Und hier zeigt der Orkan Eberhard erste Auswirkungen. Hier hat er 381 00:31:01,040 --> 00:31:04,610 dann in fast ganz Deutschland den Fernverkehr flachgelegt. Ich musste die 382 00:31:04,610 --> 00:31:11,130 Farbskala erweitern, weil man 50 Prozent Ausfälle normal nicht hat. Wir lassen 383 00:31:11,130 --> 00:31:15,920 diesen sehr schlechten Tag für die Bahn nun ausklingen. Und hier ist wieder 384 00:31:15,920 --> 00:31:20,390 Mitternacht, die Grenze zum Folgetag. Eine Störung in der Größenordnung zieht 385 00:31:20,390 --> 00:31:24,240 natürlich noch einige Tage messbarer Verspätungen und Ausfälle nach sich. Wenn 386 00:31:24,240 --> 00:31:27,900 man das aufblühte, sieht man das mehrere Tage runtergehen. Die spielen wir jetzt 387 00:31:27,900 --> 00:31:32,270 aber nicht alle durch. Aber wir sehen: Nicht immer Ist die Bahn schuld. Wenn ihr 388 00:31:32,270 --> 00:31:38,130 die Daten so auf Plausibilität checkt, da nutzt unbedingt gute Visualisierungen, 389 00:31:38,130 --> 00:31:42,470 die am besten gleich mehrere Dimensionen abdecken. Hier hatten wir Ausfälle und 390 00:31:42,470 --> 00:31:47,050 Ort, das sind zwei Dimensionen und die Anzahl der Stopps und die Zeit nach 391 00:31:47,050 --> 00:31:52,090 Stunden. Der beste Apparat zu Mustererkennung, den wir zurzeit haben, 392 00:31:52,090 --> 00:31:56,340 das ist nun mal das Gehirn. Und da gibt's nur eine Breitbandleitung hin, und das 393 00:31:56,340 --> 00:32:02,370 sind die Augen. Wir werden jetzt noch ein paar größere Auswertungen machen, und als 394 00:32:02,370 --> 00:32:07,370 erstes bitte ich euch dafür, in Gedanken die Seiten zu wechseln. Stellt euch vor, 395 00:32:07,370 --> 00:32:13,510 ihr gebt keine Analysen raus, sondern ihr lest welche. Und wenn ihr Analysen lest, 396 00:32:13,510 --> 00:32:18,230 die andere euch geben, dann ist es immer sehr wichtig zu riechen, worüber die 397 00:32:18,230 --> 00:32:23,470 anderen mit euch nicht reden möchten. Und bei Firmen findet man das heraus, indem 398 00:32:23,470 --> 00:32:29,580 man deren Kennzahlen genau anguckt. Die Bahn hat zum Beispiel gesagt, sie wollte 399 00:32:29,580 --> 00:32:33,530 dieses Jahr 76,5% pünktliche Stopps haben. Daran wollen sie sich messen. 400 00:32:33,530 --> 00:32:39,740 Dieser Bericht ist aus dem Januar 2019, und Anfang Dezember 2019 haben sie das 401 00:32:39,740 --> 00:32:46,390 Ziel dann kassiert. Es werden nur unter 75% pünktlicher Stopps im Fernverkehr. In 402 00:32:46,390 --> 00:32:50,940 meinen Daten sind es im Moment noch knapp über 75%. Aber trotzdem: 403 00:32:50,940 --> 00:32:56,000 eigentliches Ziel wird verfehlt. Aber was insgesamt auffällt, ist, dass sich die 404 00:32:56,000 --> 00:33:01,650 Bahn zu Ausfällen - ich sagte das schon - ganz komisch ausschweigt. Und jetzt bitte 405 00:33:01,650 --> 00:33:05,840 ich mal um Handzeichnungen von Euch. Stellt euch vor, ihr steht am Bahnsteig, 406 00:33:05,840 --> 00:33:11,860 und der Zug fällt einfach aus. Ihr steht da mit leerem Blick und der kommt einfach 407 00:33:11,860 --> 00:33:15,860 nicht. Und ihr dürft jetzt entscheiden: Ist der pünktlich oder unpünktlich? Wer 408 00:33:15,860 --> 00:33:22,240 von euch würde sagen, der ist eher pünktlich? Ich sehe zwei Hände... drei im 409 00:33:22,240 --> 00:33:29,370 Saal von 5000 Mann... Okay, ist messbar. Und wer würde sagen, der Zug ist eher 410 00:33:29,370 --> 00:33:39,000 unpünktlich? Uiuiui, das sind so ziemlich alle. Und so sehe ich das eigentlich auch. 411 00:33:39,000 --> 00:33:42,170 Und jetzt schauen wir mal in die Unterlagen der Bahn dazu. Ihr müsst das 412 00:33:42,170 --> 00:33:46,020 nicht lesen, ich lese euch das vor. "Komplettausfälle oder Teilausfälle 413 00:33:46,020 --> 00:33:49,210 werden - wie übrigens bei den anderen europäischen Bahnen auch - nicht in 414 00:33:49,210 --> 00:33:52,790 Statistiken eingerechnet. Zum einen ist es schwierig, dafür ein sinnvolles 415 00:33:52,790 --> 00:33:59,000 mathematisches Modell zu hinterlegen." What? "Welche Pünktlichkeit ordnet man 416 00:33:59,000 --> 00:34:02,590 einem Zug zu, wenn er an einer bestimmten Stelle seiner Fahrt ausfällt?" Wir können 417 00:34:02,590 --> 00:34:05,981 binär messen, ob drei von acht Stopps pünktlich oder nicht pünktlich sind, aber 418 00:34:05,981 --> 00:34:11,210 mit ausgefallen nicht ausgefallen - das geht nicht. Und "zum anderen liegt die 419 00:34:11,210 --> 00:34:16,609 sogenannte Erfüllungsquote aller täglich verkehrenden DB-Personenzüge über 99 420 00:34:16,609 --> 00:34:22,300 Prozent im Jahresschnitt sowohl für Fern- als auch für Nahverkehr." Also Punkt 1: Da 421 00:34:22,300 --> 00:34:26,490 möchte ich als erstes Mal anmerken, dass ich das in der Sache nicht nachvollziehen 422 00:34:26,490 --> 00:34:30,210 kann, weil wir schon gesehen hatten, dass alleine der Fernverkehr eine Ausfallquote 423 00:34:30,210 --> 00:34:35,070 von mehr als vier Prozent hat und nicht ein Prozent. Das heißt, wir haben 424 00:34:35,070 --> 00:34:45,120 insgesamt 103% Fernverkehr. Aber vielleicht ist die Erfüllungsquote auch 425 00:34:45,120 --> 00:34:48,170 etwas anderes, was ich hier nicht verstehe. Keine Ahnung. Aber vor allem: 426 00:34:48,170 --> 00:34:52,600 So ein ausgefallener Zug ist, der ist nicht unpünktlich, der fällt einfach 427 00:34:52,600 --> 00:34:57,371 komplett aus der Wertung. Die Ausfälle werden statistisch verdeckt, weil man sie 428 00:34:57,371 --> 00:35:02,780 angeblich nicht statistisch einbauen kann. Also, liebe Leute, ich mache solche 429 00:35:02,780 --> 00:35:07,060 Auswertungen ja auch beruflich, und da habe ich echt schon manche Ausrede zu 430 00:35:07,060 --> 00:35:11,620 hören gekriegt. Aber das ist schon krass. Ich nenne sowas den "finalen 431 00:35:11,620 --> 00:35:15,700 Rettungsstuss". *Lachen* 432 00:35:15,700 --> 00:35:23,960 *Applaus* Wenn ihr so etwas erzählt kriegt, dann 433 00:35:23,960 --> 00:35:29,970 wisst ihr ganz genau: Ihr habt es gefunden, hier müsst ihr gucken und nicht 434 00:35:29,970 --> 00:35:35,010 woanders. Also helfen wir jetzt mit, und wir entwickeln jetzt eine Idee, wie man 435 00:35:35,010 --> 00:35:39,220 die Ausfälle doch sinnvoll in die Statistik reinkriegt. Hier sehen wir eine 436 00:35:39,220 --> 00:35:44,010 Zugfahrt mit vier Stopps. Die beiden weißen links sind pünktlich, der hellblaue 437 00:35:44,010 --> 00:35:51,080 ist unpünktlich, > 6 Minuten, und der rechte in rot ist ganz ausgefallen. Im 438 00:35:51,080 --> 00:35:55,190 Moment zählt die Bahn einfach alle Stopps, die nicht ausgefallen sind, und misst 439 00:35:55,190 --> 00:35:58,900 davon den Prozentsatz der Pünktlichkeit. Das wären hier zwei von drei - 66 440 00:35:58,900 --> 00:36:03,660 Prozent. Und ich schlage stattdessen vor: Wir zählen alle Stopps, die geplant 441 00:36:03,660 --> 00:36:08,940 waren, und messen davon den Prozentsatz, der angekommen ist und pünktlich war. Das 442 00:36:08,940 --> 00:36:14,370 wären hier 50%. Nehmt das nicht auf die leichte Schulter - das ist jetzt wirklich 443 00:36:14,370 --> 00:36:17,559 große Mathematik. *Lachen* 444 00:36:17,559 --> 00:36:26,120 Bahnbrechend sozusagen. *Lachen und Applaus* 445 00:36:26,120 --> 00:36:32,291 *Applaus* Und wenn man mit den Ausfällen ehrlich 446 00:36:32,291 --> 00:36:38,080 umgeht, dann liegt die Bahn nicht bei den 76,5% Pünktlichkeit, das waren die 447 00:36:38,080 --> 00:36:44,910 angekündigten, und auch nicht bei 75%, das ist der aktuelle Wert, sondern bei 72,5%. 448 00:36:44,910 --> 00:36:49,062 Und mit jedem Prozent weniger wird es sehr viel unwahrscheinlicher, dass Leute 449 00:36:49,062 --> 00:36:52,560 ihre Anschlüsse kriegen. Also unterschätzt das nicht, wenn das nochmal 450 00:36:52,560 --> 00:36:56,890 zwei Prozent weniger sind, als sie behaupten oder drei. Das ist knackig. Beim 451 00:36:56,890 --> 00:37:01,910 Fernverkehr liegt bei denen einiges im Argen. Damit möchte ich zum wichtigen 452 00:37:01,910 --> 00:37:06,910 Thema kommen: Erfolgskriterien in Unternehmen. Wenn ihr als Unternehmen eure 453 00:37:06,910 --> 00:37:11,420 Erfolgskriterien schlecht setzt, dann schafft ihr Anreize, die das Unternehmen 454 00:37:11,420 --> 00:37:17,550 in eine unerwartete Richtung lenken. Hier haben wir ein Paradebeispiel dafür. Wenn 455 00:37:17,550 --> 00:37:23,250 die Bahn einen unpünktlichen Zug einfach spontan ausfallen lässt, dann steht die 456 00:37:23,250 --> 00:37:27,720 nach ihrer eigenen Messmethode danach besser da und nicht schlechter, weil die 457 00:37:27,720 --> 00:37:32,100 Ausfälle einfach komplett aus der Statistik fliegen. Also müssen wir uns die 458 00:37:32,100 --> 00:37:36,920 Frage stellen: Wo genau lohnt es sich für die Bahn am meisten, ein paar Ausfälle zu 459 00:37:36,920 --> 00:37:40,080 erzeugen, um damit die Pünktlichkeitsstatistik zu pushen? 460 00:37:40,080 --> 00:37:42,460 *Lachen* *Applaus* 461 00:37:42,460 --> 00:37:49,700 Ihr klatscht ja schon vorher. So kann ich nicht arbeiten. 462 00:37:49,700 --> 00:37:54,430 *Lachen* Die Lösung ist am Ende und am Anfang von 463 00:37:54,430 --> 00:37:59,270 Fahrten. Züge fahren nämlich häufig dieselbe Strecke hin und her und der hier 464 00:37:59,270 --> 00:38:04,830 fährt los. Bis hier ist alles gut gegangen. Hier hat er dann satt Verspätung 465 00:38:04,830 --> 00:38:09,270 angesammelt. Das passiert. An diesem Punkt ist zu erwarten, dass die letzten beiden 466 00:38:09,270 --> 00:38:14,200 Halte auch verspätet sein werden. Und auch die ersten beiden halte der Rückfahrt 467 00:38:14,200 --> 00:38:18,000 natürlich, also schlecht für die Statistik. Also lassen wir sie doch 468 00:38:18,000 --> 00:38:22,260 einfach ausfallen. Blasen wir ab, der Zug schmeißt die Fahrgäste raus, dreht an Ort 469 00:38:22,260 --> 00:38:25,240 und Stelle um und ist wieder pünktlich. Und wer an den roten Stopps einsteigen 470 00:38:25,240 --> 00:38:33,488 und aussteigen will, der steht halt mit leerem Blick am Gleis. Aber die 471 00:38:33,488 --> 00:38:37,450 Verspätungsstatistik verbessert sich, denn die Ausfälle fallen ja einfach unter den 472 00:38:37,450 --> 00:38:43,090 Tisch. Aber wie könnte man so etwas messen? Ganz einfach. 473 00:38:43,090 --> 00:38:46,290 Publikumseinruf: Hamburg. D: Hackburg? 474 00:38:46,290 --> 00:38:51,810 Publikumseinruf: Hamburg. D: Oh ja. Also, ganz einfach: Hier ist 475 00:38:51,810 --> 00:38:57,230 wieder eine Zugfahrt mit all ihren Stopps, die unterteilen wir jetzt einfach in drei 476 00:38:57,230 --> 00:39:00,270 Klassen - frühe, mittlere und späte Stopps. Die frühen und späten Stopps sind 477 00:39:00,270 --> 00:39:05,870 die ersten und letzten drei, hier grau und die mittleren sind der Rest. Und für 478 00:39:05,870 --> 00:39:11,520 diese drei Arten Stopps machen wir getrennte Auswertung. Wenn Ausfälle 479 00:39:11,520 --> 00:39:17,720 aufgrund technischen Betriebes entstehen, würde man ja erwarten, dass es am Start 480 00:39:17,720 --> 00:39:21,560 an einer Fahrt statistisch weniger Ausfälle gibt. Und dann werden das so 481 00:39:21,560 --> 00:39:27,140 über die Zeit mehr. Und beim IC ist das auch genaus. Die Ausfälle steigen nach 482 00:39:27,140 --> 00:39:33,910 hinten an. Und beim ICE dagegen, fallen die ersten und letzten Stopps häufiger 483 00:39:33,910 --> 00:39:38,490 aus. Das passt alles genau. Die scheinen die Dinger einfach hart zu wenden. Ich 484 00:39:38,490 --> 00:39:42,290 habe dieses Verhalten auch von zwei unabhängigen Quellen bestätigt bekommen, 485 00:39:42,290 --> 00:39:46,162 und das war vor einiger Zeit schon mal irgendwo klein in der Presse. Also ich 486 00:39:46,162 --> 00:39:49,320 verrate hier auch keine Staatsgeheimnisse. Und je nachdem, wen man 487 00:39:49,320 --> 00:39:53,600 fragt, heißt dieses Vorgehen entweder nach unserem Verkehrsminister die Scheuer- 488 00:39:53,600 --> 00:39:59,261 Wende oder aber nach dem Bahnvorstand, die Pofalla-Wende. Das müssen wir jetzt 489 00:39:59,261 --> 00:40:03,640 heute Abend beim Bier entscheiden, was ihr jetzt besser findet. Jedenfalls ein 490 00:40:03,640 --> 00:40:08,740 weiterer Praxistipp Vorsicht am Anfang und am Ende eines ICE-Zuglaufs. Die fallen 491 00:40:08,740 --> 00:40:14,291 gerne mal aus. Bucht die nach Möglichkeit nicht. Aus Gründen der Neutralität, muss 492 00:40:14,291 --> 00:40:18,680 ich dazusagen: Die Bahn hat natürlich ein Interesse daran, dass das ganze Netz 493 00:40:18,680 --> 00:40:22,560 ungefähr im Plan ist. Also werden die sich denken, dass bei so einem Manöver 494 00:40:22,560 --> 00:40:27,020 nicht so viele Passagiere von den Ausfällen betroffen sind, dafür aber im 495 00:40:27,020 --> 00:40:30,410 weiteren Verlauf deutlich mehr Passagiere einen pünktlichen Zug kriegen ist. Das ist 496 00:40:30,410 --> 00:40:35,680 eben deren Geschäftsentscheidung. Es liegt mir fern, da jetzt von der Seitenlinie 497 00:40:35,680 --> 00:40:40,090 ohne tieferes Wissen altkluge Ratschläge zu erteilen. Wir sind hier nicht auf 498 00:40:40,090 --> 00:40:44,810 Twitter. Was ich hier kritisiere... *Lachen* 499 00:40:44,810 --> 00:40:48,840 *Applaus* Und was ich hier kritisieren möchte, ist 500 00:40:48,840 --> 00:40:53,880 aber, dass ausschließlich die positive Seite des Manövers danach in der Statistik 501 00:40:53,880 --> 00:40:59,060 auftaucht und die negative einfach verschwindet. Das stört. Wir wollen gar 502 00:40:59,060 --> 00:41:02,120 nicht wissen, wie viele Leute im Verkehrsministerium denen das abgekauft 503 00:41:02,120 --> 00:41:06,840 haben. Wir hatten jetzt schon ein bisschen Praxistipps gesehen, die euch zu 504 00:41:06,840 --> 00:41:09,780 Hause beim Buchen vielleicht ein bisschen was bringen. Vorsicht mit 505 00:41:09,780 --> 00:41:15,430 bestimmten Bahnhöfen; Vorsicht mit ICEs im Allgemeinen; Vorsicht mit ICEs im 506 00:41:15,430 --> 00:41:19,610 Sommer im Speziellen; Vorsicht, wenn Züge schon lange unterwegs waren; 507 00:41:19,610 --> 00:41:23,380 Vorsicht, wenn sie 40 Minuten oder mehr verspätet sind und jetzt gerade Vorsicht 508 00:41:23,380 --> 00:41:30,090 mit ICEs am Anfang und am Ende der Fahrt wegen der Scheuer-Wenden. Ich könnte 509 00:41:30,090 --> 00:41:32,693 jetzt mit euch noch jede Menge Standardkram machen, der sich irgendwie 510 00:41:32,693 --> 00:41:36,370 aus den Daten ergibt: Top Ten Bahnhöfe oder Zuglinien nach Verspätungen, 511 00:41:36,370 --> 00:41:41,230 Ausfällen und so weiter. Aber das hilft doch nur wenigen, ganz ehrlich. Also 512 00:41:41,230 --> 00:41:45,550 machen wir jetzt noch zwei Sachen: Erstens machen wir unsere letzte große Sache mit 513 00:41:45,550 --> 00:41:50,230 den Bahndaten, und ich hoffe, dass ihr davon zumindest für ein paar Monate ganz 514 00:41:50,230 --> 00:41:55,260 konkret was habt. Danach würde ich mit euch gerne kurz über das ausklingende 515 00:41:55,260 --> 00:42:00,300 Jahrzehnt nachdenken. Zuerst die Datensache. Wenn ihr ein Bahnticket kauft, 516 00:42:00,300 --> 00:42:04,800 könnt ihr wählen. Mit Spartickets seid ihr an exakt die Züge, die ihr gebucht 517 00:42:04,800 --> 00:42:09,390 habt, gebunden. Oder ihr nehmt ein Flexticket, das ist deutlich teurer, aber 518 00:42:09,390 --> 00:42:14,910 dafür habt ihr keine Zugbindung. Interessant ist nun folgende Regel: auf 519 00:42:14,910 --> 00:42:19,130 den Spartickets, wenn Sie durch Verschulden der DB ihren Anschlusszug 520 00:42:19,130 --> 00:42:22,850 nicht erwischen oder allgemein eine Verspätung von mehr als 20 Minuten 521 00:42:22,850 --> 00:42:27,720 erwartet werden muss, wird die Zugbindung automatisch aufgehoben. Ich verstehe das 522 00:42:27,720 --> 00:42:33,210 so, dass ihr dann eigentlich ein Flex Ticket habt plötzlich. Und dann gucken 523 00:42:33,210 --> 00:42:37,570 wir mal auf den Prozentsatz der Stopps, die entweder mehr als 20 Minuten zu spät 524 00:42:37,570 --> 00:42:43,730 waren oder aber ausgefallen sind und insgesamt sind das immerhin 12,4%. Und 525 00:42:43,730 --> 00:42:47,800 wenn man jetzt diese Stopps erwischt, dann verwandeln die einem vielleicht schon 526 00:42:47,800 --> 00:42:51,730 vor Abfahrt ein preiswertes Sparticket in ein Flexticket. Und das wäre doch total 527 00:42:51,730 --> 00:42:56,260 cool, wenn man die vorher wissen könnte. *Lachen* 528 00:42:56,260 --> 00:43:04,361 *Applaus* Bin ich so vorhersehbar? Und komplett 529 00:43:04,361 --> 00:43:08,700 vorhersehen geht natürlich nicht. Aber es gibt Züge, bei denen sowas häufiger 530 00:43:08,700 --> 00:43:11,460 auftritt und Bahnhöfe, bei denen sowas häufiger auftritt und es gibt auch 531 00:43:11,460 --> 00:43:14,580 Wochentage, bei denen sowas häufiger auftritt. 532 00:43:14,580 --> 00:43:23,030 *Lachen* Und hier ist ein Beispiel. Lest mal mit. 533 00:43:23,030 --> 00:43:28,990 Das bedeutet beim Intercity 2221 ist an allen Halten bei Mainz Hauptbahnhof an 534 00:43:28,990 --> 00:43:33,690 allen Mittwochen dieses Jahr mit 53% Wahrscheinlichkeit die Zugbindung 535 00:43:33,690 --> 00:43:39,230 aufgehoben. Also von allen Stopps, die ich dazu erfasst habe, waren 53% entweder mehr 536 00:43:39,230 --> 00:43:44,000 als 20 Minuten zu spät oder sind ganz ausgefallen. Und am Freitag das Ganze mit 537 00:43:44,000 --> 00:43:49,580 50 Prozent. Ich muss die Schreibweise so kurz machen und euch das so beibringen, 538 00:43:49,580 --> 00:43:54,340 das Lesen, damit ich jetzt gleich platzsparend arbeiten kann. Euch schwant 539 00:43:54,340 --> 00:43:58,080 vermutlich schon, was ich jetzt mache. Also, ich habe für euch mal die 540 00:43:58,080 --> 00:44:01,860 Kombination aus allen Wochentagen, allen Bahnhöfen und allen Fernzügen durchsucht 541 00:44:01,860 --> 00:44:05,880 und habe dann nur die Kombinationen genommen, wo ich mindestens 10 Datenpunkte 542 00:44:05,880 --> 00:44:09,960 hatte, damit das einigermaßen fundiert ist. Und für die habe ich gemessen, bei 543 00:44:09,960 --> 00:44:13,320 wie viel Prozent die Zugbindung dieses Zuges an diesem Wochentag, an diesem 544 00:44:13,320 --> 00:44:16,780 Bahnhof gekillt wurde. Und dann habe ich gesagt: Ich will nur die ganz Fiesen 545 00:44:16,780 --> 00:44:21,400 haben, wo das mit mindestens 50 Prozent der Fälle der Fall war. Herausgekommen 546 00:44:21,400 --> 00:44:27,200 sind fast 500 Kombinationen aus Wochentagen, Bahnhöfen und Zügen. 547 00:44:27,200 --> 00:44:32,660 Hier sind sie. *Applaus* 548 00:44:32,660 --> 00:44:38,670 Also ich würde kein Flexticket für teuer Geld kaufen, wenn ich an einem dieser 549 00:44:38,670 --> 00:44:43,370 Bahnhöfe einsteige, aussteigen oder umsteige an dem Wochentag mit diesem Zug. 550 00:44:43,370 --> 00:44:46,560 Kauft ein Sparticket. Und für alle, die das jetzt nicht lesen können, ich stelle 551 00:44:46,560 --> 00:44:50,630 den Foliensatz wieder irgendwie bei mir auf die Seite, morgen oder so. Beachtet 552 00:44:50,630 --> 00:44:55,250 auch, dass die Daten irgendwann ungültig werden. Ihr behaltet den Zug bitte am 553 00:44:55,250 --> 00:45:00,350 Fahrtag im Auge. Ich bin nicht schuld, wenn ihr unverhofft doch pünktlich zum Zug 554 00:45:00,350 --> 00:45:01,870 eintreten müsst. *Lachen* 555 00:45:01,870 --> 00:45:07,370 Weil die Kiste halt pünktlich ist. Also bitte, bitte behandelt diese Daten, als 556 00:45:07,370 --> 00:45:16,370 wären sie mit Xerox-Geräten gescannt. *Lachen und Applaus* 557 00:45:16,370 --> 00:45:21,650 Wenn ihr doch pünktlich da sein müsst, dann ist das ja auch ein gutes Zeichen, 558 00:45:21,650 --> 00:45:25,390 weil es nichts anderes bedeutet, als dass die Bahn was verbessert. Verbesserungen 559 00:45:25,390 --> 00:45:31,331 passieren nämlich durchaus. Dieses Jahr wurde zum Beispiel die ICE-Trasse zwischen 560 00:45:31,331 --> 00:45:34,680 München und Berlin ausgebaut. Da kann man jetzt unter vier Stunden zwischen beiden 561 00:45:34,680 --> 00:45:39,150 Städten hin und her fahren, ohne den Zug zu wechseln. Und wenn das rund läuft, ist 562 00:45:39,150 --> 00:45:43,651 das echt mal eine Alternative zum Flug. Es ist also nicht alles schlecht. Ich hoffe 563 00:45:43,651 --> 00:45:48,840 auch, ich bin bei aller Kritik fair mit der Bahn umgegangen heute. Ich bin 564 00:45:48,840 --> 00:45:53,250 jedenfalls, obwohl ich das alles gesehen habe, mit der Bahn zum Congress gefahren 565 00:45:53,250 --> 00:45:58,910 und werde das auch auf dem Rückweg machen. Und für heute möchte ich damit die Bahn- 566 00:45:58,910 --> 00:46:03,690 Betrachtung abschließen mit den Worten: Seid nett zur Bahn mit ihren Fehlern. Wir 567 00:46:03,690 --> 00:46:08,840 haben nur diese eine. *Lachen und vereinzelter Applaus* 568 00:46:08,840 --> 00:46:12,320 Und was bleibt? *Applaus* 569 00:46:12,320 --> 00:46:23,940 Einen habe ich noch. Da kam er [Herald Engel] schon gelaufen. Das hier ist der letzte 570 00:46:23,940 --> 00:46:27,390 Vortrag, den ich in diesem Jahrzehnt halten werde. Ich lasse euch jetzt mal ein 571 00:46:27,390 --> 00:46:32,700 paar Sekunden in Ruhe und wünsche mir, dass jeder kurz darüber nachdenkt, was für 572 00:46:32,700 --> 00:46:37,710 ihn in diesem Jahrzehnt die maßgebliche gesellschaftliche Entwicklung war. 573 00:46:37,710 --> 00:46:47,003 *Ruhepause zum Nachdenken* 574 00:46:47,003 --> 00:46:51,530 Glaube hat jeder was. Für mich ist es der 575 00:46:51,530 --> 00:46:57,670 Aufstieg der Empörten und damit meine ich ausdrücklich jede politische Richtung. Ich 576 00:46:57,670 --> 00:47:02,250 habe in diesem Jahrzehnt tausend Mal an jeder Ecke gehört, wie wichtig heutzutage 577 00:47:02,250 --> 00:47:06,680 technische, naturwissenschaftliche und analytische Skills seien angeblich, mit 578 00:47:06,680 --> 00:47:11,760 anderen Worten: Rationalität. Und auf der anderen Seite aber reicht das heute im 579 00:47:11,760 --> 00:47:16,090 öffentlichen Diskurs als Totschlagsargument, wenn jemand empört 580 00:47:16,090 --> 00:47:20,480 ist. Und ich finde das paradox. Das ist das Gegenteil von Rationalität. Man kann 581 00:47:20,480 --> 00:47:25,440 nicht beides gleichzeitig propagieren. Und ich möchte anregen, dass wir für das jetzt 582 00:47:25,440 --> 00:47:31,820 kommende Jahrzehnt zu einer Kultur finden, in der es ungern gesehen wird, einfach nur 583 00:47:31,820 --> 00:47:36,060 alles Mögliche anzuprangern, und in der es ganz umgekehrt bewundert wird, wenn man 584 00:47:36,060 --> 00:47:41,060 sich die Datenlage anguckt und sie sich gegenseitig präsentiert mit seinem 585 00:47:41,060 --> 00:47:48,420 Kontrahenten und sich dann zusammensetzt. Und wer soll das starten, wenn nicht wir 586 00:47:48,420 --> 00:47:53,570 hier. Verlassen wir uns nicht auf die Medien, denn die leben vom Aufruhr. Auch 587 00:47:53,570 --> 00:47:58,400 wenn es positive Gegenbeispiele gibt. Verlassen wir uns nicht auf irgendwelche 588 00:47:58,400 --> 00:48:03,450 Stars, die leben von Likes und die kriegt man am besten durch Zuspitzung. In der 589 00:48:03,450 --> 00:48:07,641 Regel sind die Teil des Problems. Verlassen wir uns nicht auf Politiker, die 590 00:48:07,641 --> 00:48:11,510 achten wegen der Shitstorm-Kultur nur noch darauf, bis zur nächsten Wahl nicht 591 00:48:11,510 --> 00:48:15,640 anzuecken. Und zu viele von denen haben ohnehin niemals außerhalb der Politik 592 00:48:15,640 --> 00:48:21,780 gearbeitet. Was soll da schon kommen? Und das ist der Grund, warum ich das hier 593 00:48:21,780 --> 00:48:26,010 mache. Ich versuche, euch zu inspirieren, eure eigenen Analysen zu strittigen Themen 594 00:48:26,010 --> 00:48:31,320 anzustellen. Und in meinen letzten Vorträgen, meinen beiden hier, habt ihr 595 00:48:31,320 --> 00:48:34,680 ein paar Instinkte davon bekommen, wie das geht, und ich hoffe, ich habe euch 596 00:48:34,680 --> 00:48:37,540 bewiesen, dass das absolut keine Raketenwissenschaft ist. 597 00:48:37,540 --> 00:48:41,360 *Vereinzelter Applaus* Und ich frage nochmal: Wer soll das 598 00:48:41,360 --> 00:48:45,280 machen, wenn nicht wir hier? Wenn wir es gemeinsam schaffen, dass wenigstens 599 00:48:45,280 --> 00:48:51,590 manche, die heute echt nichts Besseres zu tun haben, als sich im Internet zu empören 600 00:48:51,590 --> 00:48:55,220 im nächsten Jahrzehnt zur engagierten Analyse übergehen und dabei auch 601 00:48:55,220 --> 00:48:59,530 anerkennen, wenn was herauskommt, dass sie vorher nicht gedacht hätten, dann haben 602 00:48:59,530 --> 00:49:02,810 wir gesellschaftlich unglaublich viel gewonnen. Und heute Abend stehe ich hier 603 00:49:02,810 --> 00:49:07,390 in einem Saal mit 5000 Leuten, voll belegt. Da sitzen Sie noch neben der 604 00:49:07,390 --> 00:49:12,860 Tribüne, die sich mit 5000 Leuten, die sich am Samstagabend zwischen Weihnachten 605 00:49:12,860 --> 00:49:16,700 und Silvester hier hinsetzen. Also da, wo die allermeisten Menschen einfach gar 606 00:49:16,700 --> 00:49:19,810 nichts tun und sich die Flasche Wein an den Hals anschließen. 607 00:49:19,810 --> 00:49:24,730 *Lachen* Und warum tun die 5000 Leute das? Um einen 608 00:49:24,730 --> 00:49:27,790 Statistik Vortrag zu hören. *Lachen* 609 00:49:27,790 --> 00:49:32,850 Das gibt mir Hoffnung. Ich werde glücklich heimfahren. Da kann die Bahn mit mir 610 00:49:32,850 --> 00:49:36,650 machen, was sie will. Und ich bedanke mich, dass ihr hier wart, und wünsche euch 611 00:49:36,650 --> 00:49:39,780 ein schönes neues Jahrzehnt. 612 00:49:39,780 --> 00:49:52,909 *Großer, tosender Applaus* 613 00:49:52,909 --> 00:50:02,840 *Standing Ovation* 614 00:50:02,840 --> 00:50:10,134 *Applaus* 615 00:50:10,134 --> 00:50:13,390 Jetzt stehen sie wieder auf... 616 00:50:13,390 --> 00:50:16,424 *Applaus* 617 00:50:16,424 --> 00:50:18,097 Danke schön. 618 00:50:18,097 --> 00:50:26,910 *Applaus* 619 00:50:26,910 --> 00:50:30,408 Vielen lieben Dank. 620 00:50:30,408 --> 00:50:36,760 Herald 1: Wow. Auch von mir nochmal herzlichen Dank. Super Vortrag wie immer, 621 00:50:36,760 --> 00:50:40,850 super lustig. Dankeschön David, dass du das immer wieder machst, echt schön. Wir 622 00:50:40,850 --> 00:50:45,920 haben noch ein bisschen Zeit für Fragen. Bitte an die Mikrofone. Es gibt 4, 5 623 00:50:45,920 --> 00:50:49,630 Stück, glaube ich, hier im Saal, wenn ihr Fragen habt. Wir fangen mal mit Mikrofon 1 624 00:50:49,630 --> 00:50:53,381 an. Frage: Du hast ja damit angefangen, dass 625 00:50:53,381 --> 00:50:57,150 du der Fairness halber die Pünktlichkeitsdefinition der Bahn von 6 626 00:50:57,150 --> 00:51:02,000 Minuten, höchstens, gesetzt hast. Hast du aus purer Neugier mal Sachen 627 00:51:02,000 --> 00:51:05,010 durchgerechnet mit Pünktlichkeitsdefinitionen, die irgendwie 628 00:51:05,010 --> 00:51:09,119 sinnvoller anfühlen? Müssen ja nicht gleich die 30 Sekunden aus Japan sein. 629 00:51:09,119 --> 00:51:12,800 D: Ja, da kann man sich streiten, welchen Wert man setzt. 630 00:51:12,800 --> 00:51:17,970 F: Hast du und welche? D: Ja, habe ich. Das sieht dann so aus, 631 00:51:17,970 --> 00:51:22,060 als wenn man das eng zieht, am Schluss natürlich alle Züge verspätet sind. Jeder 632 00:51:22,060 --> 00:51:28,880 hat mal irgendwie eine Minute. Was ich gemacht habe, war: Ich habe mal eine 633 00:51:28,880 --> 00:51:32,330 Reibungslos-Metrik gesetzt. Reibungslos, habe ich gesagt, das ist alles, was 634 00:51:32,330 --> 00:51:38,171 maximal 3 Minuten zu spät ist, nicht ausgefallen und keinen Gleiswechsel, weil 635 00:51:38,171 --> 00:51:40,840 das geht mir immer unglaublich auf die Nerven, wenn ich dann mit Koffer einmal 636 00:51:40,840 --> 00:51:44,730 hoch und runter... Und das waren dann irgendwie 60%. Aber nagele mich jetzt 637 00:51:44,730 --> 00:51:50,170 darauf nicht fest. Ich habe es jetzt nicht im Kopf, aber es waren deutlich 638 00:51:50,170 --> 00:51:52,780 weniger. Ich glaube, es war bei 60% oder so, diese Pünktlichkeit. 639 00:51:52,780 --> 00:51:55,800 F: Danke. Herald 1: Ich weiß jetzt nicht, welches 640 00:51:55,800 --> 00:51:58,410 Mikro Erster war. Wir fragen mal den Signal Angel, der hat eine Frage. 641 00:51:58,410 --> 00:52:01,837 Signal Angel: Also der Stream schließt sich den Standing Ovations an. 642 00:52:01,837 --> 00:52:04,619 D: Danke schön! Signal: Und es gab viele Leute, die darauf 643 00:52:04,619 --> 00:52:07,670 hingewiesen haben, dass für ausgefallene Züge oft Ersatzfahrten bereitgestellt 644 00:52:07,670 --> 00:52:08,670 werden. D: Ja. 645 00:52:08,670 --> 00:52:10,320 Signal: Die das dann teilweise kompensieren. Wie taucht das bei dir in 646 00:52:10,320 --> 00:52:12,070 der Statistik auf? D: Das taucht bei mir gar nicht auf. 647 00:52:12,070 --> 00:52:15,430 Deswegen war ich mir auch nicht komplett sicher. Deswegen habe ich das auch gesagt. 648 00:52:15,430 --> 00:52:20,000 Wenn die komplett neue Fahrt haben die irgendwie gar nicht im Plan aufgetaucht 649 00:52:20,000 --> 00:52:25,980 waren, dann werde ich die vermutlich nicht drin haben. Wenn die Fahrten in 650 00:52:25,980 --> 00:52:28,350 irgendeiner Form in den Plandaten drinnen waren, habe ich die aber drin. Deswegen 651 00:52:28,350 --> 00:52:32,400 kann ich es nicht genau sagen. Ich weiß jedenfalls, dass die Kollegen beim SPIEGEL 652 00:52:32,400 --> 00:52:36,420 eine ähnliche Analyse neulich hatten auf einem kleineren Datensatz. Und da war das 653 00:52:36,420 --> 00:52:43,020 auch jenseits der 4% Ausfallquote. Wenn es falsch ist, stimmt das zumindest überein. 654 00:52:43,020 --> 00:52:45,190 Es kann sein, dass sie drin sind. Ich bin mir nicht völlig sicher. 655 00:52:45,190 --> 00:52:50,860 Herald 1: Danke, Mikrofon 5 bitte mit einer Frage. 656 00:52:50,860 --> 00:52:54,520 F: Vielen dank für diesen sehr interessanten Vortrag. Es war bestimmt 657 00:52:54,520 --> 00:52:58,180 auch super viel Aufwand, das alles zu analysieren und nach den Standing Ovations 658 00:52:58,180 --> 00:53:02,590 traue ich mich ja auch fast gar nicht, eine kritische Frage zu stellen. 659 00:53:02,590 --> 00:53:06,330 D: Bitte! F: Aber Sie hatten ja ziemlich an den 660 00:53:06,330 --> 00:53:12,640 Anfangsslides bei den Bahnhöfen, die den Zügen Verspätungen hinzufügen oder wo die 661 00:53:12,640 --> 00:53:18,080 Züge vielleicht Verspätung aufholen. Aber ist es nicht viel eher so, dass die 662 00:53:18,080 --> 00:53:22,000 Strecken zwischen den Bahnhöfen dazu führen, dass die Züge Verspätung bekommen 663 00:53:22,000 --> 00:53:25,730 und nicht die Bahnhöfe selber? Und wäre das dann nicht auch für die Bahn 664 00:53:25,730 --> 00:53:29,890 interessant zu schauen, zwischen welchen Bahnhöfen kriegen die Züge am meisten 665 00:53:29,890 --> 00:53:32,670 Verspätung? D: Also das ist eine exakt sehr geile 666 00:53:32,670 --> 00:53:37,260 Frage. Weil diese Auswertung war in der Tat ein bisschen tricky, genau aus dem 667 00:53:37,260 --> 00:53:40,780 Grund. Vielleicht ist der Bahnhof Frankfurt die Verspätung gar nicht schuld, 668 00:53:40,780 --> 00:53:44,791 sondern die Gleise beim Rein- und Rausfahren zum Beispiel. Deswegen messe 669 00:53:44,791 --> 00:53:50,500 ich die Verspätungsänderung von dem Streckensegment vor dem Bahnhof und dem 670 00:53:50,500 --> 00:53:54,280 Streckensegment nach dem Bahnhof. Und der jeweilige Bahnhof kriegt man den 671 00:53:54,280 --> 00:53:58,800 Durchschnitt, damit ich genau von diesem Effekt geheilt werde. Dann habe ich einen 672 00:53:58,800 --> 00:54:03,910 sehr guten Durchschnittswert. Und wer halt immer was dazufügt im Schnitt, der wird 673 00:54:03,910 --> 00:54:07,880 auch selber was dazu beitragen. Oder beide Streckenstreckensegmente dahin sind 674 00:54:07,880 --> 00:54:14,631 schlecht, also immer. Dann ist das auch für mich ein Bahnhofsproblem. Also genau 675 00:54:14,631 --> 00:54:18,180 genommen, was ich hier analysiere ist dann des Problem des Bahnhofs und der näheren 676 00:54:18,180 --> 00:54:21,420 Umgebung darum herum. Danke für diese Frage. 677 00:54:21,420 --> 00:54:25,540 F: Vielen Dank für die Antwort. *Applaus* 678 00:54:25,540 --> 00:54:33,450 D: Da hab ich mir nämlich lange Gedanken gemacht, ob ich da jetzt einfach immer nur 679 00:54:33,450 --> 00:54:36,540 die Änderung der Verspätung nehme, aber das hätte ich mir selbst als Statistik 680 00:54:36,540 --> 00:54:41,280 zerrissen, wenn ich da einen bei erwischt hätte. Aber deswegen perfekt, dass es 681 00:54:41,280 --> 00:54:45,460 aufgefallen ist. Sehr gut. Herald 1: Wir haben nur gute Menschen 682 00:54:45,460 --> 00:54:49,350 hier, sehr schön. *lacht* Wir nehmen Mikrofon 3, wechseln mal die Seite bitte. 683 00:54:49,350 --> 00:54:53,020 D: Ich muss immer ein bisschen suchen. Bitte entschuldigt, wenn ich euch nicht 684 00:54:53,020 --> 00:54:57,869 sehe. Da hinten ist er. F: Du hattest am Anfang angeprangert oder 685 00:54:57,869 --> 00:55:05,190 in der Mitte angeprangert, dass die Ausfälle nicht zu Verspätungen zählen. Und 686 00:55:05,190 --> 00:55:11,520 hattest aber am Anfang diese Slide, wo der Berliner Flughafen immer ausfällt. Und es 687 00:55:11,520 --> 00:55:15,790 gibt ja vielleicht auch andere Bahnhöfe, die umgebaut werden oder wo eben in 688 00:55:15,790 --> 00:55:21,731 Anführungszeichen planmäßig ausfallen. Hast du die irgendwie 689 00:55:21,731 --> 00:55:23,441 rausgerechnet oder wie läuft das? D: Nach meiner Information sind die Stopps 690 00:55:23,441 --> 00:55:25,820 dann gar nicht im Plan. F: Ah, okay. 691 00:55:25,820 --> 00:55:29,430 D: Das sieht so aus: Ihr habt die Plandaten mit den Stopps und dann habt ihr 692 00:55:29,430 --> 00:55:34,119 die Änderungen. Und da ist dann, wenn da was ausfällt, dann ist da eine Cancelation 693 00:55:34,119 --> 00:55:37,880 Time drin, nämlich der Zeitpunkt des Ausfalls. Da kann man auch noch schöne 694 00:55:37,880 --> 00:55:41,910 Auswertungen mit machen. Ausfälle mit kurzer Vorlaufzeit und so weiter. Das 695 00:55:41,910 --> 00:55:47,910 würde dann in den Daten nach meiner Kenntnis anders aussehen, wobei ich das 696 00:55:47,910 --> 00:55:51,800 auch nur reverse engineere. Die dokumentieren nicht alles. Ich weiß nicht, 697 00:55:51,800 --> 00:55:56,250 wer von euch vorhin in dem Bahn-API- Vortrag drin war. Aber man muss sehr viel 698 00:55:56,250 --> 00:56:01,230 reverse engineeren, wenn man das macht. Also auch das mit einem Körnchen Salz. 699 00:56:01,230 --> 00:56:07,510 Herald: Danke, wir nehmen Mikrofon 2. F: Ich bin auch Bahnfahrer, aber nach 700 00:56:07,510 --> 00:56:12,630 meiner Erfahrung ist der Regionalverkehr viel häufiger verspätet als der 701 00:56:12,630 --> 00:56:17,181 Fernverkehr und deshalb die Frage: Wann gibt's die Analyse für den Nahverkehr? 702 00:56:17,181 --> 00:56:23,130 D: Wo kommst du denn her? F: Ich lebe südlich von Stuttgart. 703 00:56:23,130 --> 00:56:28,310 D: Südlich von Stuttgart. Also ich hab die Nahverkehrsbahnhöfe nicht runtergeladen. 704 00:56:28,310 --> 00:56:34,369 Was ich aber hab (einfach weil sonst die Requests wären explodiert), aber was ich 705 00:56:34,369 --> 00:56:39,530 hab, ist natürlich sämtlicher Nahverkehr, der über alle Fernbahnhöfe gefahren ist, 706 00:56:39,530 --> 00:56:44,030 und die sind strategisch gut verteilt, sodass sich da in der Tat auch für den 707 00:56:44,030 --> 00:56:48,430 Nahverkehr was sehen kann. Vielleicht mache ich mal eine Pünktlichkeit von dem 708 00:56:48,430 --> 00:56:52,030 nahen Verkehr, der in den Fernverkehrs Bahnhöfen vorbeigefahren ist. Weil das 709 00:56:52,030 --> 00:56:55,557 habe ich; dann muss ich mal als Tabelle auf meine Webseite stellen. Oder so 710 00:56:55,557 --> 00:57:03,780 einfach. Dann kannst du gucken. *Applaus* 711 00:57:03,780 --> 00:57:05,800 Herald 1: Wir haben noch ein kleines bisschen Zeit, Mikrofon 6 nochmal, die 712 00:57:05,800 --> 00:57:09,060 andere Seite. F: Vielen Dank nochmal für den Vortrag. 713 00:57:09,060 --> 00:57:15,440 Aus München kommend haben wir eine chronisch schlechte S-Bahn, und ich habe 714 00:57:15,440 --> 00:57:19,100 mich auch gefragt: Ist den der Regionalverkehr noch einmal 715 00:57:19,100 --> 00:57:22,160 unterschiedlich zum Nahverkehr? Oder ist einfach die Münchner S-Bahn dauernd zu 716 00:57:22,160 --> 00:57:26,090 spät und im Rest von Deutschland ist gut? D: Die fährt ja über eure großen Bahnhöfe, 717 00:57:26,090 --> 00:57:30,430 habt ja zwei oder drei richtig dicke, ne? München Ost, München und noch 718 00:57:30,430 --> 00:57:31,859 irgendeinen. F: Ja. 719 00:57:31,859 --> 00:57:36,500 D: Dann hab ich die drinnen. Kann ich mal gucken. Würde dann auch in der Frage 720 00:57:36,500 --> 00:57:45,911 auftauchen, ob die da über 90%; Diese über 90% Pünktlichkeit im Regionalverkehr sind 721 00:57:45,911 --> 00:57:49,480 für Bahn und Subunternehmen vermutlich. Ich muss mal gucken, aber die anderen hab 722 00:57:49,480 --> 00:57:54,300 ich ja drin. Zur Not als Dirttunternehmen. Vielleicht beziehe ich die einfach mal mit 723 00:57:54,300 --> 00:57:58,390 ein in die regionale Analyse. Das könnte interessant sein, wenn ich dafür 724 00:57:58,390 --> 00:58:00,880 irgendwann Zeit habe. Erwartet das jetzt nicht morgen früh. 725 00:58:00,880 --> 00:58:04,410 F: Danke. Harald 1: Super, wir nehmen euch beide 726 00:58:04,410 --> 00:58:09,500 hier, Mikrofon 4 zuerst. F: Auf den Slides 80 und 84 war 727 00:58:09,500 --> 00:58:15,764 dargestellt, wie die Bahn die Teilausfälle rausrechnet, aus der Statistik. Aber 728 00:58:15,764 --> 00:58:19,650 müssten nicht die gesamten Züge herausgerechnet werden aus der Statistik? 729 00:58:19,650 --> 00:58:22,190 D: Ähm. F: Die Verspätung akkumuliert sich ja 730 00:58:22,190 --> 00:58:27,120 natürlich und dann wäre die Statistik ja dementsprechend besser. 731 00:58:27,120 --> 00:58:29,547 D: Jetzt hab ich mein PowerPoint abgeschossen. 732 00:58:29,547 --> 00:58:34,820 *Leises lachen* Nö, wieso müsstest du die ganze Züge 733 00:58:34,820 --> 00:58:38,590 herausrechnen? Das verstehe ich nicht. Es kommt ja. Es ist ja schön granular für 734 00:58:38,590 --> 00:58:43,830 Stopps zu rechnen. Angenommen, das ganze System würde so funktionieren, dass alle 735 00:58:43,830 --> 00:58:47,360 Züge auf der Hälfte Ihrer Stopps pünktlich sind, und auf der anderen Hälfte 736 00:58:47,360 --> 00:58:50,830 unpünktlich. Dann wäre das doch halb pünktlich. Ich sehe nicht, warum. Wir 737 00:58:50,830 --> 00:58:54,290 arbeiten ja feiner als auf Granularität von Zügen. Das ist doch besser? 738 00:58:54,290 --> 00:58:59,150 F: Aber es werden ja Teilausfälle auch rausgerechnet. Ist es dann wirklich nur 739 00:58:59,150 --> 00:59:01,610 der ausgefallene Stopp? D: Nee, soweit ich weiß, ist da wirklich 740 00:59:01,610 --> 00:59:04,094 nur der ausgefallene Stopp, ja. F: Ok, gut. Danke. 741 00:59:04,094 --> 00:59:09,540 Harald 1: So, dann noch Mikrophon 1. F: Vielen Dank nochmal für den Talk. Meine 742 00:59:09,540 --> 00:59:14,119 Frage geht in die Richtung: "Perverse incentive", sprich die Kennzahlen, an 743 00:59:14,119 --> 00:59:18,670 denen sich die Bahn messen lässt. Hat sie sehr darauf hingewiesen, dass die 744 00:59:18,670 --> 00:59:24,180 Ausfallrate da vielleicht nicht so; Also gut sein könnte wenn.., 745 00:59:24,180 --> 00:59:29,275 D: Ja, wäre schön, wenn sie drin wäre. F: Ja, genau, wenn sie mit drin wäre. Eine 746 00:59:29,275 --> 00:59:38,070 andere Sache die da reinspielt: Wie hoch die Ziele sind, die sich die Bahn setzt. 747 00:59:38,070 --> 00:59:42,630 Hast du in deinen Daten welche? D: Das geht durch die Presse. 748 00:59:42,630 --> 00:59:47,440 F: Ich meine Ziele im Sinne von: Wie schnell denn eine Strecke zu befahren ist? 749 00:59:47,440 --> 00:59:51,430 Man könnte ja die Züge pünktlicher machen dadurch, dass man nach jedem Zug eine 750 00:59:51,430 --> 00:59:53,320 Stunde mehr Zeit gibt, dieselbe Strecke zu fahren. 751 00:59:53,320 --> 00:59:54,619 D: Du meinst die Taktung? F: Ja. 752 00:59:54,619 --> 00:59:58,990 D: Nee, die habe ich nicht. Die ist aber bei der Bahn relativ eng, im Vergleich zu 753 00:59:58,990 --> 01:00:03,080 Flugzeugen - habe ich mir sagen lassen von kundigen Personen - weswegen die Flugzeuge 754 01:00:03,080 --> 01:00:07,530 auch häufiger pünktlich sind; oder ungefähr pünktlich. Aber bei der Bahn ist 755 01:00:07,530 --> 01:00:11,450 alles sehr eng getaktet, und vor allem sind die Sachen interdependent. Wenn einer 756 01:00:11,450 --> 01:00:16,430 auf der Strecke liegen bleibt, halten alle dahinter halt auch ein Problem. Das beides 757 01:00:16,430 --> 01:00:19,340 in Kombination sorgt für die Fragilität, die wir sehen. 758 01:00:19,340 --> 01:00:26,320 F: Hast du vor, die Analyse in weiteren Jahren fortzuführen, um dann da vielleicht 759 01:00:26,320 --> 01:00:32,450 die Richtung etwas zu sehen? D: Ich bin mir nicht sicher. Zum einen 760 01:00:32,450 --> 01:00:37,730 habe ich wie alle anderen auch, Arbeit und Familie, und zweitens ist die 761 01:00:37,730 --> 01:00:40,900 infrastrukturell sehr aufwendig. Ein bisschen mache ich das sicher noch weiter, 762 01:00:40,900 --> 01:00:43,290 und dann gucke ich, habe ich noch rauskriege. Aber ich kann nichts 763 01:00:43,290 --> 01:00:47,570 versprechen. F: Letzter Nachschub: sind deine Daten 764 01:00:47,570 --> 01:00:52,470 von... also kriegt man die von dir? D: Denke ich nicht, weil ich das nicht 765 01:00:52,470 --> 01:00:53,470 darf. F: Ah. 766 01:00:53,470 --> 01:00:56,780 D: Am Ende hat die Bahn dafür das Copyright. Viel mehr Copyright-Verstoß 767 01:00:56,780 --> 01:01:00,660 ginge gar nicht, als wenn ich das ganze Ding nehme und euch einfach rauskopiere. 768 01:01:00,660 --> 01:01:08,950 Aber: sucht bei der Bahn die Timetable API. Und dann ladet ihr das einfach 769 01:01:08,950 --> 01:01:13,900 runter. Es geht, das ist keine Raketenwissenschaft. 770 01:01:13,900 --> 01:01:15,609 F: Danke. D: Gut. 771 01:01:15,609 --> 01:01:20,088 Harald 1: Super. Nochmal einen riesengroßen Applaus, an David. Herzlichen Dank. 772 01:01:20,088 --> 01:01:22,586 *Applaus* 773 01:01:22,586 --> 01:01:46,107 *Abspannmusk*