1 00:00:05,888 --> 00:00:09,311 Derzeit gibt es ungefähr 7500 Sprachen, 2 00:00:09,312 --> 00:00:10,872 die auf dem Planeten gesprochen werden. 3 00:00:11,770 --> 00:00:13,807 Von diesen sind schätzungsweise 4 00:00:13,808 --> 00:00:16,019 etwa 70 Prozent in Gefahr, 5 00:00:16,044 --> 00:00:20,570 nicht das Ende des 21. Jahrhunderts zu überleben. 6 00:00:22,270 --> 00:00:24,266 Jedes Mal, wenn eine Sprache stirbt, 7 00:00:24,711 --> 00:00:26,621 zerstört es eine Verbindung, 8 00:00:26,622 --> 00:00:30,589 die seit Hunderten bis Tausenden von Jahren andauerte, 9 00:00:30,590 --> 00:00:34,816 zur Kultur, zur Geschichte, 10 00:00:35,320 --> 00:00:38,150 und zu Traditionen und Wissen. 11 00:00:38,933 --> 00:00:42,249 Der Linguist Kenneth Hale sagte einmal, 12 00:00:42,250 --> 00:00:44,182 dass jedes Mal, wenn eine Sprache stirbt, 13 00:00:44,183 --> 00:00:46,794 ist wie eine Atombombe auf den Louvre fallen zu lassen. 14 00:00:49,377 --> 00:00:51,844 Die Frage ist also, 15 00:00:52,730 --> 00:00:54,800 warum sterben Sprachen? 16 00:00:56,244 --> 00:01:00,155 Nun, die einfache Antwort könnte vielleicht lauten, 17 00:01:00,162 --> 00:01:03,050 dass man sich vorstellen kann, dass autoritäre Regierungen 18 00:01:03,051 --> 00:01:05,311 Menschen am Sprechen ihrer Muttersprache hindern, 19 00:01:05,844 --> 00:01:09,630 Kinder werden für das Sprechen ihrer Sprache in der Schule bestraft, 20 00:01:09,866 --> 00:01:12,911 oder die Regierung schaltet Radiosender 21 00:01:12,923 --> 00:01:14,644 in der Minderheitensprache ab. 22 00:01:14,880 --> 00:01:16,960 Und das ist definitiv in der Vergangenheit geschehen, 23 00:01:16,977 --> 00:01:19,577 und bis zu einem gewissen Grad geschieht das heute immer noch. 24 00:01:19,616 --> 00:01:23,238 Aber die wirkliche Antwort ist, 25 00:01:23,263 --> 00:01:26,666 dass es für die große Mehrheit der Fälle, wo Sprachen aussterben, 26 00:01:27,296 --> 00:01:30,946 eine viel einfachere und leichter zu erklärende Antwort gibt. 27 00:01:33,696 --> 00:01:36,718 Die Sprachen sterben aus, weil sie nicht 28 00:01:37,240 --> 00:01:40,040 von einer Generation zur nächsten weitergegeben werden. 29 00:01:42,240 --> 00:01:44,840 Jedes Mal, wenn eine Person, die eine Minderheitensprache spricht, 30 00:01:44,841 --> 00:01:50,365 ein Kind hat, macht sie eine Rechnung auf. 31 00:01:51,360 --> 00:01:52,800 Sie fragen sich, 32 00:01:53,660 --> 00:01:56,288 "Gebe ich meine Sprache an mein Kind weiter, 33 00:01:56,770 --> 00:02:01,310 oder unterrichte ich stattdessen nur die Mehrheitssprache"? 34 00:02:01,311 --> 00:02:03,222 Im Wesentlichen ist es eine Waage, 35 00:02:03,900 --> 00:02:05,844 auf die sie in ihrem Kopf zugreifen, 36 00:02:06,720 --> 00:02:08,355 auf der einen Seite 37 00:02:09,530 --> 00:02:11,733 jedes einzelne Mal in ihrem Leben, 38 00:02:11,737 --> 00:02:14,222 wo sie Gelegenheit hatten, ihre Muttersprache zu verwenden, 39 00:02:14,866 --> 00:02:18,490 zur Kommunikation, Zugang zu traditioneller Kultur, 40 00:02:19,776 --> 00:02:21,748 wird ein Stein auf der linken Seite platziert. 41 00:02:22,228 --> 00:02:24,318 Und jedes Mal, wenn sie nicht in der Lage sind, 42 00:02:24,343 --> 00:02:25,755 ihre Muttersprache zu nutzen, 43 00:02:25,770 --> 00:02:27,955 und sich auf die Mehrheitssprache verlassen müssen, 44 00:02:27,958 --> 00:02:30,066 wird ein Stein auf der rechten Seite platziert. 45 00:02:31,822 --> 00:02:34,799 Nun, aufgrund der Stärke und der Würde, 46 00:02:34,800 --> 00:02:36,599 seine Muttersprache sprechen zu können, 47 00:02:36,600 --> 00:02:38,760 wiegen die Steine auf der linken Seite etwas schwerer. 48 00:02:38,761 --> 00:02:42,048 Aber mit genügend Steinen auf der rechten Seite, 49 00:02:42,560 --> 00:02:44,599 kippt dann schließlich die Waage, 50 00:02:44,600 --> 00:02:47,110 und dann, wenn eine Person die Entscheidung trifft, 51 00:02:47,111 --> 00:02:49,150 ihre Sprache weiterzugeben, 52 00:02:49,160 --> 00:02:50,621 sehen sie ihre eigene Sprache 53 00:02:50,622 --> 00:02:52,620 mehr als Last denn als Segen. 54 00:02:55,200 --> 00:02:58,676 Die Frage ist also, wie können wir das rückgängig machen? 55 00:02:59,450 --> 00:03:01,777 Zunächst müssen wir über die Tatsache nachdenken, 56 00:03:03,511 --> 00:03:04,968 dass es für jede beliebige Sprache 57 00:03:04,970 --> 00:03:07,899 bestimmte soziale Bereiche gibt, in denen sie verwendet werden können. 58 00:03:07,900 --> 00:03:10,799 Also, jede Sprache, die heute als Muttersprache gesprochen wird, 59 00:03:10,800 --> 00:03:12,990 kann in der eigenen Familie verwendet werden. 60 00:03:13,720 --> 00:03:16,678 Eine kleinere Zahl von Sprachen wird innerhalb der Gemeinschaft verwendet, 61 00:03:16,679 --> 00:03:18,839 eine kleinere Gruppe vielleicht in der eigenen Region 62 00:03:19,288 --> 00:03:22,155 und eine kleine Handvoll von Sprachen 63 00:03:22,511 --> 00:03:24,831 kann für die internationale Kommunikation verwendet werden. 64 00:03:25,824 --> 00:03:28,639 Und dann sogar über diese Bereiche hinaus, 65 00:03:28,640 --> 00:03:31,711 stellt sich die Frage, ob jemand ihre Sprache 66 00:03:31,712 --> 00:03:37,447 für Bildung oder Wirtschaft oder Technik nutzen kann? 67 00:03:39,136 --> 00:03:41,952 Um also besser zu erklären, 68 00:03:43,200 --> 00:03:44,529 wovon ich hier spreche, 69 00:03:44,530 --> 00:03:46,393 möchte ich eine Anekdote verwenden. 70 00:03:48,400 --> 00:03:50,399 Nehmen wir an, dass Sie im Begriff sind, 71 00:03:50,400 --> 00:03:52,280 Ihren Traumurlaub in Indien anzutreten, 72 00:03:53,155 --> 00:03:56,032 und Sie haben einen achtstündigen Zwischenstopp in Istanbul. 73 00:03:57,312 --> 00:04:00,640 Nun, Sie haben nicht unbedingt einen Besuch der Türkei geplant, 74 00:04:00,847 --> 00:04:04,265 aber mit dem Zwischenstopp und mit einem türkischen Freund, 75 00:04:04,266 --> 00:04:07,776 der von einem tollen Restaurant nicht weit vom Flughafen erzählt hat, 76 00:04:07,800 --> 00:04:10,835 denkt man: "Hey, vielleicht schaue ich während meines Aufenthalts vorbei." 77 00:04:11,022 --> 00:04:12,920 Sie verlassen also den Flughafen, 78 00:04:13,950 --> 00:04:15,479 kommen in Ihr Restaurant, 79 00:04:15,480 --> 00:04:17,019 und sie geben Ihnen eine Speisekarte, 80 00:04:17,020 --> 00:04:18,965 und die Speisekarte ist vollständig auf Türkisch. 81 00:04:20,170 --> 00:04:22,910 Nun, sagen wir mal, für den Zweck dieser Übung, 82 00:04:22,911 --> 00:04:24,377 dass Sie kein Türkisch sprechen. 83 00:04:25,210 --> 00:04:26,535 Was machen Sie? 84 00:04:28,155 --> 00:04:29,743 Nun, im besten Fall, 85 00:04:29,744 --> 00:04:32,184 finden Sie vielleicht jemanden der Ihre Muttersprache spricht, 86 00:04:32,383 --> 00:04:34,264 Deutsch, Englisch et cetera. 87 00:04:36,220 --> 00:04:37,997 Aber sagen wir, es ist nicht Ihr Glückstag 88 00:04:38,000 --> 00:04:41,066 und niemand im Restaurant kann Deutsch oder Englisch sprechen. 89 00:04:42,000 --> 00:04:43,359 Was tun Sie also? 90 00:04:43,360 --> 00:04:46,107 Nun, wenn Sie so wie ich sind, und ich denke, die meisten von Ihnen, 91 00:04:46,132 --> 00:04:48,355 nutzen Sie wahrscheinlich eine technologische Lösung, 92 00:04:49,535 --> 00:04:52,351 maschinelle Übersetzung oder ein digitales Wörterbuch, 93 00:04:52,607 --> 00:04:54,196 schlagen jedes Wort einzeln nach, 94 00:04:54,399 --> 00:04:57,733 und können sich schließlich ein köstliches türkisches Essen bestellen. 95 00:04:59,970 --> 00:05:02,844 Stellen wir uns nun stattdessen dieses Szenario vor, 96 00:05:03,610 --> 00:05:06,400 in dem Sie der Muttersprachler einer Minderheitensprache sind. 97 00:05:07,455 --> 00:05:09,295 Sagen wir, Niedersorbisch. 98 00:05:09,320 --> 00:05:11,040 Niedersorbisch ist eine gefährdete Sprache, 99 00:05:11,053 --> 00:05:12,533 wird hier in Deutschland gesprochen, 100 00:05:12,534 --> 00:05:16,888 etwa 130 Kilometer südöstlich von hier, 101 00:05:17,711 --> 00:05:20,857 nur von ein paar tausend Menschen, meist ältere Menschen. 102 00:05:22,810 --> 00:05:25,111 Nun, sagen wir, Ihre Muttersprache ist Niedersorbisch. 103 00:05:25,370 --> 00:05:26,759 Sie landen im Restaurant. 104 00:05:26,760 --> 00:05:28,520 Die Chance, jemanden im Restaurant zu finden, 105 00:05:28,536 --> 00:05:31,218 der Ihre Muttersprache spricht, ist außergewöhnlich niedrig. 106 00:05:32,280 --> 00:05:36,412 Aber, noch einmal, Sie können einfach zu einer technologischen Lösung greifen. 107 00:05:36,890 --> 00:05:39,332 Allerdings für Ihre Muttersprache 108 00:05:39,333 --> 00:05:41,718 existieren diese technologischen Lösungen nicht. 109 00:05:42,010 --> 00:05:44,990 Sie müssten sich auf Deutsch oder Englisch 110 00:05:44,991 --> 00:05:47,488 als Brücke ins Türkisch verlassen. 111 00:05:48,920 --> 00:05:52,381 Sie bekommen am Ende natürlich immer noch Ihr köstliches türkisches Essen, 112 00:05:52,382 --> 00:05:54,859 aber beginnen nachzudenken, wie schwierig dies gewesen wäre, 113 00:05:54,860 --> 00:05:57,640 wenn Sie wie Ihr Großvater wären, der überhaupt kein Deutsch sprach. 114 00:05:58,244 --> 00:05:59,840 Dies ist nur ein kleiner Zwischenfall, 115 00:05:59,844 --> 00:06:04,787 aber es wird einen Stein auf der rechten Seite dieser Waage setzen 116 00:06:05,310 --> 00:06:07,052 und Sie zum Nachdenken anregen, 117 00:06:07,053 --> 00:06:10,133 vielleicht, wenn ich Kinder habe oder vielleicht, wenn ich noch ein Kind habe, 118 00:06:10,943 --> 00:06:14,725 die Last, die Sie auf sich genommen haben 119 00:06:14,726 --> 00:06:17,133 ist es vielleicht nicht wert, um Ihre Sprache zu behalten. 120 00:06:19,391 --> 00:06:21,311 Und stellen Sie sich vor, dies wäre ein Szenario, 121 00:06:21,312 --> 00:06:26,176 das von wesentlich größerer Bedeutung wäre, 122 00:06:26,177 --> 00:06:28,380 wie zum Beispiel in einem Krankenhaus. 123 00:06:31,133 --> 00:06:36,161 Nun, das ist der Punkt, bei dem wir helfen können – 124 00:06:36,790 --> 00:06:40,242 Mit "wir" meine ich, Sie und ich, in diesem Raum können helfen. 125 00:06:41,400 --> 00:06:43,400 Wir haben die Werkzeuge, um dabei helfen zu können. 126 00:06:45,040 --> 00:06:47,358 Wenn technologische Werkzeuge für Menschen verfügbar sind, 127 00:06:47,359 --> 00:06:49,879 die eine Minderheits- und unterrepräsentierte Sprachen sprechen, 128 00:06:50,555 --> 00:06:54,021 legt es einen kleinen Finger auf die Waage, auf der linken Seite der Waage. 129 00:06:54,022 --> 00:06:55,662 Jemand muss nicht unbedingt glauben, 130 00:06:55,671 --> 00:06:57,711 sich auf eine Minderheitensprache verlassen müssen, 131 00:06:57,712 --> 00:06:59,488 um mit der Außenwelt zu interagieren, 132 00:07:00,351 --> 00:07:05,110 weil es die sozialen Bereiche 133 00:07:05,111 --> 00:07:06,328 ein bisschen mehr öffnet. 134 00:07:07,910 --> 00:07:10,332 Also, natürlich die ideale Lösung ist, 135 00:07:10,333 --> 00:07:13,021 maschinelle Übersetzung in jeder Sprache der Welt zu haben. 136 00:07:13,022 --> 00:07:16,830 Leider ist das aber einfach nicht machbar. 137 00:07:16,831 --> 00:07:19,799 Maschinelle Übersetzung erfordert große Textkorpora, 138 00:07:19,800 --> 00:07:21,087 und für viele dieser Sprachen, 139 00:07:21,088 --> 00:07:23,080 die gefährdet oder unterrepräsentiert sind, 140 00:07:23,391 --> 00:07:25,439 sind solche Daten einfach nicht verfügbar. 141 00:07:26,309 --> 00:07:28,389 Einige von ihnen sind nicht einmal üblich geschrieben 142 00:07:29,000 --> 00:07:32,824 und damit genügend Daten für eine maschinelle Übersetzung zu erhalten, 143 00:07:32,825 --> 00:07:34,389 ist unwahrscheinlich. 144 00:07:34,390 --> 00:07:38,060 Aber was verfügbar ist, sind lexikalische Daten. 145 00:07:40,244 --> 00:07:43,443 Durch die Arbeit vieler Sprachwissenschaftler 146 00:07:43,444 --> 00:07:45,440 in den letzten paar hundert Jahren, 147 00:07:47,777 --> 00:07:49,727 wurden Wörterbücher und Grammatiken 148 00:07:49,728 --> 00:07:51,680 für die meisten Sprachen der Welt produziert. 149 00:07:53,920 --> 00:07:56,510 Leider sind aber die meisten dieser Werke 150 00:07:56,511 --> 00:08:00,644 nicht zugänglich oder stehen der Welt nicht zur Verfügung, 151 00:08:00,647 --> 00:08:03,533 ganz zu schweigen von den Sprechern dieser Minderheitensprachen. 152 00:08:04,522 --> 00:08:06,376 Und es ist kein absichtlicher Prozess. 153 00:08:06,377 --> 00:08:07,909 Oftmals ist es einfach so, dass 154 00:08:07,910 --> 00:08:10,785 die anfängliche Druckauflage dieser Wörterbücher klein war, 155 00:08:11,155 --> 00:08:12,542 und die einzigen Kopien 156 00:08:12,543 --> 00:08:16,244 verkümmern irgendwo in einer Universitätsbibliothek. 157 00:08:17,511 --> 00:08:23,067 Aber wir haben die Möglichkeit, diese Daten der Welt zugänglich machen. 158 00:08:24,133 --> 00:08:28,376 Die Wikimedia-Stiftung ist eine der besten Organisationen, 159 00:08:28,377 --> 00:08:30,555 ich würde sagen, *die* beste Organisation in der Welt, 160 00:08:30,975 --> 00:08:35,260 um Daten für die große Mehrheit der Bevölkerung dieses Planeten 161 00:08:35,285 --> 00:08:36,445 bereitzustellen. 162 00:08:38,533 --> 00:08:40,134 Lassen Sie uns also daran arbeiten. 163 00:08:41,000 --> 00:08:43,222 Also, um das ein wenig zu erklären, 164 00:08:43,224 --> 00:08:45,050 was wir in dieser Hinsicht getan haben, 165 00:08:45,311 --> 00:08:48,127 möchte ich Ihnen meine Organisation, PanLex vorstellen, 166 00:08:48,711 --> 00:08:53,921 die versucht, lexikalische Daten zu diesem Zweck zu sammeln. 167 00:08:54,780 --> 00:08:56,829 Wir haben vor etwa 12 Jahren begonnen, 168 00:08:56,830 --> 00:08:59,599 als Forschungsprojekt an der Universität von Washington. 169 00:08:59,600 --> 00:09:01,087 Die Idee dahinter 170 00:09:01,088 --> 00:09:03,990 war es, zu zeigen, dass abgeleitete Übersetzungen 171 00:09:04,377 --> 00:09:07,124 ein effektives Übersetzungsinstrument schaffen können, 172 00:09:07,125 --> 00:09:09,087 ein lexikalisches Übersetzungsinstrument. 173 00:09:09,088 --> 00:09:12,223 Dies ist ein Beispiel aus den PanLex-Daten. 174 00:09:12,680 --> 00:09:14,057 Hier wird gezeigt, wie man 175 00:09:14,066 --> 00:09:17,804 das Wort "ev" im Türkischen, das heißt Haus, übersetzen kann, 176 00:09:17,805 --> 00:09:19,554 nach Niedersorbisch, 177 00:09:19,555 --> 00:09:21,201 die Sprache, die ich vorhin erwähnte. 178 00:09:21,212 --> 00:09:23,292 Es ist also unwahrscheinlich, 179 00:09:23,785 --> 00:09:26,185 ein Wörterbuch für Türkisch nach Niedersorbisch zu finden, 180 00:09:26,200 --> 00:09:28,243 aber durch das Durchlaufen 181 00:09:28,244 --> 00:09:30,240 vieler, vieler verschiedener Zwischensprachen, 182 00:09:30,488 --> 00:09:32,600 können Sie effektive Übersetzungen erstellen. 183 00:09:34,333 --> 00:09:36,910 Sobald die Forschungsprojekte das nachweisen konnten, 184 00:09:36,911 --> 00:09:39,631 entschied Dr. Jonathan Pool, der Gründer von PanLex, 185 00:09:40,711 --> 00:09:43,665 "Nun, warum machen wir das nicht einfach?" 186 00:09:43,666 --> 00:09:45,469 Er gründete eine gemeinnützige Gesellschaft, 187 00:09:45,470 --> 00:09:46,918 um lexikalische Daten zu sammeln 188 00:09:46,942 --> 00:09:48,887 und zugänglich zu machen. 189 00:09:48,911 --> 00:09:51,065 Das haben wir in den letzten 12 Jahren getan. 190 00:09:51,066 --> 00:09:54,515 In dieser Zeit haben wir Tausende und Abertausende von Wörterbüchern gesammelt 191 00:09:54,516 --> 00:09:56,478 und haben lexikalische Daten extrahiert, 192 00:09:56,479 --> 00:09:59,439 und eine Datenbank zusammengestellt, die es ermöglicht, 193 00:09:59,440 --> 00:10:03,507 abgeleitete lexikalische Übersetzung über alle der... 194 00:10:03,755 --> 00:10:05,866 Unsere derzeitige Zahl liegt bei etwa 5500 195 00:10:05,867 --> 00:10:07,955 der 7500 Sprachen in der Welt. 196 00:10:08,511 --> 00:10:12,027 Und natürlich versuchen wir ständig, das zu erweitern 197 00:10:12,027 --> 00:10:14,784 und die Daten jeder einzelnen Sprache zu erweitern. 198 00:10:17,220 --> 00:10:21,111 Die nächste Frage lautet also, 199 00:10:22,079 --> 00:10:25,663 was können wir tun, um gemeinsam daran zu arbeiten? 200 00:10:26,680 --> 00:10:28,930 Wir bei PanLex sind extrem begeistert, 201 00:10:28,931 --> 00:10:31,259 die Entwicklung bei lexikalischen Daten zu sehen, 202 00:10:31,260 --> 00:10:34,175 an denen Wikidata in letzter Zeit gearbeitet hat. 203 00:10:35,155 --> 00:10:37,548 Es ist sehr faszinierend, Organisationen zu sehen, 204 00:10:37,550 --> 00:10:39,475 die in einem sehr ähnlichen Bereich arbeiten, 205 00:10:39,476 --> 00:10:41,183 aber in verschiedenen Aspekten. 206 00:10:41,535 --> 00:10:44,351 Und wir sind sehr gespannt 207 00:10:44,733 --> 00:10:46,465 auf die Ergebnisse aus Wikidata. 208 00:10:46,466 --> 00:10:51,144 Und auch wir freuen uns über die Zusammenarbeit mit Wikidata. 209 00:10:53,844 --> 00:10:55,779 Ich denke, dass die besonderen Fähigkeiten, 210 00:10:55,800 --> 00:10:57,997 die wir in den letzten 12 Jahren entwickelt haben, 211 00:10:57,997 --> 00:11:00,164 nicht nur in der Sammlung von lexikalischen Daten, 212 00:11:00,164 --> 00:11:01,573 sondern auch im Datenbankdesign, 213 00:11:01,573 --> 00:11:03,908 was für Wikidata äußerst nützlich sein könnte. 214 00:11:03,910 --> 00:11:07,111 Und auf der anderen Seite denke ich, dass – 215 00:11:08,415 --> 00:11:10,602 Ich bin besonders gespannt 216 00:11:10,603 --> 00:11:14,466 auf Wikidatas Fähigkeit, Crowdsourcing von Daten durchzuführen. 217 00:11:15,129 --> 00:11:18,047 Bei PanLex sind unsere Quellen derzeit vollständig 218 00:11:18,240 --> 00:11:21,200 gedruckte lexikalische Quellen oder andere Arten von lexikalischen Quellen, 219 00:11:21,227 --> 00:11:22,662 aber wir machen kein Crowdsourcing. 220 00:11:22,670 --> 00:11:24,919 Wir haben einfach nicht die Infrastruktur dafür 221 00:11:24,920 --> 00:11:26,931 und natürlich ist die Wikimedia Foundation 222 00:11:26,933 --> 00:11:28,930 der weltweite Experte für Crowdsourcing. 223 00:11:31,848 --> 00:11:33,728 Ich freue mich darauf, genau zu sehen, 224 00:11:33,733 --> 00:11:35,773 wie wir diese Fähigkeiten gemeinsam anwenden können. 225 00:11:38,533 --> 00:11:41,599 Aber insgesamt denke ich, dass die Hauptsache ist, 226 00:11:41,600 --> 00:11:43,457 wenn wir an diesen Dingen arbeiten, 227 00:11:43,461 --> 00:11:45,132 es ist ein winziges Detail. 228 00:11:45,133 --> 00:11:47,532 Wir beschäftigen uns mit grammatikalischen Formen, 229 00:11:47,533 --> 00:11:51,911 oder arbeiten uns durch Wörterbücher, alte Wörterbücher, 230 00:11:51,915 --> 00:11:53,976 oder manchmal kürzlich veröffentlichte Wörterbücher 231 00:11:53,977 --> 00:11:57,465 und beschäftigen uns mit schriftlichen Wortformen, 232 00:11:57,466 --> 00:11:59,993 und es fühlt sich sehr nah an. 233 00:11:59,994 --> 00:12:02,834 Aber gelegentlich müssen wir daran denken, einen Schritt zurückzutreten, 234 00:12:02,835 --> 00:12:04,951 auch wenn das, was wir tun 235 00:12:06,231 --> 00:12:08,831 sich manchmal sogar banal anfühlen kann, 236 00:12:10,091 --> 00:12:12,051 aber die Arbeit, die wir tun, ist äußerst wichtig. 237 00:12:13,010 --> 00:12:15,665 Das ist meiner Meinung nach, der absolut beste Weg, 238 00:12:15,666 --> 00:12:18,861 wie wir gefährdete Sprachen unterstützen können 239 00:12:18,862 --> 00:12:21,487 und sicherstellen, dass die sprachliche Vielfalt des Planeten 240 00:12:21,488 --> 00:12:25,730 bis zum Ende dieses Jahrhunderts oder länger bewahrt wird. 241 00:12:26,444 --> 00:12:29,643 Es ist durchaus möglich, dass die Arbeit, die wir heute tun, 242 00:12:29,644 --> 00:12:31,593 darin resultieren kann, 243 00:12:31,594 --> 00:12:35,100 dass Sprachen erhalten und weitergegeben werden, 244 00:12:35,206 --> 00:12:36,966 und nicht aussterben. 245 00:12:38,527 --> 00:12:40,604 Also, nur zur Erinnerung, 246 00:12:40,605 --> 00:12:43,206 wenn Sie an Ihrem Computer herumsitzen, 247 00:12:43,207 --> 00:12:44,479 einen Eintrag bearbeiten, 248 00:12:44,480 --> 00:12:49,706 und die Datenform einer kleinen Minderheitensprache 249 00:12:49,707 --> 00:12:51,796 für jedes einzelne Substantiv hinzufügen, 250 00:12:51,800 --> 00:12:54,576 die kleine Sache, die Sie gerade machen, 251 00:12:54,577 --> 00:12:57,528 könnte tatsächlich teilweise dafür verantwortlich sein, 252 00:12:57,533 --> 00:12:59,154 sicherzustellen, dass die Sprache 253 00:12:59,155 --> 00:13:01,155 bis zum Ende des Jahrhunderts oder länger überlebt. 254 00:13:02,591 --> 00:13:03,702 Ich danke Ihnen sehr, 255 00:13:03,703 --> 00:13:05,717 und ich möchte die Fragerunde eröffnen. 256 00:13:06,222 --> 00:13:08,373 (Beifall) 257 00:13:23,688 --> 00:13:24,806 (Person 1) Vielen Dank. 258 00:13:24,806 --> 00:13:26,891 - Danke für Ihren Vortrag. - (Yang) Ich danke Ihnen. 259 00:13:26,891 --> 00:13:28,933 (Person 1) Ich habe eine Frage zu den Wörterbüchern. 260 00:13:28,890 --> 00:13:31,268 Sie sagten, dass Sie mit gedruckten Wörterbüchern arbeiten? 261 00:13:31,268 --> 00:13:32,935 - (Yang) Ja. - (Person 1) Meine Frage ist, 262 00:13:32,858 --> 00:13:34,508 was nehmen Sie aus diesen Wörterbüchern 263 00:13:34,511 --> 00:13:38,221 und müssen Sie sich mit dem Urheberrecht befassen? 264 00:13:38,222 --> 00:13:41,139 (Yang) Ich habe erwartet, dass dies die erste Frage ist, die ich bekomme. 265 00:13:41,139 --> 00:13:42,826 (Gelächter) 266 00:13:42,827 --> 00:13:46,357 Also, zunächst einmal für PanLex, 267 00:13:46,358 --> 00:13:50,244 haben wir, gemäß unserer rechtlichen Ressourcen, die wir konsultiert haben, 268 00:13:52,734 --> 00:13:57,465 ist die Anordnung und Organisation eines Wörterbuchs urheberrechtsfähig, 269 00:13:57,466 --> 00:14:03,260 die Übersetzung selbst wird nicht als urheberrechtsfähig angesehen. 270 00:14:04,170 --> 00:14:05,807 Ein gutes Beispiel ist zum Beispiel 271 00:14:05,808 --> 00:14:10,525 ein Telefonbuch, zumindest nach US-Recht, 272 00:14:10,956 --> 00:14:11,964 ist urheberrechtsfähig. 273 00:14:11,965 --> 00:14:13,174 Aber wenn man sagt, 274 00:14:13,199 --> 00:14:16,799 dass die Telefonnummer von Person X die Ziffer D ist, 275 00:14:16,800 --> 00:14:18,360 ist das nicht urheberrechtsfähig. 276 00:14:21,666 --> 00:14:23,443 Also, wie ich schon sagte, 277 00:14:23,444 --> 00:14:25,310 laut unseren Rechtswissenschaftlern, 278 00:14:25,311 --> 00:14:27,332 können wir so damit umgehen. 279 00:14:27,333 --> 00:14:28,504 Aber selbst wenn das nicht 280 00:14:28,529 --> 00:14:30,665 ein ausreichend solides rechtliches Argument ist, 281 00:14:30,666 --> 00:14:32,062 ist es wichtig, 282 00:14:32,063 --> 00:14:36,127 dass die große Mehrheit dieser Daten 283 00:14:36,152 --> 00:14:40,529 nicht urheberrechtlich geschützt ist. 284 00:14:40,530 --> 00:14:42,970 Eine große Anzahl sind nicht mehr urheberrechtlich geschützt 285 00:14:42,971 --> 00:14:44,332 und kann somit verwendet werden. 286 00:14:44,333 --> 00:14:46,783 Und die andere Sache ist, dass zum Beispiel oft, 287 00:14:47,287 --> 00:14:49,618 wenn wir mit ein kürzlich erstellten gedruckten Wörterbuch, 288 00:14:49,643 --> 00:14:51,576 anstatt es zu scannen und mit OCR zu verarbeiten, 289 00:14:51,577 --> 00:14:53,438 schicken wir der Person einfach eine E-Mail. 290 00:14:53,439 --> 00:14:56,392 Und es stellt sich heraus, dass die meisten Linguisten 291 00:14:56,393 --> 00:14:59,584 wirklich begeistert sind, dass ihre Daten zugänglich gemacht werden können. 292 00:14:59,600 --> 00:15:01,266 Und sie sagen: "Sicher, bitte, 293 00:15:01,267 --> 00:15:03,827 stellen Sie einfach alles da rein, und machen Sie es zugänglich". 294 00:15:05,533 --> 00:15:08,423 Wie ich also sagte, haben wir, zumindest nach unseren Rechtsgutachten, 295 00:15:08,424 --> 00:15:11,176 die Fähigkeit, aber selbst wenn Ihnen das nicht reicht, 296 00:15:11,177 --> 00:15:15,644 ist es sehr leicht, diese Daten öffentlich zugänglich zu machen. 297 00:15:26,288 --> 00:15:28,469 - (Person 2) Vielen Dank. Hallo. - (Yang) Hallo. 298 00:15:28,470 --> 00:15:30,575 (Person 2) Können Sie etwas mehr dazu sagen, 299 00:15:30,600 --> 00:15:35,000 wie eine Person, die Niedersorbisch spricht, auf die Daten zugreift? 300 00:15:35,031 --> 00:15:38,355 Wie zum Beispiel speziell, wie die Informationen zu ihnen gelangt, 301 00:15:38,357 --> 00:15:40,976 und wie Sie dazu beitragen könnte, sie zu überzeugen 302 00:15:40,977 --> 00:15:42,163 um entweder die-– 303 00:15:42,164 --> 00:15:44,711 (Yang) Großartige Frage, und das ist eigentlich eine, 304 00:15:44,712 --> 00:15:46,265 über die ich auch sehr viel nachdenke, 305 00:15:46,280 --> 00:15:49,773 denn ich denke, wenn wir über den Datenzugang sprechen, 306 00:15:50,270 --> 00:15:53,070 gibt es tatsächlich mehrere Schritte. 307 00:15:53,073 --> 00:15:56,273 Eine davon ist die Datenerhaltung, dass die Daten nicht verschwinden. 308 00:15:56,298 --> 00:15:58,921 Zweitens ist es sicherzustellen, dass es interoperabel ist 309 00:15:59,177 --> 00:16:01,843 und verwendet werden kann. 310 00:16:01,844 --> 00:16:05,370 Und drittens ist sicherzustellen, dass es verfügbar ist. 311 00:16:05,631 --> 00:16:07,332 Also im Fall von PanLex, 312 00:16:07,333 --> 00:16:09,754 haben wir eine API, die verwendet werden kann, 313 00:16:09,755 --> 00:16:11,887 aber nicht von einem Endnutzer verwendet werden kann. 314 00:16:11,888 --> 00:16:14,847 Aber wir haben auch Schnittstellen entwickelt. 315 00:16:15,112 --> 00:16:19,684 Und zum Beispiel, wenn Sie auf *translate.panlex.org* gehen, 316 00:16:19,728 --> 00:16:22,710 können Sie Übersetzungen in unserer Datenbank vornehmen. 317 00:16:22,711 --> 00:16:25,864 Wenn Sie mit der API herumspielen wollen, gehen Sie einfach auf *Dev.panlex.org* 318 00:16:25,866 --> 00:16:28,066 und Sie können auf der API eine Reihe von Dingen finden, 319 00:16:28,090 --> 00:16:29,246 oder einfach *api.panlex.org*. 320 00:16:30,760 --> 00:16:32,560 Aber es gibt auch noch einen weiteren Schritt, 321 00:16:32,561 --> 00:16:36,702 das heißt, wenn Sie alle Ihre Daten vollständig zugänglich machen, 322 00:16:36,719 --> 00:16:40,559 mit Werkzeugen, die sehr nützlich sind, um darauf zugreifen zu können, 323 00:16:41,210 --> 00:16:43,130 wenn Sie die Werkzeuge nicht wirklich promoten, 324 00:16:43,145 --> 00:16:45,065 dann werden die Leute sie nicht benutzen können. 325 00:16:45,066 --> 00:16:47,177 Und das ist ehrlich gesagt eine Art... 326 00:16:48,827 --> 00:16:51,043 die Sache, über die nicht genug geredet wird, 327 00:16:51,044 --> 00:16:52,954 und ich habe keine gute Antwort darauf. 328 00:16:52,955 --> 00:16:54,800 Wie stellen wir sicher, dass – 329 00:16:55,022 --> 00:16:56,932 Zum Beispiel, ich habe mich erst vor kurzem, 330 00:16:56,933 --> 00:16:59,646 noch vor wenigen Jahren mit Wikidata vertraut gemacht, 331 00:16:59,647 --> 00:17:02,463 und es ist genau die Art von Dingen, die mich interessieren. 332 00:17:02,970 --> 00:17:07,176 Also, wie promoten wir uns selbst gegenüber anderen? 333 00:17:07,177 --> 00:17:08,779 Ich lasse das als offene Frage stehen. 334 00:17:08,780 --> 00:17:10,799 Wie gesagt, ich habe keine gute Antwort dafür. 335 00:17:10,800 --> 00:17:12,887 Aber natürlich, um das zu tun, 336 00:17:12,888 --> 00:17:14,880 müssen wir noch erste Schritte machen. 337 00:17:22,133 --> 00:17:24,776 (Person 3) Wenn wir maschinelle Übersetzung wollen, 338 00:17:24,777 --> 00:17:27,822 brauchen wir nicht ein Translation Memory? 339 00:17:27,827 --> 00:17:30,665 Ich bin mir nicht sicher, ob die einzelnen Wörter, 340 00:17:30,666 --> 00:17:32,917 die wir in Wikidata eingestellt haben, 341 00:17:32,918 --> 00:17:36,557 oder diese kurzen Sätze, die wir in Wikidata eingestellt haben, 342 00:17:36,558 --> 00:17:41,129 entweder als gewöhnliche Wikidata-Elemente oder als Wikidata-Lexeme, 343 00:17:41,130 --> 00:17:43,953 ausreichend sind, um eine korrekte Übersetzung zu machen. 344 00:17:43,955 --> 00:17:46,600 Wir brauchen ganze Sätze, zum Beispiel, für – 345 00:17:46,772 --> 00:17:48,320 (Yang) Ja, absolut. 346 00:17:48,577 --> 00:17:51,421 (Person 3) Und woher bekommen wir diese Datenstruktur? 347 00:17:51,422 --> 00:17:55,176 Ich bin mir nicht sicher, ob das derzeit der Fall ist, 348 00:17:55,177 --> 00:17:59,532 Wikidata kann sehr gut 349 00:17:59,533 --> 00:18:03,066 mit dem Problem eines Übersetzungsspeichers umgehen, 350 00:18:04,300 --> 00:18:05,940 *translatewiki.net*, 351 00:18:05,965 --> 00:18:09,490 diese Lücke zu füllen... 352 00:18:12,111 --> 00:18:14,993 Sollten wir etwas in dieser Hinsicht tun, oder sollten wir-– 353 00:18:15,000 --> 00:18:17,133 (Yang) Ja, und ich weiß, Ihre Frage zu schätzen. 354 00:18:17,135 --> 00:18:18,714 Ich habe das schon einmal angesprochen, 355 00:18:18,739 --> 00:18:20,619 aber ich würde es gerne noch einmal wiederholen. 356 00:18:21,356 --> 00:18:24,954 Genau das ist der Grund, dass PanLex mit lexikalischen Daten arbeitet 357 00:18:24,955 --> 00:18:27,029 und warum ich mich über lexikalische Daten freue, 358 00:18:27,030 --> 00:18:29,934 im Gegensatz zu – nicht im Gegensatz zu, sondern zusätzlich 359 00:18:29,935 --> 00:18:32,285 zu maschinellen Übersetzungsmaschinen 360 00:18:32,310 --> 00:18:35,231 und maschineller Übersetzung im Allgemeinen. 361 00:18:35,900 --> 00:18:39,200 Wie Sie sagten, maschinelle Übersetzung erfordert eine bestimmte Art von Daten 362 00:18:39,740 --> 00:18:43,123 und keine Daten sind verfügbar für die meisten Sprachen der Welt. 363 00:18:43,124 --> 00:18:44,965 Für die große Mehrheit der Sprachen der Welt 364 00:18:44,966 --> 00:18:46,549 ist es einfach nicht verfügbar. 365 00:18:46,550 --> 00:18:48,430 Aber das heißt nicht, dass wir aufgeben sollten. 366 00:18:48,447 --> 00:18:49,627 Warum? 367 00:18:51,260 --> 00:18:54,444 Wenn ich meine türkische Speisekarte übersetzen müsste, 368 00:18:54,755 --> 00:18:56,488 dann wird die lexikalische Übersetzung 369 00:18:56,513 --> 00:18:59,359 wahrscheinlich ein außergewöhnlich gutes Werkzeug dafür sein. 370 00:18:59,360 --> 00:19:01,680 Nun, ich sage nicht, dass Sie die lexikalische Übersetzung 371 00:19:01,681 --> 00:19:04,589 zur perfekten Übersetzung von Absätzen verwenden können, 372 00:19:04,600 --> 00:19:06,865 Mit lexikalischer Übersetzung meine ich Wort für Wort, 373 00:19:06,866 --> 00:19:09,670 und Wort-zu-Wort-Übersetzung kann äußerst nützlich sein, 374 00:19:12,231 --> 00:19:13,787 Es ist lustig, darüber nachzudenken, 375 00:19:13,788 --> 00:19:16,622 wir hatten nicht Zugang zu guter maschineller Übersetzung. 376 00:19:16,623 --> 00:19:20,190 Nicht jeder hatte Zugang dazu bis vor kurzem. 377 00:19:20,191 --> 00:19:23,648 Und wir kamen immer noch mit Wörterbüchern aus, 378 00:19:23,649 --> 00:19:27,687 und sie sind eine unglaublich gute Ressource. 379 00:19:28,311 --> 00:19:30,951 Und die Daten sind verfügbar, warum sollte man sie nicht 380 00:19:30,956 --> 00:19:34,396 für die Welt als Ganzes und die Sprecher dieser Sprachen verfügbar machen? 381 00:19:36,422 --> 00:19:38,665 (Person 4) Hallo, welche Mechanismen haben Sie 382 00:19:38,666 --> 00:19:40,706 wenn die Gemeinschaft selbst – ich bin hier drüben. 383 00:19:40,707 --> 00:19:43,374 - (Yang) Wo sind Sie? Okay - (Person 4) Ja, Entschuldigung. (lacht) 384 00:19:43,302 --> 00:19:44,576 wenn die Gemeinschaft selbst 385 00:19:44,577 --> 00:19:47,319 keinen Teil ihrer Daten in PanLex haben möchte? 386 00:19:47,320 --> 00:19:48,932 (Yang) Großartige Frage. 387 00:19:48,933 --> 00:19:51,954 Die Art und Weise, wie wir damit arbeiten, 388 00:19:51,955 --> 00:19:54,436 ist, wenn ein Wörterbuch veröffentlicht wird 389 00:19:54,461 --> 00:19:56,381 und der Öffentlichkeit zugänglich gemacht wird, 390 00:19:56,382 --> 00:19:58,132 ist das ein guter Hinweis. 391 00:19:58,133 --> 00:20:00,442 Als ob man es in einem Geschäft kaufen könnte 392 00:20:00,467 --> 00:20:02,399 oder in einer Universitätsbibliothek, 393 00:20:02,400 --> 00:20:04,689 oder eine öffentliche Bibliothek, zu der jeder Zugang hat. 394 00:20:04,690 --> 00:20:08,079 Das ist ein guter Hinweis, dass diese Entscheidung getroffen wurde. 395 00:20:08,080 --> 00:20:11,577 (Person 4) [unhörbar] 396 00:20:15,760 --> 00:20:18,305 (Person 5) Könnten Sie bitte in das Mikrofon sprechen? 397 00:20:18,775 --> 00:20:20,457 (Yang) Können Sie das noch einmal sagen? 398 00:20:20,458 --> 00:20:23,306 (Person 4) Linguisten haben nicht immer die Erlaubnis der Gesellschaft, 399 00:20:23,307 --> 00:20:24,386 Dinge zu veröffentlichen, 400 00:20:24,387 --> 00:20:27,532 sie veröffentlichen oft Dinge ohne die Zustimmung der Gemeinschaft. 401 00:20:27,533 --> 00:20:29,576 (Yang) Und das ist absolut wahr. 402 00:20:29,577 --> 00:20:32,532 Ich würde sagen, das ist ein – 403 00:20:32,533 --> 00:20:33,914 es kommt vor. 404 00:20:33,915 --> 00:20:36,755 Ich würde sagen, es ist allgemein eine kleine Zahl von Fällen, 405 00:20:36,770 --> 00:20:40,954 meist in ganz Nordamerika, 406 00:20:40,955 --> 00:20:43,355 obwohl manchmal auch bei südamerikanischen Sprachen. 407 00:20:44,680 --> 00:20:46,480 Es ist etwas, dass wir berücksichtigen müssen. 408 00:20:46,488 --> 00:20:49,287 Wenn wir zum Beispiel eine Nachricht erhalten würden, 409 00:20:49,288 --> 00:20:52,376 dass die Daten, die in PanLex enthalten sind, 410 00:20:52,377 --> 00:20:56,275 nicht für weite Welt zugänglich sein sollte, 411 00:20:56,320 --> 00:20:57,920 dann würden wir sie natürlich entfernen. 412 00:20:57,936 --> 00:20:58,976 (Person 4) Gut. 413 00:21:00,960 --> 00:21:02,436 (Yang) Das bedeutet natürlich nicht, 414 00:21:02,436 --> 00:21:04,479 dass wir das Urheberrecht unbedingt berücksichtigen, 415 00:21:04,479 --> 00:21:06,800 aber wir werden die traditionellen Gemeinschaften beachten, 416 00:21:06,800 --> 00:21:08,160 und das ist der große Unterschied. 417 00:21:08,161 --> 00:21:10,252 (Person 4) Ja, das meine ich damit. 418 00:21:15,022 --> 00:21:16,754 (Yang) Das ist ein interessanter Punkt, 419 00:21:16,755 --> 00:21:18,350 was heißt, 420 00:21:18,844 --> 00:21:21,020 dass manchmal es eine wirklich große Frage ist, 421 00:21:21,020 --> 00:21:23,000 wer für eine Sprache spricht. 422 00:21:23,000 --> 00:21:27,680 Ich hatte tatsächlich einige Erlebnisse im amerikanischen Südwesten 423 00:21:27,690 --> 00:21:29,770 bei der Arbeit mit einigen Gruppen, 424 00:21:29,800 --> 00:21:32,336 die an Eingeborenen-Sprachen, die Pueblo-Sprachen dort arbeiten. 425 00:21:36,053 --> 00:21:37,413 Es gibt also ungefähr 426 00:21:37,430 --> 00:21:40,226 sechs Pueblo-Sprachen, je nachdem, wie Sie es unterscheiden, 427 00:21:40,227 --> 00:21:41,954 die in diesem Gebiet gesprochen werden. 428 00:21:41,955 --> 00:21:44,035 Aber sie sind in 18 verschiedenen Pueblos unterteilt, 429 00:21:44,280 --> 00:21:47,025 und jedes hat seine eigene Stammesregierung, 430 00:21:47,066 --> 00:21:50,021 und jede Regierung kann eine andere Meinung haben, 431 00:21:50,022 --> 00:21:54,007 ob ihre Sprache für Außenstehende zugänglich sein sollte oder nicht. 432 00:21:56,626 --> 00:21:58,169 Wie zum Beispiel Zuni Pueblo, 433 00:21:58,170 --> 00:22:01,472 ist das einzige Pueblo, das die Sprache der Zuni spricht. 434 00:22:01,692 --> 00:22:02,692 Man fragt sie einfach. 435 00:22:02,723 --> 00:22:05,273 Und sie sind stolz darauf, dass ihre Sprache überall sein wird, 436 00:22:05,274 --> 00:22:07,693 Sie haben es auf den Straßenschildern, es ist großartig. 437 00:22:07,694 --> 00:22:10,637 Aber für einige der anderen Sprachen, 438 00:22:10,644 --> 00:22:12,499 haben Sie vielleicht eine Gruppe, die sagt, 439 00:22:12,920 --> 00:22:15,866 "Wir wollen nicht unsere Sprache für Außenstehende zugänglich machen". 440 00:22:15,871 --> 00:22:18,837 Das benachbarte Pueblo mit der gleichen Sprache sagt, 441 00:22:18,838 --> 00:22:21,665 "Wir wollen wirklich unsere Sprache für Außenstehende 442 00:22:21,666 --> 00:22:24,087 durch diese technologischen Werkzeuge zugänglich machen, 443 00:22:24,088 --> 00:22:26,559 weil wir wollen, dass unsere Sprache weiterexistiert". 444 00:22:26,560 --> 00:22:29,487 Und es wirft eine wirklich interessante ethische Frage auf. 445 00:22:29,488 --> 00:22:31,650 Denn wenn Sie einfach sagen, 446 00:22:31,651 --> 00:22:34,621 "Gut, ich lasse das, weil diese Gruppe sagte, wir sollen das lassen" – 447 00:22:34,622 --> 00:22:36,710 dann benachteiligen sie die zweite Gruppe, 448 00:22:36,711 --> 00:22:39,359 weil sie aktiv wollen, dass Sie diese Dinge ausschließen. 449 00:22:39,360 --> 00:22:42,754 Ich glaube nicht, dass dies eine Frage mit einer einfacher Antwort ist. 450 00:22:42,755 --> 00:22:44,954 Aber ich würde das zumindest in Bezug auf PanLex sagen. 451 00:22:44,955 --> 00:22:48,937 Und wir haben das tatsächlich bisher noch nicht erlebt, 452 00:22:48,938 --> 00:22:50,138 soweit ich weiß. 453 00:22:50,933 --> 00:22:52,920 Nun, das könnte teilweise daran liegen, dass... 454 00:22:53,666 --> 00:22:55,545 Um auf seine Frage zurückzukommen, 455 00:22:55,546 --> 00:22:57,782 müssten wir uns vielleicht mehr promoten. (lacht) 456 00:22:58,660 --> 00:23:02,154 Aber im Allgemeinen, soweit ich weiß, 457 00:23:02,155 --> 00:23:04,487 ist das bisher noch nicht passiert. 458 00:23:04,488 --> 00:23:08,359 Aber unser Plan dafür ist, wenn eine Gemeinschaft sagt, 459 00:23:08,384 --> 00:23:10,694 dass Sie nicht ihre Daten in einer Datenbank haben will, 460 00:23:10,694 --> 00:23:11,735 dann entfernen wir sie. 461 00:23:11,735 --> 00:23:14,277 (Person 4) Wir müssen damit in Wikidata und Wikipedia umgehen... 462 00:23:14,198 --> 00:23:16,198 - (Yang) Haben Sie? - (Person 4) ...in Kommentaren. 463 00:23:16,140 --> 00:23:18,016 - (Yang) Echt? - (Person 4) Es ist ein Problem. 464 00:23:17,926 --> 00:23:21,207 (Yang) Ja, kann ich mir bei Kommentaren für Fotos oder bestimmte Dinge vorstellen. 465 00:23:21,207 --> 00:23:22,530 - (Person 4) Korrekt. - (Yang) Ja. 466 00:23:27,177 --> 00:23:33,170 (Person 6) Hallo, ich habe eine Frage zum Crowdsourcing-Aspekt. 467 00:23:34,087 --> 00:23:36,644 Was das Befragen einer Gemeinschaft betrifft, 468 00:23:36,654 --> 00:23:40,479 um Daten für einen Datensatz zu kommentieren oder hinzuzufügen, 469 00:23:40,504 --> 00:23:44,224 eines der Dinge, dass ein wenig einschüchtert, 470 00:23:44,711 --> 00:23:49,243 als Redakteur kann ich nur sehen, welche Dinge fehlen. 471 00:23:49,244 --> 00:23:53,242 Aber wenn ich Zeit damit verbringe und eine Idee habe, 472 00:23:53,573 --> 00:23:56,663 gibt es eine Liste von Gegenständen mit hoher Priorität, 473 00:23:57,755 --> 00:24:01,198 was, glaube ich, sehr motivierend ist. 474 00:24:01,200 --> 00:24:04,221 Und ich war neugierig, ob Sie ein System haben, 475 00:24:04,222 --> 00:24:05,517 was im Wesentlichen so ist wie, 476 00:24:05,542 --> 00:24:07,865 wir kennen die Lücken in unseren eigenen Daten, 477 00:24:07,866 --> 00:24:10,946 wir haben linguistische Beweise, 478 00:24:10,953 --> 00:24:15,513 dass, wenn wir diese mit Anmerkungen versehen, den größten Einfluss hätten. 479 00:24:15,530 --> 00:24:17,152 Ich kann mir also vorstellen, 480 00:24:18,202 --> 00:24:21,404 dass das Lexem für "Haus" sehr wirkungsvoll wäre, 481 00:24:21,405 --> 00:24:24,976 vielleicht kein Lexem für Daten oder Ähnliches. 482 00:24:25,000 --> 00:24:28,970 Aber ich war neugierig, wenn Sie das hätten, 483 00:24:30,217 --> 00:24:32,642 ob das verwendet werden könnte, 484 00:24:32,667 --> 00:24:35,504 um diese Bemühungen der Gemeinschaft voranzutreiben. 485 00:24:35,840 --> 00:24:37,066 (Yang) Großartige Frage. 486 00:24:37,200 --> 00:24:41,215 Also Wikidata hat eine ganze Menge – 487 00:24:41,216 --> 00:24:44,665 Entschuldigung, PanLex hat eine ganze Menge von Swadesh-Listen. 488 00:24:44,666 --> 00:24:47,510 Wir haben offenbar die größte Sammlung von Swadesh-Listen weltweit, 489 00:24:47,511 --> 00:24:48,554 was interessant ist. 490 00:24:48,555 --> 00:24:50,211 Eine Swadesh-Liste ist 491 00:24:50,212 --> 00:24:56,243 im Wesentlichen eine regulierte Liste lexikalischer Elemente, 492 00:24:56,244 --> 00:25:00,039 die für die Analyse von Sprachen verwendet werden können. 493 00:25:00,040 --> 00:25:02,729 Sie enthalten wirklich grundlegende Sätze. 494 00:25:02,730 --> 00:25:05,002 Es gibt also verschiedenen Arten von Swadesh-Listen. 495 00:25:05,003 --> 00:25:07,327 Aber es gibt 100 oder 213 Einheiten 496 00:25:07,352 --> 00:25:12,632 und sie könnten Wörter wie "Haus" und "Auge" und "Haut" enthalten, 497 00:25:12,637 --> 00:25:16,077 und grundsätzlich allgemeine Wörter, die Sie in jeder Sprache finden sollten. 498 00:25:16,088 --> 00:25:19,709 Das ist also wirklich ein guter Ausgangspunkt dafür, 499 00:25:19,734 --> 00:25:22,734 dass diese Daten zur Verfügung stehen. 500 00:25:29,090 --> 00:25:31,126 Nun, wie ich bereits erwähnt habe, 501 00:25:31,133 --> 00:25:33,599 Crowdsourcing ist etwas, was wir noch nicht tun 502 00:25:33,600 --> 00:25:36,065 und wir sind wirklich begeistert, das machen zu können. 503 00:25:36,066 --> 00:25:38,992 Ich freue mich wirklich darauf, mit Menschen hier darüber zu sprechen, 504 00:25:38,993 --> 00:25:42,981 wie Crowdsourcing genutzt werden kann 505 00:25:42,982 --> 00:25:45,931 und die Logistik dahinter, 506 00:25:46,200 --> 00:25:48,867 und das sind die Art von Fragen, die dabei auftauchen können. 507 00:25:51,288 --> 00:25:53,399 Die Antwort, die ich Ihnen geben kann, 508 00:25:53,400 --> 00:25:55,375 dass wir eine Prioritätenliste haben – 509 00:25:55,376 --> 00:25:57,683 dass wir definitiv eine Prioritätenliste haben, 510 00:25:57,684 --> 00:25:59,729 wenn es darum geht, welche Sprachen wir suchen. 511 00:25:59,730 --> 00:26:02,837 Wir suchen also nach Sprachen, die von technologischen Lösungen 512 00:26:02,862 --> 00:26:06,976 derzeit nicht berücksichtigt werden, was oft Minderheitensprachen sind, 513 00:26:06,977 --> 00:26:09,279 oder in der Regel Minderheitensprachen, 514 00:26:09,280 --> 00:26:12,096 und diese dann zu priorisieren. 515 00:26:13,916 --> 00:26:16,844 Aber in Bezug auf einzelne lexikalische Elemente, 516 00:26:16,851 --> 00:26:20,243 wie wir im Allgemeinen neue Daten erhalten, 517 00:26:20,244 --> 00:26:22,976 ist im Wesentlichen durch die Aufnahme eines ganzen Wörterbuchs. 518 00:26:22,977 --> 00:26:27,607 Wir verlassen uns auf die Auswahl von lexikalischen Elementen des Wörterbuchs, 519 00:26:27,632 --> 00:26:31,499 anstatt zu sagen, wir suchen wirklich das Wort für "Haus" in jeder Sprache. 520 00:26:31,500 --> 00:26:34,999 Aber wenn es um Daten-Crowdsourcing geht, werden wir so etwas brauchen. 521 00:26:35,000 --> 00:26:37,912 Dies ist also eine Gelegenheit für Forschung und Wachstum. 522 00:26:40,044 --> 00:26:43,088 (Person 7) Hallo, ich bin Victor, und das ist großartig. 523 00:26:45,108 --> 00:26:46,887 Da Sie hier Folien haben, 524 00:26:46,888 --> 00:26:49,354 können Sie ein bisschen über den technischen Status reden, 525 00:26:49,355 --> 00:26:53,035 ob Sie derzeit Daten- oder Informationsfluss 526 00:26:53,042 --> 00:26:57,002 zwischen Wikidata und PanLex haben. 527 00:26:57,022 --> 00:27:03,622 Ist das derzeit bereits implementiert, und wie gehen Sie mit Informationen um, 528 00:27:03,626 --> 00:27:06,266 die zwischen PanLex und Wikidata hin und her wandern, 529 00:27:06,267 --> 00:27:09,940 oder in einer Feedbackschleife enden. 530 00:27:09,950 --> 00:27:13,732 (Yang) Wir haben eigentlich derzeit keine formelle Verbindungen zu Wikidata, 531 00:27:13,733 --> 00:27:15,342 und das ist, wo ich wieder 532 00:27:15,343 --> 00:27:17,983 wirklich gespannt auf die Gespräche innerhalb dieser Konferenz bin. 533 00:27:17,984 --> 00:27:20,640 Wir hatten einige Interaktionen mit Wiktionary, 534 00:27:21,760 --> 00:27:26,741 aber Wikidata passt, ehrlich gesagt, besser zum dem, was wir suchen. 535 00:27:27,355 --> 00:27:29,200 Direktes lexikalisches Material bedeutet, 536 00:27:29,201 --> 00:27:32,321 dass wir sehr viel weniger Datenanalyse und -extraktion machen müssen, 537 00:27:32,933 --> 00:27:34,608 Und deshalb lautet die Antwort, 538 00:27:34,633 --> 00:27:37,147 wir wissen es noch nicht, aber wir wollen es. 539 00:27:37,148 --> 00:27:39,799 (Person 7) Und wenn nicht, was sind die Hindernisse? 540 00:27:39,800 --> 00:27:43,510 Wie wir sehen können, unterstützt Wikidata bereits mehrere Sprachen, 541 00:27:43,511 --> 00:27:46,532 aber wenn ich *translate.panlex.org*, nachschlage, 542 00:27:46,533 --> 00:27:49,310 unterstützen Sie offenbar viele, viele Varianten, 543 00:27:49,311 --> 00:27:50,887 viel mehr als Wikidata. 544 00:27:50,888 --> 00:27:53,315 Wie erkennen Sie, ob da eine Lücke 545 00:27:53,316 --> 00:27:57,176 zwischen Übersetzung oder lexikalische Übersetzung ist, 546 00:27:57,177 --> 00:28:00,154 Anwendung versus Aufwand, 547 00:28:00,155 --> 00:28:03,776 beim Versuch, eine Wissensstruktur abzubilden. 548 00:28:03,777 --> 00:28:05,975 (Yang) Mapping-Kenntnisse werden sehr interessant sein. 549 00:28:05,975 --> 00:28:07,906 Wir haben sehr interessante Diskussionen, 550 00:28:07,907 --> 00:28:13,776 wie Wikidata ihre lexikalischen Daten organisiert, Ihre lexikalischen Daten, 551 00:28:13,777 --> 00:28:16,043 und wie wir unsere lexikalischen Daten organisieren. 552 00:28:16,044 --> 00:28:18,076 Und es gibt subtile Unterschiede 553 00:28:18,101 --> 00:28:20,957 die eine Mapping-Strategie erfordern würde, 554 00:28:21,460 --> 00:28:24,576 von denen einige nicht notwendigerweise automatisch sein müssten, 555 00:28:24,577 --> 00:28:27,421 aber wir könnten vielleicht Techniken dafür entwickeln. 556 00:28:27,422 --> 00:28:30,382 Sie nannten das Beispiel der Sprachvarianten. 557 00:28:30,386 --> 00:28:32,746 Wir neigen dazu, sehr "haarspalterisch" zu sein, 558 00:28:32,755 --> 00:28:34,110 wenn es um Sprachvarianten geht. 559 00:28:34,111 --> 00:28:36,310 Mit anderen Worten, wenn wir eine Quelle erhalten, 560 00:28:36,311 --> 00:28:38,754 die sagt, dass dies der gesprochene Dialekt 561 00:28:38,755 --> 00:28:41,694 auf der linken Seite des Flusses in Papua-Neuguinea dieser Sprache ist, 562 00:28:41,695 --> 00:28:44,954 und eine weitere Quelle, die sagt, das ist auf der rechten Seite des Flusses, 563 00:28:44,955 --> 00:28:46,719 betrachten wir sie als getrennte Sprachen. 564 00:28:46,720 --> 00:28:51,072 Und wir machen dies, um im Wesentlichen die meisten Daten erhalten zu können. 565 00:28:52,200 --> 00:28:54,332 Das so abzubilden, wie Wikidata es macht – 566 00:28:54,355 --> 00:28:56,937 Eigentlich würde ich gerne Gespräche führen, 567 00:28:56,960 --> 00:29:00,738 wie die Sprachen 568 00:29:00,840 --> 00:29:06,240 auf Wikidata gekennzeichnet sind. 569 00:29:08,145 --> 00:29:12,320 Auch hier gehen wir mit einer sehr "haarspalterischen" Strategie vor. 570 00:29:13,856 --> 00:29:17,656 Wir stützen uns weitgehend auf ISO 6393-Codes, 571 00:29:17,676 --> 00:29:19,636 der vom Ethnologen bereitgestellt wird, 572 00:29:19,643 --> 00:29:23,839 und dann für jeden einzelnen Code sind dann mehrere Varianten erlaubt, 573 00:29:23,840 --> 00:29:27,784 entweder für Skript-Varianten oder regionale Dialekte oder Soziolekte 574 00:29:27,809 --> 00:29:29,122 und so weiter. 575 00:29:30,240 --> 00:29:32,762 Nochmals, Gelegenheit zur Diskussion und Arbeit. 576 00:29:35,622 --> 00:29:39,465 (Person 8) Hallo, ich würde gerne wissen wenn Sie eine OCR-Pipeline haben 577 00:29:39,466 --> 00:29:44,532 und vor allem, weil wir versucht haben, OCR bei Maya durchzuführen, 578 00:29:44,533 --> 00:29:47,928 und keine Ergebnisse erhalten haben. 579 00:29:47,933 --> 00:29:49,932 Es versteht nichts – 580 00:29:49,933 --> 00:29:52,511 - (Yang) Oh, ja! (lacht) - (Person 8) Und... ja. 581 00:29:52,512 --> 00:29:56,077 Wenn also Ihre Pipelines verfügbar sind. 582 00:29:56,078 --> 00:30:00,287 Und das andere ist einfach eine ISO-Code-Überschneidung, 583 00:30:00,288 --> 00:30:01,640 wenn man manchmal sagt, 584 00:30:01,641 --> 00:30:04,198 "Oh, das ist eine Sprache, und dies ist eine andere Sprache", 585 00:30:04,199 --> 00:30:06,554 aber es gibt Quellen, die andere Dinge sagen, 586 00:30:06,555 --> 00:30:10,132 wie Sie bereits erwähnten, neigen sie dazu, sich zu überschneiden. 587 00:30:10,133 --> 00:30:12,955 Also, wie machen Sie hier weiter...? Ja. 588 00:30:12,956 --> 00:30:15,154 (Yang) Ja, das ist eine absolut fantastische Frage. 589 00:30:15,155 --> 00:30:17,119 Gefällt mir wirklich. 590 00:30:17,120 --> 00:30:20,399 Wir haben also keine formalisierte OCR-Pipeline an sich; 591 00:30:20,400 --> 00:30:23,532 wir tun es Quelle für Quelle. 592 00:30:23,533 --> 00:30:26,265 Einer der Gründe dafür ist, weil wir oft Quellen haben, 593 00:30:26,266 --> 00:30:28,947 die nicht OCR-kompatibel sein müssen und für einige dieser Sprachen 594 00:30:28,972 --> 00:30:31,052 verfügbar sind, und wir konzentrieren uns auf diese, 595 00:30:31,076 --> 00:30:32,765 weil der Arbeitsaufwand geringsten ist. 596 00:30:32,766 --> 00:30:35,872 Aber natürlich, wenn wir wirklich tief in unsere Quellen eintauchen wollen, 597 00:30:35,897 --> 00:30:40,895 die in Rückstand sind, müssen wir starke OCR-Pipelines entwickeln. 598 00:30:40,896 --> 00:30:43,968 Aber es gibt noch einen weiteren Aspekt, den Sie erwähnten... 599 00:30:44,400 --> 00:30:48,576 die Leute, die OCR-Engines entwickelt haben, 600 00:30:49,088 --> 00:30:52,671 ich denke, dass sie nicht wissen, wie man sie unter Stress testen kann. 601 00:30:52,672 --> 00:30:55,180 Wissen Sie, was Spaß macht? 602 00:30:55,181 --> 00:30:57,701 Versuchen Sie mal OCR bei einem Russisch-Tibetischen Wörterbuch. 603 00:30:58,600 --> 00:31:00,480 Wie sich herausstellt, ist es wirklich schwer... 604 00:31:01,480 --> 00:31:04,000 Wir gaben auf und stellten jemanden ein, der es einfach abtippt, 605 00:31:04,022 --> 00:31:05,640 was durchaus machbar war. 606 00:31:05,641 --> 00:31:07,259 Und tatsächlich stellt sich heraus, 607 00:31:07,260 --> 00:31:10,265 dass diese erstaunliche russische Frau gelernt hatte, Tibetisch zu lesen, 608 00:31:10,266 --> 00:31:12,755 damit sie dies abtippen konnte, was super cool war. 609 00:31:15,333 --> 00:31:18,269 Ich denke, wenn Sie mit lateinischen Schriften arbeiten, 610 00:31:18,270 --> 00:31:21,708 dann denke ich, dass OCR-Lösungen entwickelt werden können, 611 00:31:21,709 --> 00:31:24,664 die robuster sind, die mit mehrsprachigen Quellen 612 00:31:24,673 --> 00:31:27,073 umgehen können und erwarten, eine zufällige Vier zu erhalten, 613 00:31:27,074 --> 00:31:29,935 wenn Sie sich mit Maya-Quellen aus dem 16. Jahrhundert befassen, 614 00:31:29,960 --> 00:31:31,653 Sie wissen schon, mit der Ziffer vier. 615 00:31:32,080 --> 00:31:37,591 Aber es gibt einige Quellen, 616 00:31:37,600 --> 00:31:40,110 die OCR wahrscheinlich niemals schaffen wird 617 00:31:40,111 --> 00:31:42,244 oder einen so immensen Arbeitsaufwand erfordert, 618 00:31:43,200 --> 00:31:46,932 dass wir das tatsächlich nur wenig nutzen. 619 00:31:46,933 --> 00:31:48,853 Wir haben ein weiteres Projekt bei PanLex laufen, 620 00:31:48,854 --> 00:31:53,532 die gesamte traditionelle Literatur von Bali zu transkribieren, 621 00:31:53,533 --> 00:31:54,988 und wir haben festgestellt, 622 00:31:55,013 --> 00:31:57,976 dass bei den handschriftlichen balinesischen Manuskripten 623 00:31:58,444 --> 00:31:59,643 keine Chance mit OCR gibt. 624 00:31:59,644 --> 00:32:02,199 Wir haben also einen Haufen der Balinesen, um sie abzutippen, 625 00:32:02,200 --> 00:32:04,999 und es ist ein wirklich cooles Kulturprojekt auf Bali, 626 00:32:05,000 --> 00:32:07,287 und es ist in die Nachrichten gekommen und so weiter. 627 00:32:07,288 --> 00:32:09,083 Ich würde also sagen, 628 00:32:09,084 --> 00:32:11,376 dass Sie sich nicht unbedingt auf OCR verlassen müssen, 629 00:32:11,377 --> 00:32:12,576 aber es gibt eine Menge. 630 00:32:12,577 --> 00:32:15,160 Gute OCR-Lösungen zu haben wäre also gut. 631 00:32:16,663 --> 00:32:20,991 Außerdem, wenn jemand hier sich mit super-mehrsprachigen-OCRs beschäftigt, 632 00:32:20,992 --> 00:32:22,635 bitte reden Sie mit mir. 633 00:32:29,517 --> 00:32:31,377 (Person 9) Vielen Dank für Ihre Präsentation. 634 00:32:32,007 --> 00:32:37,059 Sie sprachen über die Integration zwischen PanLex und Wikidata, 635 00:32:37,060 --> 00:32:38,791 aber nicht über Einzelheiten. 636 00:32:38,792 --> 00:32:42,540 Ich habe also Ihre Datenlizenz überprüft, und sie steht unter CC0. 637 00:32:42,540 --> 00:32:44,291 - (Yang) Ja. - (Person 9) Das ist großartig. 638 00:32:44,210 --> 00:32:46,376 Es gibt also zwei mögliche Wege, 639 00:32:46,377 --> 00:32:49,399 dass wir entweder die Daten importieren können 640 00:32:49,400 --> 00:32:52,776 oder wir können mit etwas Ähnlichem wie der Freebase-Methode weitermachen, 641 00:32:52,777 --> 00:32:55,687 wo wir die vollständige Datenbank aus der Freebase haben, 642 00:32:55,688 --> 00:32:59,079 und importieren, eine Verbindung herstellen, 643 00:32:59,080 --> 00:33:03,954 einen externen Identifier zur Freebase-Datenbank. 644 00:33:03,955 --> 00:33:08,396 Wenn Sie da etwas vorhaben, denken Sie da ähnlich? 645 00:33:08,397 --> 00:33:10,401 Oder Sie wollen nur... 646 00:33:15,291 --> 00:33:18,754 eine unabhängige Datenbank, die mit Wikidata verknüpft werden kann? 647 00:33:18,755 --> 00:33:20,532 (Yang) Ja, das ist eine großartige Frage 648 00:33:20,533 --> 00:33:23,281 und eigentlich den Sachen einen Schritt voraus, 649 00:33:23,282 --> 00:33:25,647 über die ich bereits nachgedacht habe, 650 00:33:25,648 --> 00:33:29,802 teilweise, weil, wie ich schon sagte, 651 00:33:29,803 --> 00:33:32,118 die Zusammenarbeit der beiden Datenbanken zu erreichen 652 00:33:32,119 --> 00:33:33,532 ist ein Schritt in sich selbst. 653 00:33:33,533 --> 00:33:35,332 Ich denke, der erste Schritt, 654 00:33:35,333 --> 00:33:37,733 ist buchstäblich nur unsere Fähigkeiten zusammenzulegen. 655 00:33:37,911 --> 00:33:40,245 Wir haben eine Menge Erfahrung mit Dingen umzugehen, 656 00:33:40,246 --> 00:33:42,655 wie der Klassifizierungen von Eigenschaften einzelner Lexeme, 657 00:33:42,656 --> 00:33:44,734 die ich gerne teilen würde. 658 00:33:45,864 --> 00:33:49,049 Aber die Verknüpfung der Datenbanken selbst wäre wunderbar. 659 00:33:49,050 --> 00:33:50,807 Ich bin zu 100 Prozent dafür. 660 00:33:50,808 --> 00:33:54,065 Ich glaube, es würde den Weg 661 00:33:54,066 --> 00:33:56,021 von Wikidata zu PanLex etwas vereinfachen, 662 00:33:56,040 --> 00:33:57,572 vielleicht bin ich voreingenommen, 663 00:33:57,650 --> 00:34:00,290 denn ich kann mir vorstellen, wie das funktionieren könnte. 664 00:34:02,040 --> 00:34:06,087 Ja, im Wesentlichen, solange Wikidata einverstanden 665 00:34:06,088 --> 00:34:09,619 mit all diesen Lizenzfragen ist, oder wir eine Lösung finden, 666 00:34:09,620 --> 00:34:12,057 dann halte ich das für eine großartige Idee. 667 00:34:13,216 --> 00:34:16,234 Wir müssten nur noch Wege zur Verknüpfung der Daten selbst finden. 668 00:34:16,235 --> 00:34:22,234 Eine Sache, die ich mir vorstellen kann, dass Bearbeitungen von Wikidata 669 00:34:22,577 --> 00:34:26,087 sofort in die PanLex-Datenbank übertragen werden, 670 00:34:26,088 --> 00:34:30,785 ohne dass man es immer wieder einspielen muss. 671 00:34:30,786 --> 00:34:35,466 Wikidata als Crowdsource-Schnittstelle für PanLex zu nutzen, 672 00:34:35,478 --> 00:34:36,878 wäre wirklich großartig. 673 00:34:36,880 --> 00:34:39,672 Und dann die Möglichkeit, PanLex zur sofortigen Übersetzung zu nutzen, 674 00:34:39,600 --> 00:34:42,440 Übersetzungen über die lexikalischen Elemente von Wikidata zu machen – 675 00:34:42,465 --> 00:34:44,011 das wäre herrlich. 676 00:34:55,288 --> 00:35:00,265 (Person 10) Das ist wie der Auditing-Prozess dieses semantischen Webs, 677 00:35:00,266 --> 00:35:03,808 um Löcher durch Schlussfolgerungen zu schließen. 678 00:35:05,682 --> 00:35:09,732 Wenn wir diese Art von Übersetzung weiterdenken, 679 00:35:09,733 --> 00:35:13,353 wie gehen Sie mit semantischer Fehlanpassung um 680 00:35:13,355 --> 00:35:16,087 und grammatikalischen Ungleichgewichten? 681 00:35:16,088 --> 00:35:18,887 Wenn Sie zum Beispiel versuchen, etwas auf Deutsch zu übersetzen, 682 00:35:18,888 --> 00:35:21,932 können Sie einfach mehrere Wörter zusammenfügen 683 00:35:21,933 --> 00:35:25,985 und etwas Vernünftiges erreichen, 684 00:35:25,986 --> 00:35:29,184 und auf der anderen Seite, glaube ich, lese ich manchmal, 685 00:35:33,351 --> 00:35:38,449 dass nicht jede Sprache das gleiche granulare System 686 00:35:38,450 --> 00:35:40,453 für Farben hat, zum Beispiel. 687 00:35:41,577 --> 00:35:44,166 (Yang) Sagen Sie, alle verwenden ein anderes System für Farben 688 00:35:44,166 --> 00:35:45,520 oder sind sie gleich? 689 00:35:45,520 --> 00:35:47,187 (Person 10) Ich denke, dass es vielleicht 690 00:35:47,104 --> 00:35:49,064 nur um die Evolution der Sprache geht, 691 00:35:49,072 --> 00:35:51,512 dass sie anfangs mit Schwarz und Weiß anfingen und dann – 692 00:35:51,533 --> 00:35:53,332 (Yang) Ja, die Farbhierarchie. 693 00:35:53,333 --> 00:35:55,813 Eigentlich ist Farbhierarchie eine gute Möglichkeit, 694 00:35:55,826 --> 00:35:57,866 zu veranschaulichen, wie das funktioniert, richtig? 695 00:35:57,867 --> 00:36:01,412 Also, im Wesentlichen, wenn Sie eine einzige Pivotsprache haben – 696 00:36:01,800 --> 00:36:04,831 Es ist interessant, wenn Sie Papiere über maschinelle Übersetzungen lesen, 697 00:36:04,832 --> 00:36:07,999 denn oft sprechen sie über eine hypothetische Pivotsprache, 698 00:36:08,000 --> 00:36:09,825 sie sagen: "Es gibt eine Pivot-Sprache". 699 00:36:09,826 --> 00:36:12,186 und dann lesen sie das Papier und sagen: "Das ist Englisch." 700 00:36:12,187 --> 00:36:16,679 Und was diese Form der lexikalischen Übersetzung macht, 701 00:36:16,720 --> 00:36:20,392 ist, es durch viele verschiedene Zwischensprachen zu schicken, 702 00:36:20,755 --> 00:36:23,529 das hat die Wirkung, dass es mit einer Menge 703 00:36:23,541 --> 00:36:26,141 semantischer Mehrdeutigkeit umgehen kann. 704 00:36:26,142 --> 00:36:28,425 Denn solange Sie es durch die Sprachen schicken, 705 00:36:28,426 --> 00:36:33,407 die die gleichen, einigermaßen ähnlichen semantische Grenzen bei einem Wort haben, 706 00:36:33,408 --> 00:36:37,037 dann können Sie das Problem 707 00:36:37,038 --> 00:36:39,807 der semantischen Mehrdeutigkeit durch die Pivotsprache vermeiden. 708 00:36:39,808 --> 00:36:43,265 Die Farbhierarchie als Beispiel, 709 00:36:43,266 --> 00:36:45,586 wenn Sie eine Sprache nehmen, die ein einziges Farbwort 710 00:36:45,587 --> 00:36:47,588 für Grün und Blau 711 00:36:47,588 --> 00:36:53,288 und es in Ihrer Single-Pivot-Sprache und als Blau übersetzt wird, 712 00:36:53,289 --> 00:36:57,421 und dann in eine andere Sprache, die dabei verschiedene Unklarheiten hat, 713 00:36:57,422 --> 00:37:00,282 dann haben Sie am Ende semantische Zweideutigkeit. 714 00:37:00,283 --> 00:37:02,403 Aber wenn Sie es durch andere Sprachen laufen lassen, 715 00:37:02,404 --> 00:37:05,659 die auch einzelne lexikalische Begriffe für Grün und Blau haben, 716 00:37:05,660 --> 00:37:10,940 dann wird diese semantische Spezifität 717 00:37:10,950 --> 00:37:17,030 an die Zielsprache weitergereicht. 718 00:37:17,755 --> 00:37:20,665 Was die Aspekte der grammatikalischen Merkmale betrifft, 719 00:37:20,666 --> 00:37:23,487 PanLex hat in seiner Geschichte in erster Linie, 720 00:37:23,488 --> 00:37:28,960 im Wesentlichen Lexeme gesammelt, im Wesentlichen lexikalische Formen. 721 00:37:29,711 --> 00:37:31,800 Und mit im Wesentlichen meine ich, 722 00:37:31,804 --> 00:37:34,244 was auch immer Sie als Stichwort für ein Wörterbuch bekommen. 723 00:37:34,807 --> 00:37:38,315 Wir müssen uns also derzeit nicht unbedingt 724 00:37:38,316 --> 00:37:40,956 auf das Sammeln grammatikalischer Variantenformen konzentrieren, 725 00:37:40,957 --> 00:37:44,748 nicht schriftliche Daten et cetera oder Vergangenheits- und Gegenwartsform. 726 00:37:44,749 --> 00:37:46,494 Aber das ist etwas, das wir untersuchen. 727 00:37:46,495 --> 00:37:48,419 Eine Sache, die immer zu beachten ist, 728 00:37:48,420 --> 00:37:50,600 dass unser Fokus – 729 00:37:51,422 --> 00:37:54,490 auf unterrepräsentierte und gefährdete Minderheitensprachen liegt, 730 00:37:55,000 --> 00:37:57,776 wollen wir sicherstellen, dass etwas verfügbar ist, 731 00:37:57,777 --> 00:37:59,711 bevor wir es perfekt machen. 732 00:38:01,151 --> 00:38:02,831 Ein Satz, den ich absolut liebe, 733 00:38:02,844 --> 00:38:04,926 ist "Lass Perfektion nicht der Feind des Guten sein", 734 00:38:04,927 --> 00:38:06,569 und das ist es, was wir vorhaben. 735 00:38:06,570 --> 00:38:09,013 Aber wir sind super interessiert an der Idee, 736 00:38:09,014 --> 00:38:12,265 mit grammatikalischen Formen umgehen zu können, 737 00:38:12,266 --> 00:38:14,030 und darüber zu übersetzen, 738 00:38:14,031 --> 00:38:17,151 wir haben Untersuchungen durchgeführt, aber noch nicht vollständig umgesetzt. 739 00:38:25,350 --> 00:38:28,870 (Person 11) Also, von den etwa 7500 Sprachen, 740 00:38:30,000 --> 00:38:32,000 ich nehme an, Sie verlassen sich auf Wörterbücher, 741 00:38:31,959 --> 00:38:34,511 die für uns geschrieben werden, aber haben alle diese Sprachen 742 00:38:34,537 --> 00:38:38,097 standardisierte schriftliche Formen und wie gehen Sie damit um...? 743 00:38:38,122 --> 00:38:39,908 (Yang) Das ist eine großartige Frage. 744 00:38:42,080 --> 00:38:47,945 Im Wesentlichen, ja, viele dieser Sprachen sind, wie jeder weiß, ungeschrieben. 745 00:38:47,977 --> 00:38:50,665 Jedoch jede Sprache, für die ein Wörterbuch erstellt wurde, 746 00:38:50,666 --> 00:38:52,465 hat eine Art von Rechtschreibung, 747 00:38:52,466 --> 00:38:56,709 und wir verlassen uns auf die Rechtschreibung des Wörterbuchs. 748 00:38:56,710 --> 00:38:59,686 Wir machen gelegentlich einige leichte Korrekturen der Orthographie, 749 00:39:00,435 --> 00:39:03,176 wenn wir garantieren können, dass sie im Grunde verlustfrei ist. 750 00:39:03,177 --> 00:39:05,537 Aber wir neigen dazu, sie so weit wie möglich zu vermeiden. 751 00:39:07,533 --> 00:39:10,893 Also, wir sind nicht im Geschäft 752 00:39:10,895 --> 00:39:13,215 der Entwicklung von Orthographien für Sprachen, 753 00:39:13,229 --> 00:39:14,966 weil sie sich oft nicht entwickelt haben, 754 00:39:14,967 --> 00:39:17,239 auch wenn sie nicht wirklich weit veröffentlicht wurden. 755 00:39:17,240 --> 00:39:22,154 Also, zum Beispiel, 756 00:39:22,155 --> 00:39:26,115 für viele Sprachen, die in Neuguinea gesprochen werden, 757 00:39:26,121 --> 00:39:28,881 gibt es vielleicht keine gemeinsame verwendete orthographische Form, 758 00:39:28,887 --> 00:39:30,967 aber einige Linguisten lassen sich etwas einfallen 759 00:39:30,980 --> 00:39:32,460 und das ist ein guter erster Schritt. 760 00:39:33,473 --> 00:39:36,729 Wir sammeln auch phonetische Formen wenn sie in Wörterbüchern verfügbar sind, 761 00:39:36,730 --> 00:39:38,399 und das ist also ein weiterer Weg dahin, 762 00:39:38,400 --> 00:39:41,799 im Wesentlichen eine IPA-Darstellung des Wortes, wenn das verfügbar ist. 763 00:39:41,800 --> 00:39:43,332 Das kann also auch genutzt werden. 764 00:39:43,333 --> 00:39:45,754 Aber wir verwenden das nicht normalerweise als Pivot, 765 00:39:45,755 --> 00:39:48,275 weil das gewisse Unklarheiten einführt. 766 00:39:52,960 --> 00:39:55,586 (Person 12) Vielen Dank, das ist vielleicht eine sehr dumme Frage, 767 00:39:56,044 --> 00:40:00,571 aber sind das nur die Zwischensprachen, mit denen Sie arbeiten? 768 00:40:00,572 --> 00:40:02,215 (Yang) Oh, nein. Oh, nein. 769 00:40:02,222 --> 00:40:03,848 (Person 12) In Ordnung, ich danke Ihnen. 770 00:40:03,790 --> 00:40:05,682 (Yang) Ich bin froh, dass Sie das fragen. 771 00:40:05,683 --> 00:40:09,389 Dies ist also eigentlich ein Screenshot-Schnappschuss 772 00:40:09,414 --> 00:40:11,310 von *translate.panlex.org*. 773 00:40:11,311 --> 00:40:12,705 Wenn Sie eine Übersetzung machen, 774 00:40:12,705 --> 00:40:15,056 gibt es auf der rechten Seite eine Liste der Übersetzungen. 775 00:40:15,056 --> 00:40:17,982 Sie klicken auf die Schaltfläche *...*, und erhalten Sie eine solche Grafik. 776 00:40:17,983 --> 00:40:24,132 Und dies zeigt die Zwischensprachen, die Top 20 nach Punktzahl. 777 00:40:24,133 --> 00:40:27,451 Wie wir die Punktzahl erstellen, ist jetzt nicht so wichtig – 778 00:40:27,452 --> 00:40:30,243 nach der verwendeten Punktzahl. 779 00:40:30,244 --> 00:40:33,356 Aber für die Übersetzung, verwenden wir tatsächlich weit mehr als 20. 780 00:40:33,393 --> 00:40:35,796 Warum ich die Obergrenze bei 20 Prozent setze, liegt daran, 781 00:40:35,797 --> 00:40:37,717 das ist eigentlich wie eine Art Physiksimulation. 782 00:40:37,718 --> 00:40:39,637 Sie können die Dinge bewegen und sie wackeln. 783 00:40:39,638 --> 00:40:42,200 Wenn Sie mehr als 20 haben, wird Ihr Computer wirklich wütend. 784 00:40:45,400 --> 00:40:47,419 Es ist also eher eine Demonstration, ja. 785 00:40:55,838 --> 00:40:57,863 (Person 13) Leila, von der Wikimedia Foundation. 786 00:40:57,888 --> 00:41:00,154 Nur eine Anmerkung zu – 787 00:41:00,155 --> 00:41:03,259 Sie erwähnten die Wikimedia Foundation ein paar Mal in Ihrer Präsentation, 788 00:41:03,260 --> 00:41:06,532 Ich wollte sagen, wenn Sie jede Art von Dateneinspielung vornehmen wollen, 789 00:41:06,533 --> 00:41:08,460 oder eine Zusammenarbeit mit Wikidata, 790 00:41:08,820 --> 00:41:11,199 wäre vielleicht Wikimedia Deutschland ein besserer Ort, 791 00:41:11,200 --> 00:41:13,181 mit dem man diese Gespräche führen kann? 792 00:41:13,182 --> 00:41:16,255 Weil Wikidata lebt innerhalb von Wikimedia Deutschland 793 00:41:16,256 --> 00:41:17,510 und das Team ist da, 794 00:41:17,511 --> 00:41:19,971 und auch die Gemeinschaft von Freiwilligen rund um Wikidata 795 00:41:19,977 --> 00:41:23,709 wäre der perfekte Ort für ein Gespräch 796 00:41:23,710 --> 00:41:25,589 über jede Art der Einspielung 797 00:41:25,590 --> 00:41:31,136 oder PanLex näher an Wikidata zu bringen. 798 00:41:31,560 --> 00:41:32,808 (Yang) Großartig, vielen Dank, 799 00:41:32,808 --> 00:41:34,900 denn ehrlich gesagt, bin ich nicht wirklich vertraut 800 00:41:34,901 --> 00:41:37,822 mit all den Feinheiten der Architektur, 801 00:41:37,823 --> 00:41:39,739 wie alle Projekte sich aufeinander beziehen. 802 00:41:39,740 --> 00:41:41,976 Nach dem Lachen zu urteilen, ist es wohl kompliziert. 803 00:41:42,000 --> 00:41:46,196 Aber, ja, also im Grunde genommen würden wir mit demjenigen reden wollen, 804 00:41:46,197 --> 00:41:48,350 der für Wikidata verantwortlich ist. 805 00:41:48,351 --> 00:41:52,120 Also einfach, um eine Platzierung vorzunehmen, 806 00:41:52,860 --> 00:41:55,387 wer auch immer für Wikidata verantwortlich ist, ist derjenige, 807 00:41:55,412 --> 00:41:56,469 mit dem wir reden wollen, 808 00:41:56,470 --> 00:41:58,264 und das sind alle Freiwilligen. 809 00:42:03,266 --> 00:42:05,044 Haben Sie noch weitere Fragen? 810 00:42:10,066 --> 00:42:14,399 Okay, nun, wenn jemand am Ende darüber hinaus noch weitere Fragen hat, 811 00:42:14,400 --> 00:42:17,710 oder über die ich gesprochen habe – Details und Einzelheiten dieser Dinge, 812 00:42:17,720 --> 00:42:19,973 bitte kommen Sie und reden mit mir, 813 00:42:19,998 --> 00:42:24,038 und wenn Sie mit allem, was lexikalisches Zeug beinhaltet, 814 00:42:24,039 --> 00:42:28,665 allem, was mit gefährdeten Minderheitensprachen 815 00:42:28,666 --> 00:42:30,443 und unterrepräsentierten Sprachen zu tun hat, 816 00:42:30,444 --> 00:42:34,410 und auch Unicode, was ich auch tue. 817 00:42:36,200 --> 00:42:39,562 Vielen Dank also, und dafür, dass Sie mich als Sprecher eingeladen haben. 818 00:42:39,563 --> 00:42:41,549 Ich hoffe, dass es Ihnen gefallen hat. 819 00:42:41,550 --> 00:42:43,753 (Beifall)