1 00:00:01,201 --> 00:00:04,486 WikiData und Sprachen 2 00:00:06,303 --> 00:00:07,362 (Lydia) Vielen Dank. 3 00:00:07,362 --> 00:00:11,244 Also, in dieser Konferenz sind einige der großen Themen die Sprachen. 4 00:00:14,220 --> 00:00:18,088 Ich möchte Ihnen einen Überblick darüber geben, wo wir derzeit 5 00:00:18,088 --> 00:00:19,812 beim Thema Sprachen stehen 6 00:00:20,264 --> 00:00:22,167 und wie wir von hier aus weitermachen können. 7 00:00:26,491 --> 00:00:28,851 [Mehr Leuten mehr Zugang zu mehr Wissen geben] 8 00:00:29,036 --> 00:00:32,580 Bei Wikidata geht es darum, mehr Menschen mehr Zugang zu mehr Wissen zu geben, 9 00:00:32,580 --> 00:00:37,168 und Sprache ist ein wichtiger Teil davon, dies Wirklichkeit werden zu lassen, 10 00:00:38,205 --> 00:00:43,291 zumal immer mehr unseres Lebens von der Technologie abhängt. 11 00:00:44,114 --> 00:00:48,873 Und wie unser Hauptredner vorhin sagte, 12 00:00:49,723 --> 00:00:52,488 fallen durch einen Teil der Technologie die Menschen einfach zurück, 13 00:00:52,488 --> 00:00:55,020 weil sie eine bestimmte Sprache einfach nicht sprechen können, 14 00:00:55,320 --> 00:00:57,303 und das ist nicht in Ordnung. 15 00:00:58,633 --> 00:01:02,097 Deshalb wollen wir etwas dagegen unternehmen. 16 00:01:02,927 --> 00:01:05,841 Und um das zu ändern, braucht man mindestens zwei Dinge. 17 00:01:06,411 --> 00:01:11,010 Erstens muss man den Leuten Inhalte in ihrer Sprache zur Verfügung stellen, 18 00:01:11,010 --> 00:01:12,955 und zweitens muss man ihnen 19 00:01:12,955 --> 00:01:15,910 in diesen Anwendungen oder was immer man hat, 20 00:01:15,910 --> 00:01:19,189 Interaktion in ihrer Sprache ermöglichen. 21 00:01:20,367 --> 00:01:24,980 Und Wikidata hilft bei beiden davon. 22 00:01:24,980 --> 00:01:28,268 Und die erste Sache, *der Inhalt in Ihrer Sprache*, 23 00:01:28,268 --> 00:01:31,089 das ist im Grunde das, was wir an Objekten und Eigenschaften haben, 24 00:01:31,319 --> 00:01:33,082 wie wir die Welt beschreiben. 25 00:01:33,082 --> 00:01:35,175 Nun, das ist sicherlich nicht alles, was man braucht, 26 00:01:35,175 --> 00:01:39,294 aber es bringt einen ziemlich weit voran. 27 00:01:39,764 --> 00:01:41,927 Die andere Sache ist *die Interaktion in Ihrer Sprache*, 28 00:01:41,927 --> 00:01:46,281 und hier kommen Lexeme ins Spiel. 29 00:01:46,281 --> 00:01:49,382 Wenn Sie mit Ihrem digitalen persönlichen Assistenten sprechen wollen 30 00:01:49,382 --> 00:01:54,918 oder wenn Sie Ihr Gerät einen Text und solche Dinge übersetzen lassen wollen. 31 00:01:56,404 --> 00:01:59,254 Na gut, sehen wir uns *den Inhalt in Ihrer Sprache* an. 32 00:01:59,254 --> 00:02:03,396 Also, was wir an Objekten und Eigenschaften haben. 33 00:02:05,406 --> 00:02:09,696 Dafür sind Bezeichnungen in den Objekten und Eigenschaften entscheidend. 34 00:02:10,236 --> 00:02:14,866 Wir müssen wissen, wie diese Entität genannt wird, über die wir sprechen. 35 00:02:15,656 --> 00:02:19,767 Und anstatt über Q5 zu sprechen, 36 00:02:19,767 --> 00:02:22,310 jemand, der Englisch spricht, weiß, dass das ein "human" ist, 37 00:02:22,310 --> 00:02:24,706 jemand, der Deutsch spricht, weiß, dass das ein "Mensch" ist, 38 00:02:24,706 --> 00:02:26,254 und ähnliche Dinge. 39 00:02:26,254 --> 00:02:29,742 Also überbrücken diese Bezeichnungen auf Objekten und Eigenschaften 40 00:02:29,742 --> 00:02:33,499 die Kluft zwischen Mensch und Maschine. 41 00:02:33,499 --> 00:02:35,439 Und Menschen und Menschen 42 00:02:35,439 --> 00:02:40,115 machen mehr vorhandenes Wissen für sie zugänglich. 43 00:02:43,270 --> 00:02:45,963 Das ist ein schönes Ziel zum Anstreben. 44 00:02:45,963 --> 00:02:48,092 Wie sieht es eigentlich aus? 45 00:02:48,092 --> 00:02:49,507 Es sieht so aus. 46 00:02:50,947 --> 00:02:52,786 Was Sie hier sehen, ist, 47 00:02:52,786 --> 00:02:58,496 dass die meisten Objekte auf Wikidata zwei Bezeichnungen haben, 48 00:02:58,496 --> 00:03:00,767 also Bezeichnungen in zwei Sprachen. 49 00:03:01,697 --> 00:03:03,851 Und danach nur eines und dann drei, 50 00:03:03,851 --> 00:03:05,948 und dann wird es sehr düster. 51 00:03:06,781 --> 00:03:08,581 (leises Lachen) 52 00:03:10,047 --> 00:03:12,713 Ich denke, wir müssen es besser machen. 53 00:03:14,185 --> 00:03:16,079 Aber andererseits habe ich eigentlich erwartet, 54 00:03:16,079 --> 00:03:17,578 dass es schlimmer sein würde. 55 00:03:17,578 --> 00:03:19,860 Ich habe erwartet, dass der Durchschnitt eines sein würde. 56 00:03:19,860 --> 00:03:22,503 Deshalb war ich ziemlich froh, zwei zu sehen. (lacht) 57 00:03:24,661 --> 00:03:25,926 In Ordnung. 58 00:03:27,156 --> 00:03:29,527 Aber es ist nicht nur interessant zu wissen, 59 00:03:29,527 --> 00:03:33,742 wie viele Bezeichnungen unsere Objekte und Eigenschaften haben. 60 00:03:33,742 --> 00:03:36,565 Es ist auch interessant zu sehen, in welchen Sprachen. 61 00:03:38,045 --> 00:03:43,764 Hier sehen Sie eine Grafik der Sprachen, 62 00:03:43,764 --> 00:03:46,838 für die wir Bezeichnungen auf den Objekten haben. 63 00:03:46,838 --> 00:03:50,669 Der größte Teil davon ist also Sonstiges. 64 00:03:51,229 --> 00:03:53,863 Ich habe also nur die 100 wichtigsten Sprachen ausgewählt 65 00:03:54,533 --> 00:03:58,902 und alles andere ist Sonstiges, um diese Grafik lesbar zu machen. 66 00:03:59,542 --> 00:04:02,142 Und dann gibt es noch Englisch und Niederländisch, 67 00:04:03,002 --> 00:04:04,254 Französisch 68 00:04:05,924 --> 00:04:09,129 und, nicht zu vergessen, Asturisch. 69 00:04:09,659 --> 00:04:11,889 - (Person 1) Juhu! - (Lydia) Juhuu, jawohl! 70 00:04:13,899 --> 00:04:16,954 Was Sie hier sehen, ist also ein ziemliches Ungleichgewicht 71 00:04:16,954 --> 00:04:20,114 und immer noch eine starke Konzentration auf Englisch. 72 00:04:21,236 --> 00:04:24,367 Eine andere Sache ist, wenn Sie sich das Gleiche für Eigenschaften ansehen, 73 00:04:24,367 --> 00:04:25,999 sieht es eigentlich besser aus. 74 00:04:27,399 --> 00:04:32,620 Und teilweise kommt das davon, dass es einfach viel weniger Eigenschaften waren. 75 00:04:32,620 --> 00:04:36,650 Also haben auch kleinere Communites eine Chance, damit Schritt zu halten. 76 00:04:36,650 --> 00:04:39,173 Aber es ist auch ein ziemlich wichtiger Teil von Wikidata, 77 00:04:39,173 --> 00:04:41,159 dass man in seine Sprache lokalisieren kann. 78 00:04:41,159 --> 00:04:42,384 Das ist also gut. 79 00:04:45,752 --> 00:04:48,268 Was ich hier mit Asturisch hervorheben möchte, ist, 80 00:04:48,268 --> 00:04:53,698 dass eine kleine Gemeinschaft mit etwas Hingabe und Arbeit 81 00:04:54,448 --> 00:04:57,085 wirklich einen großen Unterschied machen kann, 82 00:04:57,085 --> 00:04:58,420 und das ist wirklich cool. 83 00:05:01,846 --> 00:05:03,380 Ein kleines Quiz für Sie. 84 00:05:03,380 --> 00:05:05,493 Wenn Sie alle Eigenschaften auf Wikidata nehmen, 85 00:05:05,493 --> 00:05:07,687 die keine externen Identifikatoren sind, 86 00:05:07,687 --> 00:05:10,498 welche hat dann die meisten Bezeichnungen, also die meisten Sprachen? 87 00:05:10,977 --> 00:05:13,847 (Publikum) [Gemurmel] 88 00:05:13,847 --> 00:05:16,786 Ich höre eine gewisse Übereinstimmung über die *Instanz von*? 89 00:05:17,506 --> 00:05:19,363 Sie würden sich irren. 90 00:05:19,983 --> 00:05:22,210 Es ist *Bild*. (lacht) 91 00:05:23,230 --> 00:05:26,366 Also, ja, das sagt Ihnen, wenn Sie eine der Sprachen sprechen, 92 00:05:26,366 --> 00:05:28,621 in denen *Instanz von* noch keine Bezeichnung hat, 93 00:05:28,621 --> 00:05:30,350 sollten Sie sie vielleicht hinzufügen. 94 00:05:32,102 --> 00:05:35,532 Es hat also derzeit 148 Bezeichnungen. 95 00:05:37,688 --> 00:05:41,249 Aber das ist eine andere Folie. 96 00:05:42,631 --> 00:05:44,520 Diese Grafik sagt uns etwas darüber, 97 00:05:44,520 --> 00:05:49,026 wie viel Inhalt wir in einer bestimmten Sprache zur Verfügung stellen 98 00:05:49,026 --> 00:05:51,922 und wie viel von diesem Inhalt tatsächlich genutzt wird. 99 00:05:51,922 --> 00:05:55,332 Was Sie also sehen, ist im Grunde eine Kurve, 100 00:05:55,332 --> 00:05:59,487 bei der die meisten Inhalte englische Beschriftungen haben, 101 00:05:59,487 --> 00:06:04,005 in Englisch verfügbar sind und viel genutzt werden. 102 00:06:04,005 --> 00:06:06,449 Und dann geht sie abwärts. 103 00:06:06,449 --> 00:06:09,294 Aber was Sie wiederum sehen, sind Ausreißer, 104 00:06:09,294 --> 00:06:14,971 die viel mehr Inhalte haben, als Sie unbedingt erwarten würden, 105 00:06:16,903 --> 00:06:19,539 und das ist wirklich, wirklich gut. 106 00:06:20,839 --> 00:06:24,775 Das Problem ist immer noch, dass es nicht oft verwendet wird. 107 00:06:25,565 --> 00:06:28,522 Asturisch und Niederländisch sollten höher stehen, 108 00:06:28,522 --> 00:06:31,994 und ich denke, dass es echt nützlich ist, 109 00:06:33,266 --> 00:06:35,563 diesen Gemeinden dabei zu helfen, 110 00:06:35,563 --> 00:06:37,532 die Nutzung der gesammelten Daten zu erhöhen. 111 00:06:42,910 --> 00:06:48,110 Was diese und andere Analysen uns gezeigt haben, ist eine gute Sache, 112 00:06:48,300 --> 00:06:51,378 denn wir sehen, dass stark genutzte Artikel 113 00:06:51,378 --> 00:06:55,295 auch dazu neigen, mehr Bezeichnungen zu haben 114 00:06:55,295 --> 00:06:58,188 oder umgekehrt - das ist nicht ganz klar. 115 00:07:02,513 --> 00:07:04,376 Und dann stellt sich die Frage, 116 00:07:04,806 --> 00:07:07,009 ob wir nur die mächtigen Sprachen bedienen. 117 00:07:07,899 --> 00:07:10,997 Oder dienen wir allen? 118 00:07:12,757 --> 00:07:17,533 Und was Sie hier sehen, ist eine Gruppierung der Sprachen. 119 00:07:17,533 --> 00:07:21,832 Die Sprachen, die in einer Gruppe sind, haben oft gemeinsame Bezeichnungen. 120 00:07:26,042 --> 00:07:28,599 Und Sie sehen, dass diese sich gruppieren. 121 00:07:28,599 --> 00:07:34,775 Hier ist eine ähnliche Gruppierung, in Farbe, basierend darauf, 122 00:07:34,775 --> 00:07:39,395 wie lebendig, wie oft verwendet 123 00:07:40,455 --> 00:07:43,026 und wie gefährdet die Sprache ist. 124 00:07:43,026 --> 00:07:44,772 Und eine gute Sache, die Sie hier sehen, 125 00:07:44,772 --> 00:07:49,039 ist, dass sichere Sprachen und gefährdete Sprachen 126 00:07:49,239 --> 00:07:53,653 nicht zwei verschiedene Cluster bilden, 127 00:07:53,653 --> 00:07:58,872 sondern sie sind alle miteinander vermischt, 128 00:08:00,262 --> 00:08:04,625 was viel besser ist als umgekehrt, 129 00:08:04,625 --> 00:08:09,377 wenn die sicheren Sprachen, die mächtigen Sprachen, 130 00:08:10,197 --> 00:08:12,164 sich nur gegenseitig aushelfen würden. 131 00:08:12,744 --> 00:08:14,356 Nein, das ist nicht der Fall. 132 00:08:14,356 --> 00:08:17,417 Und das ist wirklich eine gute Sache. 133 00:08:17,417 --> 00:08:20,042 Als ich das sah, fand ich das sehr gut. 134 00:08:23,474 --> 00:08:25,169 Hier ist eine ähnliche Sache, 135 00:08:26,239 --> 00:08:28,800 bei der wir uns 136 00:08:30,230 --> 00:08:33,982 den Status der Sprachen 137 00:08:33,982 --> 00:08:36,225 und die Anzahl der Bezeichnungen angesehen haben. 138 00:08:39,367 --> 00:08:42,937 Was Sie sehen, ist ein klarer Sieg für ungefährdete Sprachen, 139 00:08:42,937 --> 00:08:44,248 wie zu erwarten ist. 140 00:08:45,508 --> 00:08:47,093 Aber was Sie auch sehen, ist, 141 00:08:47,093 --> 00:08:53,967 dass die Sprachen in Kategorie 2 und 3 und vielleicht sogar 4 142 00:08:53,967 --> 00:08:58,960 eigentlich gar nicht so schlecht sind, 143 00:08:58,960 --> 00:09:02,367 was ihre Darstellung in Wikidata und anderen angeht. 144 00:09:03,287 --> 00:09:05,978 Das festzustellen, ist wirklich gut. 145 00:09:07,646 --> 00:09:09,609 Wenn man sich nun die gleiche Sache anschaut, 146 00:09:09,609 --> 00:09:12,418 wie viel von dem Inhalt dieser Bezeichnungen 147 00:09:12,418 --> 00:09:15,265 beispielsweise auf Wikipedia tatsächlich verwendet wird, 148 00:09:17,455 --> 00:09:22,563 dann sehen wir ein ähnliches Bild, das wieder auftaucht. 149 00:09:23,603 --> 00:09:29,633 Es zeigt uns, dass diese Communities ihre Zeit tatsächlich gut nutzen, 150 00:09:29,633 --> 00:09:34,504 indem sie beispielsweise Bezeichnungen für stärker verwendete Artikel eintragen. 151 00:09:36,410 --> 00:09:40,493 Es gibt Ausreißer, bei denen wir meiner Meinung nach helfen können, 152 00:09:41,683 --> 00:09:44,251 um diesen Communities zu helfen, 153 00:09:44,251 --> 00:09:48,141 die Orte zu finden, wo ihre Arbeit am wertvollsten wäre. 154 00:09:49,312 --> 00:09:52,663 Aber insgesamt bin ich mit diesem Bild zufrieden. 155 00:09:54,823 --> 00:09:59,734 Nun, das war der Teil der Objekte und Eigenschaften von Wikidata. 156 00:10:00,714 --> 00:10:03,033 Betrachten wir nun die Interaktion in Ihren Sprachen. 157 00:10:03,033 --> 00:10:05,203 Also die Lexeme-Teile von Wikidata, 158 00:10:05,203 --> 00:10:09,394 in denen wir Wörter und ihre Formen und ihre Bedeutungen beschreiben. 159 00:10:10,167 --> 00:10:13,301 Wir machen das jetzt seit Mai letzten Jahres, 160 00:10:16,461 --> 00:10:19,127 und der Inhalt ist gewachsen. 161 00:10:20,114 --> 00:10:22,149 Sie können hier in Blau die Lexeme sehen 162 00:10:22,149 --> 00:10:25,938 und dann in rot die Formen auf diesen Lexemen 163 00:10:25,938 --> 00:10:29,910 und in gelb die Bedeutung auf diesen Lexemen. 164 00:10:30,991 --> 00:10:34,251 Einige Communities-- dazu kommen wir später -- 165 00:10:34,251 --> 00:10:39,793 haben also viel Zeit damit verbracht, Formen und Bedeutungen für ihre Lexeme 166 00:10:39,793 --> 00:10:42,753 zu erstellen, was wirklich nützlich ist, 167 00:10:42,753 --> 00:10:47,993 denn das bildet den Kern des Datensatzes, den Sie benötigen. 168 00:10:50,562 --> 00:10:55,133 Nun haben wir uns alle Sprachen angesehen, 169 00:10:55,133 --> 00:10:57,906 die Lexeme auf Wikidata haben. 170 00:10:57,906 --> 00:11:01,003 Die Wörter, die wir haben, 171 00:11:01,713 --> 00:11:04,404 das sind im Moment 310 Sprachen. 172 00:11:04,884 --> 00:11:08,290 Was ist Ihrer Meinung nach die wichtigste Sprache, 173 00:11:08,290 --> 00:11:11,949 wenn es um die Anzahl der Lexeme geht, die derzeit in Wikidata enthalten sind? 174 00:11:12,933 --> 00:11:14,700 (Publikum) [mehrere Zwischenrufe] 175 00:11:19,183 --> 00:11:20,216 (Lydia) Hm? 176 00:11:20,216 --> 00:11:21,741 (Person 2) Deutsch. 177 00:11:21,741 --> 00:11:24,022 (Lydia) Entschuldigung, ich habe es schon mal gehört. 178 00:11:24,022 --> 00:11:25,411 Es ist Russisch. 179 00:11:28,011 --> 00:11:29,754 Russisch hat einen großen Vorsprung. 180 00:11:31,897 --> 00:11:33,832 Und nur um Ihnen einen Eindruck zu geben, 181 00:11:35,482 --> 00:11:37,036 es gibt verschiedene Meinungen, 182 00:11:37,036 --> 00:11:41,705 aber ich habe zum Beispiel gelesen, dass 1.000 bis 3.000 Wörter 183 00:11:41,705 --> 00:11:45,450 Sie ungefähr auf Konversationsniveau in einer anderen Sprache bringen 184 00:11:45,450 --> 00:11:49,461 und 4.000 bis 10.000 Wörter auf ein fortgeschrittenes Niveau. 185 00:11:51,591 --> 00:11:55,022 Wir müssen also noch ein wenig aufholen. 186 00:11:58,483 --> 00:12:02,792 Eine Sache, die Sie beachten sollten, ist Baskisch hier 187 00:12:03,272 --> 00:12:07,524 mit ungefähr 10.000 Lexemen. 188 00:12:09,244 --> 00:12:13,003 Wenn man sich die Anzahl der Formen für diese Lexeme ansieht, 189 00:12:14,163 --> 00:12:16,277 ist Baskisch weit oben, 190 00:12:18,257 --> 00:12:20,006 was wirklich cool ist, 191 00:12:20,006 --> 00:12:24,930 und Sie sollten zu einem Vortrag gehen, der Ihnen erklärt, warum das der Fall ist. 192 00:12:27,341 --> 00:12:29,576 Wenn man sich nun die Anzahl der Bedeutungen anschaut, 193 00:12:29,576 --> 00:12:31,078 also was bedeuten die Wörter, 194 00:12:31,728 --> 00:12:34,721 steht Baskisch sogar ganz oben auf der Liste. 195 00:12:34,721 --> 00:12:36,820 Ich denke, das verdient einen Applaus. 196 00:12:36,820 --> 00:12:38,921 (Beifall) 197 00:12:45,678 --> 00:12:47,118 Noch ein kurzes Quiz. 198 00:12:47,118 --> 00:12:50,181 Welches ist das Lexem mit den meisten Übersetzungen derzeit? 199 00:12:50,651 --> 00:12:55,414 (Publikum) Katzen, Katzen, [unhörbar], Douglas Adams, [unhörbar] 200 00:12:56,766 --> 00:13:00,014 (Lydia) Alles gute Ratschläge, aber nein. 201 00:13:01,012 --> 00:13:04,027 Es ist dies, das russische Wort für "Wasser". 202 00:13:09,571 --> 00:13:12,753 Also gut, wir haben jetzt viel darüber gesprochen, 203 00:13:12,753 --> 00:13:16,412 wie viele Lexeme, Formen und Bedeutungen wir haben, 204 00:13:16,412 --> 00:13:20,493 aber das ist nur eine Sache, die man braucht. 205 00:13:20,493 --> 00:13:21,705 Die andere Sache ist, 206 00:13:21,705 --> 00:13:25,161 diese Lexeme, Formen und Bedeutungen 207 00:13:25,161 --> 00:13:27,364 in maschinenlesbarer Form zu beschreiben. 208 00:13:27,364 --> 00:13:30,039 Und dazu hat man Aussagen, wie zum Beispiel zu Objekten. 209 00:13:31,479 --> 00:13:34,752 Und eine der Eigenschaften, die man verwendet, 210 00:13:34,752 --> 00:13:36,362 ist ein Anwendungsbeispiel. 211 00:13:36,362 --> 00:13:38,582 Wer also diese Daten verwendet, 212 00:13:38,582 --> 00:13:42,089 kann verstehen, wie dieses Wort im Kontext zu verwenden ist, 213 00:13:42,089 --> 00:13:44,158 so dass es zum Beispiel ein Zitat sein könnte. 214 00:13:45,396 --> 00:13:47,113 Und hier liegt Polnisch ganz vorne. 215 00:13:47,900 --> 00:13:49,764 Gute Arbeit, Polnisch-Sprecher. 216 00:13:54,219 --> 00:13:57,680 Eine weitere Eigenschaft, die wirklich nützlich ist, ist IPA, 217 00:13:57,680 --> 00:13:59,968 also wie spricht man dieses Wort aus. 218 00:14:00,876 --> 00:14:07,497 Russisch braucht offenbar viele IPA-Erklärungen. 219 00:14:10,419 --> 00:14:13,314 Aber noch einmal kommt Polnisch gleich hinterher. 220 00:14:17,148 --> 00:14:20,753 Und zu guter Letzt haben wir auch noch eine Audioaussprache. 221 00:14:20,753 --> 00:14:23,372 Das sind also Links zu Dateien auf Commons, 222 00:14:23,372 --> 00:14:25,959 in denen jemand das Wort ausspricht, 223 00:14:25,959 --> 00:14:27,703 so dass Sie hören können, 224 00:14:27,703 --> 00:14:29,913 wie ein Muttersprachler das Wort ausspricht, 225 00:14:29,913 --> 00:14:32,741 falls Sie zum Beispiel IPA nicht lesen können. 226 00:14:34,959 --> 00:14:39,015 Und es gibt ein wirklich nettes, auf Wiki basierendes Projekt 227 00:14:39,015 --> 00:14:40,474 namens Lingua Libre, 228 00:14:40,884 --> 00:14:45,173 bei dem Sie mithelfen können, Wörter in Ihrer Sprache aufzunehmen, 229 00:14:45,173 --> 00:14:47,836 die dann zu den Lexemen auf Wikidata hinzugefügt werden können, 230 00:14:48,446 --> 00:14:51,923 damit andere Leute verstehen können, wie Ihre Wörter ausgesprochen werden. 231 00:14:53,663 --> 00:14:55,694 (Person 2) [undeutlich] 232 00:14:55,694 --> 00:14:57,665 (Lydia) Wenn Sie nach "Lingua Libre" suchen, 233 00:14:57,665 --> 00:15:00,981 und ich bin sicher, dass es jemand im Telegrammkanal posten kann. 234 00:15:03,138 --> 00:15:04,621 Die Leute sind der Hammer. 235 00:15:04,621 --> 00:15:06,726 Sie haben wirklich coole Sachen mit Wikibase gemacht. 236 00:15:09,416 --> 00:15:10,617 In Ordnung. 237 00:15:12,706 --> 00:15:16,980 Dann ist die Frage, wie geht es weiter? 238 00:15:19,165 --> 00:15:22,010 Basierend auf den Zahlen, die ich Ihnen gerade gezeigt habe, 239 00:15:23,030 --> 00:15:25,172 haben wir einen langen Weg zurückgelegt, 240 00:15:25,172 --> 00:15:28,430 um mehr Menschen mehr Zugang zu mehr Wissen zu geben, 241 00:15:28,430 --> 00:15:31,040 was Sprachen auf Wikidata betrifft. 242 00:15:32,530 --> 00:15:36,392 Aber es liegt auch noch eine Menge Arbeit vor uns. 243 00:15:38,992 --> 00:15:42,341 Einige der Dinge, die Sie tun können, um zu helfen, 244 00:15:42,341 --> 00:15:44,921 sind zum Beispiel Label-a-Thons, 245 00:15:44,921 --> 00:15:50,124 wie Leute zusammenzubringen, um Objekte in Wikidata zu bezeichnen, 246 00:15:50,914 --> 00:15:55,121 oder einen Edit-a-Thon, um Lexeme in Ihrer Sprache zu vervollständigen, 247 00:15:55,121 --> 00:15:59,002 um die am häufigsten verwendeten Wörter in Ihrer Sprache in Wikidata zu bestimmen. 248 00:16:00,773 --> 00:16:03,285 Oder Sie können ein Werkzeug wie Terminator verwenden, 249 00:16:03,285 --> 00:16:08,273 das Ihnen hilft, die wichtigsten Elemente in Ihrer Sprache zu finden, 250 00:16:08,273 --> 00:16:11,549 bei denen noch keine Bezeichnung vorhanden ist. 251 00:16:13,274 --> 00:16:17,509 Am wichtigsten ist es, zu messen, 252 00:16:17,509 --> 00:16:22,253 wie oft es in anderen Wikidata-Elementen als Links in Aussagen verwendet wird. 253 00:16:25,768 --> 00:16:30,022 Und beim Lexeme-Teil 254 00:16:31,342 --> 00:16:35,169 geht es natürlich auch darum, diese Lexeme zu erweitern 255 00:16:35,169 --> 00:16:41,013 und weitere Aussagen hinzuzufügen, 256 00:16:41,013 --> 00:16:44,031 so dass sie tatsächlich die Basis 257 00:16:44,031 --> 00:16:47,281 für sinnvolle Anwendungen bilden können, die darauf aufbauen. 258 00:16:48,141 --> 00:16:50,795 Denn wir nähern uns dieser kritischen Masse, 259 00:16:50,795 --> 00:16:53,366 aber wir sind noch weit davon entfernt, 260 00:16:53,366 --> 00:16:56,624 dass man darauf ernsthafte Anwendungen aufbauen könnte. 261 00:16:58,277 --> 00:17:01,680 Und ich hoffe, dass Sie alle sich uns dabei anschließen werden. 262 00:17:02,583 --> 00:17:06,813 Und damit komme ich schon 263 00:17:06,813 --> 00:17:09,387 zu einer kleinen Hilfe von unseren Freunden, 264 00:17:09,597 --> 00:17:12,542 und Bruno, wollen Sie zu uns kommen 265 00:17:13,882 --> 00:17:16,854 und mit uns über lexikalische Masken sprechen? 266 00:17:17,231 --> 00:17:18,567 (Bruno) Danke, Lydia. 267 00:17:18,567 --> 00:17:21,519 Danke, dass Sie mir die Zeit gegeben haben, 268 00:17:21,519 --> 00:17:24,550 um diese Arbeit vorzustellen, die wir bei Google Denny machen 269 00:17:24,550 --> 00:17:29,319 und von der viele von Ihnen schon gehört haben oder wissen. 270 00:17:30,126 --> 00:17:32,030 Denn bei Google bin ich Linguist. 271 00:17:32,030 --> 00:17:35,780 Ich freue mich also sehr, hier unter anderen Sprachbegeisterten zu sein. 272 00:17:36,620 --> 00:17:39,278 Wir bauen auch einige Lexika auf, 273 00:17:39,278 --> 00:17:41,766 und wir haben diese Technologie 274 00:17:41,766 --> 00:17:45,589 oder diesen Ansatz aufgebaut, von dem wir glauben, dass er nützlich sein kann. 275 00:17:46,369 --> 00:17:48,455 Nur um ein wenig Hintergrundinformationen zu geben, 276 00:17:48,455 --> 00:17:52,068 hier ist mein lexikografischer Hintergrund, über den ich hier spreche. 277 00:17:52,558 --> 00:17:54,637 Wenn wir eine Lexikon-Datenbank aufbauen, 278 00:17:54,637 --> 00:17:58,623 ist es sehr schwierig, sie zu pflegen, konsistent zu halten 279 00:17:58,623 --> 00:18:00,125 und Daten auszutauschen, 280 00:18:00,125 --> 00:18:01,847 wie Sie wahrscheinlich wissen. 281 00:18:02,517 --> 00:18:05,927 Es gibt mehrere Versuche, die Funktionen und die Eigenschaften zu vereinheitlichen, 282 00:18:05,927 --> 00:18:08,964 die diese Lexeme und diese Formen beschreiben, 283 00:18:08,964 --> 00:18:10,936 und es ist kein gelöstes Problem. 284 00:18:10,936 --> 00:18:13,728 Es gibt einige Vereinheitlichungsversuche auf dieser Seite. 285 00:18:13,728 --> 00:18:15,209 Aber was wirklich fehlt-- 286 00:18:15,209 --> 00:18:18,732 und dieses Problem hatten wir zu Beginn unseres Projekts bei Google-- 287 00:18:18,732 --> 00:18:21,607 ist der Versuch, eine interne Struktur zu schaffen, 288 00:18:22,197 --> 00:18:25,910 die beschreibt, wie ein lexikalischer Eintrag aussehen sollte, 289 00:18:25,910 --> 00:18:28,581 welche Art von Daten oder welche Art von Informationen wir haben 290 00:18:28,581 --> 00:18:31,987 und welche Spezifikationen erwartet werden. 291 00:18:32,247 --> 00:18:38,447 Das ist es also, was wir mit dieser Sache namens Lexikon-Maske herausgefunden haben. 292 00:18:38,897 --> 00:18:44,261 Eine Lexikonmaske beschreibt, was für einen Eintrag, 293 00:18:44,261 --> 00:18:47,355 einen lexikografischen Eintrag, erwartet wird, um vollständig zu sein, 294 00:18:47,355 --> 00:18:51,436 sowohl in Bezug auf die Anzahl der Formen, die Sie für ein Lexem erwarten, 295 00:18:51,436 --> 00:18:55,472 als auch auf die Anzahl der Merkmale, die Sie für jede dieser Formen erwarten. 296 00:18:56,257 --> 00:18:58,329 Hier ist ein Beispiel für italienische Adjektive. 297 00:18:58,329 --> 00:19:02,002 Sie erwarten, dass Ihre Adjektive auf Italienisch vier Formen haben, 298 00:19:02,002 --> 00:19:05,383 und jede dieser Formen hat eine spezifische Kombination 299 00:19:05,383 --> 00:19:07,776 von Geschlechts- und Numerusmerkmalen. 300 00:19:08,606 --> 00:19:12,392 Das erwarten wir für die italienischen Adjektive. 301 00:19:12,392 --> 00:19:15,996 Natürlich können Sie sehr komplexe Masken haben, 302 00:19:15,996 --> 00:19:18,508 wie die Konjugation der französischen Verben, 303 00:19:18,508 --> 00:19:20,366 die sehr umfangreich ist, 304 00:19:20,366 --> 00:19:23,357 und ich zeige Ihnen nicht weitere russische Masken, 305 00:19:23,357 --> 00:19:25,378 weil diese nicht auf den Bildschirm passen. 306 00:19:26,308 --> 00:19:29,531 Und wir haben auch einige detaillierte Spezifikationen, 307 00:19:29,531 --> 00:19:33,421 weil wir unterscheiden auf der Formebene. 308 00:19:33,421 --> 00:19:37,384 Hier haben Sie also russische Substantive, die drei Numeri 309 00:19:37,384 --> 00:19:40,048 und eine Reihe von Fällen mit unterschiedlichen Formen haben, 310 00:19:40,048 --> 00:19:43,086 aber sie haben auch eine Spezifikation auf der Einstiegsebene, 311 00:19:43,086 --> 00:19:45,590 die besagt, dass ein Substantiv vor allem 312 00:19:45,590 --> 00:19:50,133 ein inhärentes Geschlecht und ein inhärentes Belebtheitsmerkmal hat, 313 00:19:50,133 --> 00:19:52,488 das ebenfalls in der Maske angegeben ist. 314 00:19:54,518 --> 00:19:57,729 Wir wollen auch unterscheiden, dass eine Maske 315 00:19:57,729 --> 00:20:01,724 eine Spezifikation dafür gibt, wie ein Eintrag aussehen sollte. 316 00:20:01,724 --> 00:20:07,048 Aber Sie können kleinere Masken für fehlerhafte Aspekte der Form 317 00:20:07,048 --> 00:20:11,282 oder fehlerhafte Aspekte des Lexems haben, die in der Sprache vorkommen. 318 00:20:11,282 --> 00:20:14,537 Hier ist also die einfachste Version der französischen Verben, 319 00:20:14,537 --> 00:20:19,729 die nur die dritte Person Singular für alle Wetterverben haben, 320 00:20:19,729 --> 00:20:23,804 wie "es regnet" oder "es schneit", wie im Englischen. 321 00:20:24,537 --> 00:20:26,493 Wir unterscheiden also diese beiden Stufen. 322 00:20:26,923 --> 00:20:29,962 Und wie wir das bei Google verwenden, 323 00:20:29,962 --> 00:20:32,643 ist, dass wir, wenn wir ein Lexikon haben, das wir verwenden wollen, 324 00:20:33,063 --> 00:20:37,469 die Maske benutzen, um die Lexika, also alle Einträge, 325 00:20:37,469 --> 00:20:40,163 wirklich buchstäblich durch die Maske zu werfen 326 00:20:40,163 --> 00:20:44,303 und zu sehen, welcher Eintrag ein Problem in Bezug auf die Struktur hat. 327 00:20:44,303 --> 00:20:46,523 Fehlt uns eine Form? Fehlt uns ein Merkmal? 328 00:20:46,523 --> 00:20:51,247 Und wenn es ein Problem gibt, führen wir eine menschliche Validierung durch 329 00:20:51,247 --> 00:20:53,751 oder einfach nur, um zu sehen, ob es die Maske passiert. 330 00:20:53,751 --> 00:20:55,940 Es ist also ein extrem leistungsfähiges Werkzeug, 331 00:20:55,940 --> 00:20:58,132 um die Qualität der Struktur zu überprüfen. 332 00:20:59,427 --> 00:21:01,964 Wir freuen uns also, heute bekannt geben zu können, 333 00:21:01,964 --> 00:21:05,408 dass wir grünes Licht erhalten haben, unsere Maske freizugeben. 334 00:21:05,948 --> 00:21:07,573 Dies ist also ein Schema. 335 00:21:07,573 --> 00:21:09,547 Wenn Sie das wollen, können wir es veröffentlichen 336 00:21:09,547 --> 00:21:13,483 und wir werden es Wikidata als ShEx-Dateien zur Verfügung stellen. 337 00:21:13,483 --> 00:21:16,688 Dies ist eine ShEx-Datei für deutsche Substantive, 338 00:21:16,688 --> 00:21:20,428 und Denny arbeitet an der Konvertierung von unserer internen Spezifikation 339 00:21:20,428 --> 00:21:23,516 in eine Open-Source-Spezifikation. 340 00:21:23,516 --> 00:21:27,242 Derzeit decken wir mehr als 25 Sprachen ab. 341 00:21:27,242 --> 00:21:29,315 Wir erwarten also Wachstum auf unserer Seite, 342 00:21:29,315 --> 00:21:34,033 aber wir suchen auch nach der Möglichkeit, für andere Sprachen zusammenzuarbeiten. 343 00:21:34,033 --> 00:21:39,993 Und eine der laufenden Kooperationen, die zwischen Denny und Lukas stattfindet, 344 00:21:40,503 --> 00:21:45,052 Lukas hat diese großartigen Werkzeuge, um eine Benutzeroberfläche zu haben, 345 00:21:45,052 --> 00:21:48,524 die dem Benutzer oder dem Beitragenden hilft, 346 00:21:48,524 --> 00:21:50,811 weitere Formen hinzuzufügen. 347 00:21:50,811 --> 00:21:54,151 Wenn Sie also ein Adjektiv auf Französisch hinzufügen möchten, 348 00:21:54,151 --> 00:21:58,897 sagt Ihnen die Benutzeroberfläche, wie viele Formen erwartet werden 349 00:21:58,897 --> 00:22:01,562 und welche Art von Funktionen diese Form haben sollte. 350 00:22:01,562 --> 00:22:06,047 Unsere Maske hilft Ihnen, das Werkzeug zu definieren und zu erweitern. 351 00:22:07,238 --> 00:22:08,385 Das ist alles. 352 00:22:08,791 --> 00:22:10,358 (Lydia) Ich danke Ihnen vielmals. 353 00:22:10,358 --> 00:22:11,993 (Beifall) 354 00:22:14,249 --> 00:22:16,741 In Ordnung. Gibt es Fragen? 355 00:22:16,741 --> 00:22:19,035 Wollen Sie mehr über Lexeme sprechen? 356 00:22:19,817 --> 00:22:21,475 - (Person 3) Ja. - (Lydia) Ja. (lacht) 357 00:22:33,485 --> 00:22:35,520 (Person 3) Meine Frage, weil Sie davon sprachen, 358 00:22:35,520 --> 00:22:38,916 mehr Menschen in mehr Sprachen Zugang zu gewähren. 359 00:22:38,916 --> 00:22:41,112 Aber es gibt eine Menge Sprachen, die in Wikidata 360 00:22:41,112 --> 00:22:42,524 nicht verwendet werden können. 361 00:22:42,524 --> 00:22:44,528 Welche Lösung haben Sie also dafür? 362 00:22:45,789 --> 00:22:48,416 (Lydia) Wenn Sie sagen, dass Wikidata nicht verwendet werden kann, 363 00:22:48,416 --> 00:22:50,308 sprechen Sie von der Eingabe von Bezeichnungen? 364 00:22:50,308 --> 00:22:51,938 (Person 3) Bezeichnungen, Beschreibungen. 365 00:22:51,938 --> 00:22:55,498 (Lydia) Richtig. Bei Lexemes ist es also etwas anders, 366 00:22:55,498 --> 00:22:57,793 weil wir dort diese Einschränkung nicht haben. 367 00:22:58,923 --> 00:23:02,812 Für Bezeichnungen von Objekten und Eigenschaften 368 00:23:02,812 --> 00:23:05,072 gibt es eine gewisse Einschränkung, 369 00:23:05,252 --> 00:23:11,772 weil wir sicherstellen wollten, dass nicht jeder 370 00:23:12,411 --> 00:23:14,229 etwas völlig anderes macht 371 00:23:14,229 --> 00:23:17,243 und es unüberschaubar wird. 372 00:23:19,349 --> 00:23:21,197 Sogar eine kleine Communties, 373 00:23:21,197 --> 00:23:23,758 die eine einzige Sprache wollen und daran arbeiten möchten, 374 00:23:23,758 --> 00:23:26,757 kommt zu uns und sprecht mit uns, wir werden das einrichten. 375 00:23:26,757 --> 00:23:29,222 (Person 3) Wir haben das beim Prager Hackathon im Mai getan, 376 00:23:29,222 --> 00:23:32,459 und wir haben bis fast August gebraucht, um unsere Sprache verwenden zu können. 377 00:23:32,459 --> 00:23:35,036 - (Lydia) Ja. - (Person 3) Also, es ist sehr langsam. 378 00:23:35,036 --> 00:23:37,383 (Lydia) Ja, es ist leider sehr langsam. 379 00:23:37,623 --> 00:23:39,883 Wir arbeiten derzeit mit dem Sprachausschuss 380 00:23:39,883 --> 00:23:45,746 an der Lösung einiger grundlegender... 381 00:23:49,537 --> 00:23:52,125 Zum Beispiel, eine Einigung darüber zu erzielen, 382 00:23:52,125 --> 00:23:55,272 welche Arten von Sprachen tatsächlich "erlaubt" sind, 383 00:23:55,742 --> 00:23:59,055 und das hat zu lange gedauert, 384 00:23:59,988 --> 00:24:02,768 weshalb Ihre Anfrage wahrscheinlich länger gedauert hat, 385 00:24:02,768 --> 00:24:04,398 als sie hätte sein sollen. 386 00:24:04,778 --> 00:24:05,963 (Person 3) Danke. 387 00:24:06,815 --> 00:24:07,950 (Person 4) Vielen Dank. 388 00:24:07,950 --> 00:24:10,938 Lydia, wenn Sie sich an die Statistiken erinnern, die Sie gezeigt haben, 389 00:24:10,938 --> 00:24:12,886 die Anzahl der Lexeme pro Sprache. 390 00:24:12,886 --> 00:24:17,599 Haben Sie also alle Formen als Datenpunkt gezählt 391 00:24:17,599 --> 00:24:19,757 oder nur Lexeme? 392 00:24:21,289 --> 00:24:22,931 (Lydia) Meinen Sie das? 393 00:24:22,931 --> 00:24:24,053 Welches meinen Sie? 394 00:24:24,053 --> 00:24:25,529 (Person 4) Ja, genau. 395 00:24:25,797 --> 00:24:28,341 Wenn Sie sich erinnern, zählt diese Zahl [unhörbar] 396 00:24:28,341 --> 00:24:31,654 alle Formen für alle Lexeme oder nur, wie viele Lexeme es gibt? 397 00:24:31,654 --> 00:24:33,795 (Lydia) Nein, dies ist nur die Anzahl von Lexemen. 398 00:24:33,795 --> 00:24:35,515 (Person 4) Nur eine Anzahl von Lexemen, okay. 399 00:24:35,515 --> 00:24:37,083 Dann ist es also nur eine Statistik, 400 00:24:37,083 --> 00:24:39,390 denn wenn es dann die Formen zusammensetzen würde-- 401 00:24:39,390 --> 00:24:40,614 deshalb frage ich-- 402 00:24:40,614 --> 00:24:42,817 dann haben alle Sprachen mit der Flexionsmorphologie, 403 00:24:42,817 --> 00:24:45,027 wie Russisch, Serbisch, Slowenisch und so weiter, 404 00:24:45,027 --> 00:24:47,616 einen natürlichen Vorteil, weil sie so viele haben. 405 00:24:47,616 --> 00:24:51,860 (Lydia) Das wirkt sich also auf diese Anzahl von Formen aus. 406 00:24:51,860 --> 00:24:53,851 (Person 4) Ja, das war diese hier. Danke. 407 00:24:56,546 --> 00:25:00,224 (Person 5) Also, ich hatte eine kurze Frage über die... 408 00:25:00,644 --> 00:25:06,824 Wenn wir über die eigentlichen Objekte und Eigenschaften sprechen, 409 00:25:07,124 --> 00:25:08,901 soweit ich weiß, 410 00:25:08,901 --> 00:25:11,955 gibt es derzeit keine Möglichkeit, eine tatsächliche Quelle 411 00:25:11,955 --> 00:25:14,726 für die angegebenen Bezeichnungen und Beschreibungen anzugeben. 412 00:25:14,726 --> 00:25:17,542 Zum Beispiel, weil man, 413 00:25:17,542 --> 00:25:20,741 wenn es sich um eine Eigenschaft eines Objekts handelt, 414 00:25:20,741 --> 00:25:24,389 kann man zum Beispiel widersprüchliche Bezeichnungen erhalten. 415 00:25:24,389 --> 00:25:25,539 (Lydia) Ja. 416 00:25:25,539 --> 00:25:27,662 (Person 5) Diese Person ist also wie... 417 00:25:28,332 --> 00:25:31,021 Wir haben zum Beispiel schon einmal über indigene Dinge gesprochen. 418 00:25:31,021 --> 00:25:35,775 Diese Person ist also nach dieser Quelle ein norwegischer Künstler, 419 00:25:35,775 --> 00:25:38,750 und nach dieser Quelle ein samischer Künstler. 420 00:25:39,550 --> 00:25:42,883 Oder, zum Beispiel, in der estnischen Sprache hatten wir ein Problem, 421 00:25:42,883 --> 00:25:47,556 bei dem wir die Terminologie auf die offizielle Terminologie 422 00:25:47,556 --> 00:25:49,482 in den offiziellen Lexika umstellen mussten, 423 00:25:49,482 --> 00:25:52,072 aber wir haben keine Möglichkeit, wirklich anzugeben, warum, 424 00:25:52,072 --> 00:25:53,596 was die Ursache dafür war 425 00:25:53,596 --> 00:25:55,561 und warum das besser war und was vorher da war. 426 00:25:55,561 --> 00:25:57,150 Es war nur ich als zufällige Person, 427 00:25:57,150 --> 00:25:59,615 die die Sache umgestellt hat für jeden, der das sieht. 428 00:25:59,615 --> 00:26:02,520 Gibt es also einen Plan, um dies in irgendeiner Weise zu ermöglichen, 429 00:26:02,520 --> 00:26:06,224 damit wir tatsächlich die richtigen Quellen für die Sprachdaten haben? 430 00:26:07,045 --> 00:26:11,498 (Lydia) Also, es ist teilweise möglich. 431 00:26:11,498 --> 00:26:15,743 Wenn Sie zum Beispiel ein Objekt für eine Person haben, 432 00:26:16,968 --> 00:26:21,032 dann haben Sie eine Aussage, den Vornamen, den Nachnamen 433 00:26:21,032 --> 00:26:22,720 und so weiter, dieser Person, 434 00:26:22,720 --> 00:26:26,019 und dann können Sie dort die Referenz dafür angeben. 435 00:26:28,211 --> 00:26:32,004 Ich zögere noch, mehr Komplexität 436 00:26:32,004 --> 00:26:35,397 für Referenzen auf Bezeichnungen und Beschreibungen hinzuzufügen, 437 00:26:35,397 --> 00:26:38,624 aber wenn die Leute wirklich, wirklich denken, 438 00:26:38,624 --> 00:26:43,021 dass dies etwas ist, das nicht durch eine Referenz 439 00:26:43,021 --> 00:26:44,952 zu der Aussage abgedeckt ist, 440 00:26:44,952 --> 00:26:46,753 dann lassen Sie uns darüber reden. 441 00:26:49,079 --> 00:26:52,983 Aber ich fürchte, es wird eine Menge Komplexität 442 00:26:52,983 --> 00:26:56,363 für hoffentlich wenige Fälle hinzufügen, 443 00:26:57,393 --> 00:27:00,188 aber ich bin bereit, mich vom Gegenteil überzeugen zu lassen, 444 00:27:00,188 --> 00:27:03,977 wenn die Leute wirklich sehr stark davon überzeugt sind. 445 00:27:03,977 --> 00:27:07,997 (Person 5) Wenn es hinzugefügt wird, sollte es nicht Standardeinstellung sein, 446 00:27:07,997 --> 00:27:12,272 das allen Anfängern der Benutzer zu zeigen, auf jeden Fall. 447 00:27:12,272 --> 00:27:16,010 Eher so: "Klicken Sie hier, wenn Sie etwas Bestimmtes dazu sagen müssen". 448 00:27:17,632 --> 00:27:23,228 (Lydia) Haben wir ein Gefühl dafür, wie oft das eine Rolle spielen würde? 449 00:27:24,520 --> 00:27:26,423 (Person 5) Auf Estnisch, zum Beispiel-- 450 00:27:26,423 --> 00:27:28,844 ich nehme an, das gilt auch für andere Sprachen-- 451 00:27:29,274 --> 00:27:34,023 gibt es einen offiziellen Namen, die tatsächlich legitime Übersetzung, 452 00:27:34,023 --> 00:27:36,036 zum Beispiel ins Englische, 453 00:27:36,036 --> 00:27:40,314 einer bestimmten Art von Stadtgemeinde ist. 454 00:27:40,614 --> 00:27:42,402 Das war zum Beispiel mein Anwendungsfall, 455 00:27:42,402 --> 00:27:44,409 wo wir das Wort "Gemeinde" verwendet haben, 456 00:27:45,159 --> 00:27:50,715 das im estnischen Original wie eine Kirchengemeinde gemeint war, 457 00:27:50,715 --> 00:27:51,899 und das war der Ursprung, 458 00:27:51,899 --> 00:27:54,809 aber das ist nicht die offizielle Übersetzung, die Estland jetzt hat. 459 00:27:55,189 --> 00:27:58,993 (Lydia) In diesem Fall würde ich es als offizielle Namensangabe hinzufügen 460 00:27:58,993 --> 00:28:00,817 und dort den Verweis hinzufügen. 461 00:28:02,032 --> 00:28:03,158 (Person 5) Okay. 462 00:28:05,186 --> 00:28:06,572 (Lydia) Weitere Fragen, ja? 463 00:28:07,682 --> 00:28:10,044 (Person 6) Ich habe zwei kurze Kommentare. 464 00:28:10,044 --> 00:28:13,934 Sie haben ausdrücklich Asturisch als eine Sprache genannt, die gut funktioniert, 465 00:28:13,934 --> 00:28:16,285 und ich denke, das ist ein falsches Artefakt. 466 00:28:16,285 --> 00:28:17,724 (Lydia) Erzählen Sie mir davon. 467 00:28:17,724 --> 00:28:19,748 (Person 6) Ich glaube, es ist nur ein Bot, 468 00:28:19,748 --> 00:28:23,784 der Personennamen wie Eigennamen einfügt 469 00:28:23,784 --> 00:28:26,902 und sagt: "Nun, das ist genau wie im Französischen oder Spanischen", 470 00:28:26,902 --> 00:28:28,558 und es einfach massiv kopiert. 471 00:28:28,558 --> 00:28:33,316 Ein Beweis dafür ist, dass man diese Energie im Asturischen 472 00:28:33,316 --> 00:28:37,205 nicht in Dingen sieht, die eigentlich übersetzt werden müssen, wie Eigennamen 473 00:28:37,205 --> 00:28:39,648 oder Namen von Objekten, die keine Eigennamen sind. 474 00:28:39,648 --> 00:28:41,219 (Lydia) Asaf, du brichst mir das Herz. 475 00:28:41,219 --> 00:28:43,198 (Person 6) Ich weiß, ich vermassle immer die Show, 476 00:28:43,198 --> 00:28:48,458 aber ich habe auch gute Neuigkeiten, was die Zahlen zur Aussprache betrifft. 477 00:28:49,408 --> 00:28:53,515 Wie Sie wahrscheinlich wissen, ist Commons voll von Aussprachedateien, 478 00:28:53,515 --> 00:28:54,668 und zum Beispiel 479 00:28:54,668 --> 00:28:59,632 gibt es im Niederländischen nicht weniger als 300.000 Aussprachedateien 480 00:28:59,632 --> 00:29:01,272 schon unter Commons 481 00:29:01,912 --> 00:29:05,051 die nur irgendwie aufgenommen werden müssen. 482 00:29:05,051 --> 00:29:07,517 Wenn also jemand nach einem Nebenprojekt sucht, 483 00:29:07,517 --> 00:29:08,997 gibt es tonnenweise 484 00:29:08,997 --> 00:29:13,280 klassifizierte, kategorisierte Aussprachedateien unter Commons 485 00:29:13,280 --> 00:29:16,893 unter der Kategorie "Aussprache" nach Sprache. 486 00:29:16,893 --> 00:29:20,402 Das wartet nur darauf, mit Lexemen abgeglichen 487 00:29:20,402 --> 00:29:23,180 und auf Lexeme gesetzt zu werden. 488 00:29:23,180 --> 00:29:26,585 Und ich habe mich gefragt, ob Sie etwas über den Fahrplan sagen können, 489 00:29:26,585 --> 00:29:28,757 etwas darüber, wie viel Investitionen 490 00:29:28,757 --> 00:29:31,995 oder was wir im kommenden Jahr von Lexeme erwarten können, 491 00:29:31,995 --> 00:29:33,830 denn ich kann es kaum erwarten. 492 00:29:34,949 --> 00:29:37,044 (Lydia) Sie können nicht warten? (lacht) 493 00:29:37,044 --> 00:29:39,118 - (Person 6) Auf mehr. - (Lydia) Ja. 494 00:29:44,541 --> 00:29:49,293 Im Moment konzentrieren wir uns auf mehr über Wikibase und Datenqualität, 495 00:29:51,493 --> 00:29:55,087 um zu sehen, wie viel Fahrt das bekommt, 496 00:29:55,087 --> 00:30:01,496 und dann mehr Information darüber, wo die Schwachpunkte als Nächstes liegen, 497 00:30:01,496 --> 00:30:06,003 und dann wieder zur weiteren Verbesserung der lexikografischen Daten zurückzukehren. 498 00:30:06,903 --> 00:30:09,790 Und eines der Dinge, die ich gerne von Ihnen hören würde, 499 00:30:09,790 --> 00:30:14,136 ist, wo genau Sie die nächsten Schritte sehen, 500 00:30:14,136 --> 00:30:15,966 wo Sie Verbesserungen sehen wollen, 501 00:30:15,966 --> 00:30:20,340 damit wir dann herausfinden können, wie wir das erreichen können. 502 00:30:21,125 --> 00:30:22,810 Aber natürlich haben Sie Recht, 503 00:30:22,810 --> 00:30:25,712 es gibt noch so viel zu tun, auch von der technischen Seite her. 504 00:30:30,573 --> 00:30:33,797 (Person 7) Okay, als wir die baskischen Wörter 505 00:30:33,797 --> 00:30:35,848 mit Formen hochgeladen haben, 506 00:30:35,848 --> 00:30:37,768 und Sie werden einige dieser Dinge sehen, 507 00:30:37,768 --> 00:30:41,329 sagten wir beide letzte Woche: "Oh, wir sind die Ersten bei etwas. 508 00:30:42,919 --> 00:30:44,928 Es erscheint in der Presse, und es ist wie: 509 00:30:44,928 --> 00:30:49,218 "Oh, Baskisch, es ist das erste Mal, das sie bei etwas die ersten sind". 510 00:30:49,218 --> 00:30:50,606 (Lachen) 511 00:30:50,606 --> 00:30:53,002 Und dann fragen die Leute: "Okay, aber wofür ist das?" 512 00:30:54,678 --> 00:30:56,849 Wir haben keine wirklich gute Antwort. 513 00:30:56,849 --> 00:30:58,008 Ich meine, "Okay, 514 00:30:58,008 --> 00:31:01,761 das wird Computern helfen, unsere Sprache besser zu verstehen, ja, 515 00:31:01,761 --> 00:31:05,279 aber was für Werkzeuge können wir in der Zukunft herstellen?" 516 00:31:05,279 --> 00:31:07,467 Und darauf haben wir keine gute Antwort. 517 00:31:07,467 --> 00:31:10,452 Ich weiß also nicht, ob Sie eine gute Antwort darauf haben. 518 00:31:10,452 --> 00:31:13,102 (Lydia) (lacht) Ich weiß nicht, ob ich eine gute Antwort habe, 519 00:31:13,102 --> 00:31:14,746 aber ich habe eine Antwort. 520 00:31:15,480 --> 00:31:20,235 Ich denke also, wie ich schon sagte [unhörbar], 521 00:31:20,235 --> 00:31:22,694 dass wir noch nicht die kritische Masse erreicht haben, 522 00:31:22,694 --> 00:31:25,529 in der man viele der wirklich interessanten Werkzeuge bauen kann. 523 00:31:25,529 --> 00:31:27,707 Aber es gibt bereits einige Werkzeuge. 524 00:31:28,267 --> 00:31:31,732 Erst neulich hat Esther [Pandelia] zum Beispiel 525 00:31:31,732 --> 00:31:34,017 ein Werkzeug veröffentlicht, mit dem man sehen kann, 526 00:31:35,837 --> 00:31:38,889 ich glaube, es waren die Worte auf einem Globus, 527 00:31:38,889 --> 00:31:41,724 wo sie gesprochen werden, woher sie kommen. 528 00:31:42,481 --> 00:31:44,090 Wahrscheinlich irre ich mich da, 529 00:31:44,090 --> 00:31:46,786 aber sie hatte auf dem Projekt-Chat auf Wikidata geantwortet-- 530 00:31:46,786 --> 00:31:48,798 Sie können es dort nachschlagen. 531 00:31:49,574 --> 00:31:51,805 Wir haben also diese ersten Werkzeuge gesehen, 532 00:31:51,805 --> 00:31:55,391 genau wie damals, als Wikidata begann. 533 00:31:56,846 --> 00:31:59,602 Zuerst etwas - wie ein Netzwerk, 534 00:31:59,602 --> 00:32:01,754 und wie: "Schau, da ist dieses Ding, 535 00:32:01,754 --> 00:32:03,764 das sich mit diesem anderen Ding verbindet". 536 00:32:04,824 --> 00:32:07,059 Und je mehr Daten wir haben 537 00:32:07,059 --> 00:32:10,352 und je mehr wir eine kritische Masse erreicht haben, 538 00:32:11,852 --> 00:32:14,559 desto leistungsfähigere Anwendungen werden möglich, 539 00:32:15,677 --> 00:32:17,516 Dinge wie Histropedia, 540 00:32:19,126 --> 00:32:21,988 Dinge wie Fragen und Antworten 541 00:32:21,988 --> 00:32:26,483 in Ihrem digitalen persönlichen Assistenten, *Platypus* und so weiter. 542 00:32:26,483 --> 00:32:29,849 Ähnliches sehen wir bei den Lexemen. 543 00:32:31,198 --> 00:32:34,650 Wir befinden uns in einem Stadium, in dem man so etwas wie diese kleinen, 544 00:32:34,650 --> 00:32:37,464 hey, schau, es gibt eine Verbindung zwischen den beiden Dingen, 545 00:32:37,864 --> 00:32:42,528 und es gibt eine Übersetzung dieses Wortes in dieses Sprachstadium, 546 00:32:42,528 --> 00:32:47,587 und wenn wir es erweitern und mehr Wörter beschreiben, 547 00:32:47,587 --> 00:32:49,223 wird mehr möglich. 548 00:32:49,223 --> 00:32:51,525 Was wird nun möglich? 549 00:32:53,482 --> 00:32:59,303 Wie Ben, unser Hauptredner vorhin, sprach über Übersetzungen, 550 00:33:00,103 --> 00:33:03,265 über die Möglichkeit, von einer Sprache in eine andere zu übersetzen. 551 00:33:03,265 --> 00:33:07,769 Und Jens, mein Kollege, er spricht immer davon, 552 00:33:07,769 --> 00:33:11,452 dass die Europäische Union einen Übersetzer sucht, 553 00:33:11,452 --> 00:33:17,439 der aus dem Maltesischen ins Schwedische übersetzen kann, war es Maltesisch? 554 00:33:17,439 --> 00:33:19,436 - (Person 8) Estnisch. - (Lydia) Estnisch. 555 00:33:22,016 --> 00:33:26,211 Und das ist keine übliche Kombination. 556 00:33:27,211 --> 00:33:31,535 Aber wenn man all diese Sprachen an einem maschinenlesbaren Ort hat, 557 00:33:31,535 --> 00:33:33,023 kann man das tun, 558 00:33:33,023 --> 00:33:36,757 man kann ein Wörterbuch 559 00:33:36,757 --> 00:33:41,735 von Estnisch nach Maltesisch und zurück bekommen. 560 00:33:42,935 --> 00:33:45,607 Also Sprachkombinationen in Wörterbüchern abzudecken, 561 00:33:45,607 --> 00:33:47,911 die vorher einfach nicht abgedeckt wurden, 562 00:33:47,911 --> 00:33:51,050 weil es nicht genug Nachfrage dafür gab, zum Beispiel, 563 00:33:51,050 --> 00:33:55,540 um die Arbeit finanziell tragbar zu machen und zu rechtfertigen. 564 00:33:55,540 --> 00:33:57,067 Jetzt können wir das tun. 565 00:33:59,797 --> 00:34:02,048 Dann die Texterstellung. 566 00:34:02,048 --> 00:34:04,253 Lucie hat vorhin davon gesprochen, 567 00:34:04,253 --> 00:34:10,136 wie sie mit Hattie an der Textgenerierung arbeitet, 568 00:34:10,136 --> 00:34:14,523 um Wikipedia-Artikel in Minderheitensprachen zu erstellen, 569 00:34:15,423 --> 00:34:19,512 und dazu braucht man Daten über Wörter, 570 00:34:19,512 --> 00:34:22,529 und dazu muss man die Sprache verstehen. 571 00:34:23,769 --> 00:34:27,773 Ja, und das sind nur einige, die mir gerade in den Sinn kommen. 572 00:34:28,693 --> 00:34:30,494 Vielleicht hat unser Publikum mehr Ideen, 573 00:34:30,494 --> 00:34:34,253 was es tun möchte, wenn wir all die herrlichen Daten haben. 574 00:34:37,693 --> 00:34:40,892 (Person 9) Okay, ich werde vom Thema Lexeme abweichen. 575 00:34:40,892 --> 00:34:42,666 Ich werde die Frage stellen, 576 00:34:42,666 --> 00:34:45,634 wie kann ich als Mitglied der Community 577 00:34:45,634 --> 00:34:50,135 darauf Einfluss nehmen, dass die Priorität auf die Aufgabe gelegt wird, 578 00:34:50,135 --> 00:34:53,724 dass ein neuer Benutzer angeben kann, 579 00:34:53,724 --> 00:34:56,644 welche Sprachen er sehen und bearbeiten möchte, 580 00:34:56,644 --> 00:35:01,135 ohne dass er geheime verbale Vorlagenkenntnisse hat. 581 00:35:02,145 --> 00:35:05,053 Vielleicht wird es dieses Jahr diese technische Wunschliste 582 00:35:05,053 --> 00:35:07,040 ohne Wikipedia-Themen geben. 583 00:35:07,040 --> 00:35:10,969 Vielleicht gibt es eine Hoffnung, dass wir alle über diese Sache abstimmen können, 584 00:35:10,969 --> 00:35:14,018 die wir sieben Jahre lang nicht geregelt haben. 585 00:35:14,018 --> 00:35:17,607 Haben Sie also irgendwelche Ideen und Kommentare dazu? 586 00:35:18,217 --> 00:35:20,328 Sie sprechen also davon, 587 00:35:20,328 --> 00:35:23,248 dass jemand, der nicht in Wikidata eingeloggt ist, 588 00:35:23,248 --> 00:35:25,631 seine Sprache nicht einfach ändern kann? 589 00:35:25,631 --> 00:35:27,839 (Person 9) Nein, für [unhörbare] Benutzer. 590 00:35:28,309 --> 00:35:30,689 (Lydia) Wenn sie also eingeloggt sind, 591 00:35:30,689 --> 00:35:34,871 können sie ihre Sprache einfach oben auf der Seite ändern, 592 00:35:35,891 --> 00:35:38,099 und dann erscheint, 593 00:35:39,769 --> 00:35:42,013 wo die Beschreibung [unhörbar] steht 594 00:35:42,013 --> 00:35:43,553 und sie können sie bearbeiten. 595 00:35:45,657 --> 00:35:49,009 (Person 9) Nun, eigentlich ist der Arbeitsablauf oft so, 596 00:35:49,009 --> 00:35:52,447 dass, wenn Sie mehrere Sprachen haben wollen, diese angeboten werden, 597 00:35:52,447 --> 00:35:55,298 das nicht immer der Fall ist. 598 00:35:55,298 --> 00:35:58,287 (Lydia) Okay, vielleicht sollten wir uns nach diesem Vortrag zusammensetzen 599 00:35:58,287 --> 00:35:59,507 und Sie zeigen es mir. 600 00:36:01,562 --> 00:36:04,009 Cool. Noch mehr Fragen? 601 00:36:05,444 --> 00:36:06,446 Ja. 602 00:36:11,595 --> 00:36:13,196 (Person 10) Danke für die Präsentation. 603 00:36:14,106 --> 00:36:15,517 Können Sie den Stand 604 00:36:15,517 --> 00:36:19,307 der Korrelation mit der Wiktionary-Community kommentieren? 605 00:36:19,307 --> 00:36:22,296 Soweit ich gesehen habe, gab es einige Diskussionen 606 00:36:22,296 --> 00:36:26,051 über den Import einiger Elemente der Arbeit, 607 00:36:26,051 --> 00:36:30,843 aber es scheint, Lizenzprobleme und einige Meinungsverschiedenheiten usw. zu geben. 608 00:36:30,843 --> 00:36:32,008 (Lydia) Das stimmt. 609 00:36:32,008 --> 00:36:36,330 Die Wiktionary-Community hat also viel Zeit 610 00:36:37,320 --> 00:36:39,473 mit dem Aufbau von Wiktionary verbracht. 611 00:36:39,473 --> 00:36:42,643 Sie haben erstaunlich komplizierte 612 00:36:43,193 --> 00:36:47,554 und komplexe Vorlagen gebaut, 613 00:36:47,554 --> 00:36:53,614 um hübsche Tabellen zu erstellen, die automatisch Formen für Sie 614 00:36:53,614 --> 00:36:56,392 und alle möglichen wirklich beeindruckenden 615 00:36:56,392 --> 00:37:00,523 und verrückten Dinge erzeugen, wenn Sie darüber nachdenken. 616 00:37:02,311 --> 00:37:07,994 Und natürlich haben sie eine Menge Zeit und Mühe in diese Arbeit investiert. 617 00:37:09,364 --> 00:37:12,801 Und verständlicherweise wollen die nicht, 618 00:37:12,801 --> 00:37:17,016 dass man sich das einfach grabscht. 619 00:37:18,046 --> 00:37:19,102 einfach so. 620 00:37:19,102 --> 00:37:21,567 Einiges davon kommt also von dort. 621 00:37:22,761 --> 00:37:24,987 Und das ist gut so, das ist okay. 622 00:37:25,737 --> 00:37:32,012 Die ersten Wiktionary-Communities sprechen nun davon, 623 00:37:32,012 --> 00:37:34,329 einige ihrer Daten in Wikidata zu importieren. 624 00:37:34,329 --> 00:37:39,095 Russisch, das Sie gesehen haben, ist zum Beispiel einer dieser Fälle, 625 00:37:40,375 --> 00:37:42,545 und ich erwarte, dass noch mehr davon realisiert wird. 626 00:37:43,635 --> 00:37:46,704 Aber es wird ein langsamer Prozess sein, 627 00:37:46,704 --> 00:37:49,383 so wie die Übernahme der Daten von Wikidata in Wikipedia 628 00:37:49,383 --> 00:37:51,909 ein ziemlich langsamer Prozess war. 629 00:37:52,849 --> 00:37:56,183 Auf der anderen Seite ist es einfacher, 630 00:37:56,183 --> 00:37:59,512 die Daten, die in Lexemen auf Wiktionary stehen, 631 00:37:59,512 --> 00:38:02,209 tatsächlich zu nutzen, so dass sie diese nutzen 632 00:38:02,209 --> 00:38:05,531 und Daten zwischen den Wiktionaries austauschen können, 633 00:38:05,531 --> 00:38:08,853 was im Moment super schwer bis unmöglich ist, 634 00:38:08,853 --> 00:38:11,560 was verrückt ist, genau wie bei Wikipedia. 635 00:38:13,860 --> 00:38:16,325 Warten Sie auf das Geburtstagsgeschenk. (lacht) 636 00:38:19,928 --> 00:38:21,072 Ja. 637 00:38:22,599 --> 00:38:24,827 (Person 11) Als ich andersherum dachte, 638 00:38:24,827 --> 00:38:28,168 wollte ich es eigentlich nicht sagen, weil ich denke, es wird super albern sein, 639 00:38:28,168 --> 00:38:32,003 aber ich denke, dass Wiktionary bereits einige Inhalte hat, 640 00:38:32,003 --> 00:38:34,978 und ich weiß, dass wir diese nicht auf Wikidata übertragen können, 641 00:38:34,978 --> 00:38:37,048 weil es einen Unterschied in den Lizenzen gibt. 642 00:38:37,048 --> 00:38:39,631 Aber ich dachte, dass wir vielleicht etwas deswegen tun können. 643 00:38:40,321 --> 00:38:45,513 Vielleicht, ich weiß nicht, können wir die Erlaubnis der Communities einholen, 644 00:38:45,513 --> 00:38:51,205 nachdem wir eine öffentliche Abstimmung durchgeführt haben 645 00:38:51,705 --> 00:38:56,042 und die aktiven Mitglieder der Gemeinschaft abstimmen 646 00:38:56,042 --> 00:38:57,482 und sagen können, 647 00:38:57,482 --> 00:39:02,523 ob sie die Inhalte, für die sie die Wikidata-Lexeme machen dürfen, 648 00:39:02,523 --> 00:39:05,528 annehmen oder übertragen möchten. 649 00:39:06,238 --> 00:39:08,647 Weil ich es einfach für eine solche Verschwendung halte. 650 00:39:09,568 --> 00:39:14,443 Also, das ist definitiv im Gespräch, dass die Leute, 651 00:39:14,443 --> 00:39:18,249 die in Wiktionary-Communities sind, das dort zur Sprache bringen. 652 00:39:18,249 --> 00:39:24,487 Ich denke, es wäre ein bisschen anmaßend, wenn wir das erzwingen würden. 653 00:39:25,917 --> 00:39:31,142 Aber, ja, ich denke, es ist auf jeden Fall ein Gespräch wert. 654 00:39:31,142 --> 00:39:33,898 Aber ich denke, es ist auch wichtig, zu verstehen, 655 00:39:33,898 --> 00:39:39,082 dass es einen Unterschied gibt zwischen dem, was gesetzlich erlaubt ist 656 00:39:39,082 --> 00:39:43,007 und was wir tun sollten, 657 00:39:43,007 --> 00:39:45,426 und dem, was diese Leute wollen oder nicht wollen. 658 00:39:45,736 --> 00:39:47,429 Selbst wenn es also rechtlich erlaubt ist, 659 00:39:47,429 --> 00:39:50,640 wenn einige Wiktionary-Communities das nicht wollen, 660 00:39:50,640 --> 00:39:53,243 wäre ich zumindest vorsichtig. 661 00:39:58,886 --> 00:40:02,259 Ich denke, Sie brauchen das Mikro für den Stream. 662 00:40:04,540 --> 00:40:07,299 (Person 12) Also, offensichtlich ist das alles sehr aufregend, 663 00:40:07,979 --> 00:40:12,197 und ich denke sofort, wie kann ich das meinen Studenten vermitteln 664 00:40:12,197 --> 00:40:15,248 und wie kann ich es in die Kurse, 665 00:40:15,248 --> 00:40:18,531 die Arbeit, die wir machen, und die Bildungseinrichtungen integrieren. 666 00:40:18,531 --> 00:40:22,271 Und mir fehlt im Moment 667 00:40:22,511 --> 00:40:24,116 noch das Wissen, 668 00:40:24,116 --> 00:40:27,023 aber ich denke, die Dokumentation, die wir haben, 669 00:40:27,808 --> 00:40:29,992 vielleicht verbessert werden könnte. 670 00:40:29,992 --> 00:40:33,437 Das ist also eine Art Aufforderung, coole Videos zu machen, 671 00:40:33,437 --> 00:40:35,898 die erklären, wie es funktioniert, 672 00:40:35,898 --> 00:40:39,948 denn wenn wir das haben, können wir es nutzen, 673 00:40:39,948 --> 00:40:41,985 und wir können Studenten an Bord ziehen, 674 00:40:41,985 --> 00:40:47,012 und wir können den Leuten verständlich machen, wie fantastisch das alles ist. 675 00:40:47,012 --> 00:40:52,001 Und ja, denken Sie an die Dokumentation und denken Sie an die Ausbildung, bitte. 676 00:40:52,001 --> 00:40:54,480 Denn ich denke, es könnte eine Menge getan werden. 677 00:40:54,480 --> 00:40:58,585 Dies sind schon viele Aufgaben, die auch mit... 678 00:41:00,125 --> 00:41:02,033 na ja, ich würde nicht sagen Grundschulen, 679 00:41:02,033 --> 00:41:05,495 aber sicherlich auch mit jüngeren Studenten durchgeführt werden könnten. 680 00:41:05,915 --> 00:41:10,793 Und deshalb würde ich es gerne sehen, dass dieses Potenzial genutzt wird, 681 00:41:10,793 --> 00:41:15,062 und ich persönlich verstehe noch nicht genug, 682 00:41:15,062 --> 00:41:19,020 um Aufgaben zu erstellen oder so etwas wie... 683 00:41:20,300 --> 00:41:22,275 etwas Praktisches daraus zu machen. 684 00:41:22,275 --> 00:41:25,772 Wenn also jemand hier Hilfe oder Gedanken dazu hat, 685 00:41:25,772 --> 00:41:29,648 würde ich mich sehr freuen, Ihre Ideen zu hören, und Ihre auch. 686 00:41:30,508 --> 00:41:32,199 (Lydia) Ja, lassen Sie uns darüber reden. 687 00:41:35,453 --> 00:41:36,949 Noch Fragen? 688 00:41:37,709 --> 00:41:39,285 Jemand anderes hat die Hand gehoben. 689 00:41:39,285 --> 00:41:40,715 Ich habe vergessen, wer das war. 690 00:41:45,739 --> 00:41:49,779 (Person 13) Wenn wir also nicht aus Wiktionary importieren können, 691 00:41:49,779 --> 00:41:52,055 gibt es eine konzertierte Anstrengung, 692 00:41:52,055 --> 00:41:55,772 um andere öffentlich zugängliche Quellen zu finden, 693 00:41:55,772 --> 00:41:57,459 vielleicht alle Daten, 694 00:41:58,769 --> 00:42:03,167 und eine Art Vorfilter, um sie so zu organisieren, 695 00:42:03,167 --> 00:42:08,470 dass sie von Leuten beim Import einfach überprüft werden können? 696 00:42:09,093 --> 00:42:11,181 Es gibt also erste Bemühungen. 697 00:42:11,181 --> 00:42:14,769 Nach meinem Verständnis ist das Baskische eine dieser Bemühungen. 698 00:42:14,769 --> 00:42:17,474 Vielleicht möchten Sie etwas mehr darüber sagen? 699 00:42:18,426 --> 00:42:20,130 (Person 14) [unhörbar] 700 00:42:23,166 --> 00:42:27,148 Okay, die eigentliche Antwort ist, dafür zu bezahlen... 701 00:42:28,374 --> 00:42:31,914 Ich meine, wir haben eine Vereinbarung mit einem Auftragnehmer, 702 00:42:31,914 --> 00:42:33,760 mit dem wir normalerweise zusammenarbeiten. 703 00:42:34,801 --> 00:42:38,321 Sie machen Wörterbücher-- 704 00:42:40,315 --> 00:42:42,458 viele Dinge, aber sie machen Wörterbücher. 705 00:42:42,458 --> 00:42:44,734 Also haben wir mit ihnen vereinbart, 706 00:42:44,734 --> 00:42:47,473 das Studenten-Wörterbuch kostenlos zu machen, 707 00:42:47,473 --> 00:42:52,782 wir würden die häufigsten Wörter auswählen und damit beginnen, 708 00:42:52,782 --> 00:42:55,590 es mit einer externen Kennung und dem Schema der Dinge hochzuladen. 709 00:42:56,420 --> 00:43:00,464 Aber es gab einige Diskussionen darüber, 710 00:43:00,464 --> 00:43:02,722 es auf CC0 zu belassen, 711 00:43:03,212 --> 00:43:05,522 weil sie das Wörterbuch bei CC dabei haben, 712 00:43:06,537 --> 00:43:10,065 und sie verstanden, was der Unterschied war. 713 00:43:10,065 --> 00:43:13,704 Es gab also einige Diskussionen. 714 00:43:13,704 --> 00:43:19,246 Aber ich denke, dass wir in Zukunft einige Werkzeuge oder Beispiele 715 00:43:19,246 --> 00:43:20,761 zur Verfügung stellen können, 716 00:43:20,761 --> 00:43:22,891 und ich denke, dass es andere Wörterbücher geben wird, 717 00:43:22,891 --> 00:43:24,206 mit denen wir umgehen können, 718 00:43:24,206 --> 00:43:29,049 und ich denke auch, dass Wiktionary in diese Richtung gehen sollte, 719 00:43:29,049 --> 00:43:32,069 aber das ist eine weitere umfangreiche Diskussion. 720 00:43:33,285 --> 00:43:34,487 Und darüber hinaus 721 00:43:34,487 --> 00:43:38,619 steht Lea auch in Kontakt mit Leuten aus Okzitan, 722 00:43:38,619 --> 00:43:41,827 die an okzitanischen Wörterbüchern arbeiten, 723 00:43:41,827 --> 00:43:45,058 und sie arbeiten derzeit an einer sumerischen Zusammenarbeit. 724 00:43:51,504 --> 00:43:53,253 Noch weitere Fragen? 725 00:44:01,487 --> 00:44:05,349 (Person 15) Hallo! Wir sind die Leute, die okzitanische Daten importieren wollen. 726 00:44:05,349 --> 00:44:06,646 (Lydia) Aha! Perfekt! 727 00:44:06,646 --> 00:44:08,518 (Person 15) Und wir haben ein kleines Problem. 728 00:44:09,188 --> 00:44:14,215 Wir wissen nicht, wie wir die Vielfalt aller Lexeme darstellen können. 729 00:44:14,215 --> 00:44:17,503 Wir haben sechs Dialekte, 730 00:44:17,503 --> 00:44:23,754 und wir wollen für Lexeme angeben, in welchem Dialekt es verwendet wird, 731 00:44:23,754 --> 00:44:27,285 und wir haben keine richtige C0-Anweisung, um das zu tun. 732 00:44:27,285 --> 00:44:31,105 Solange das Segment also nicht existiert, 733 00:44:31,635 --> 00:44:34,465 verhindert es, dass wir es [unhörbar] machen, 734 00:44:34,465 --> 00:44:37,603 weil wir es noch einmal machen müssen, 735 00:44:37,603 --> 00:44:41,956 wenn wir die Anweisung exportieren können. 736 00:44:41,956 --> 00:44:44,551 Und es ist kompliziert, weil es eine Aussage ist, 737 00:44:44,551 --> 00:44:47,802 die nicht von vielen Leuten gefragt wird, 738 00:44:47,802 --> 00:44:53,024 weil es eine Aussage ist, die vor allem Minderheitensprachen betrifft. 739 00:44:53,254 --> 00:44:56,933 Sie werden also eine Person haben, die das fragen kann. 740 00:44:56,933 --> 00:45:00,022 Aber wie unsere baskischen Kollegen 741 00:45:00,022 --> 00:45:05,844 kann es eine Person sein, die Tausende von anderen antreibt, 742 00:45:05,844 --> 00:45:10,884 also es ist vielleicht nicht sehr viel verlangt, 743 00:45:10,884 --> 00:45:13,796 aber es wird für uns sehr wichtig sein. 744 00:45:14,874 --> 00:45:17,410 (Lydia) Haben Sie bereits einen neuen Eigenschaftenvorschlag 745 00:45:17,410 --> 00:45:19,470 oder brauchen Sie Hilfe bei dessen Erstellung? 746 00:45:21,524 --> 00:45:24,300 (Person 15) Wir haben vor vier Monaten danach gefragt. 747 00:45:24,720 --> 00:45:26,689 (Lydia) Na gut, dann holen wir uns ein paar Leute, 748 00:45:26,689 --> 00:45:28,832 die uns bei diesem Eigenschaftenvorschlag helfen. 749 00:45:30,159 --> 00:45:33,152 Ich bin sicher, es sind genug Leute in diesem Raum, um dies zu ermöglichen. 750 00:45:33,360 --> 00:45:36,283 (Person 15) Eigenschaftenvorschlag [spricht Französisch]. 751 00:45:36,510 --> 00:45:38,619 Wir bekamen keine Antwort und wissen nicht, 752 00:45:38,619 --> 00:45:40,189 wie wir das machen sollen, 753 00:45:40,189 --> 00:45:42,843 weil wir nicht in der Wikidata-Community sind. 754 00:45:44,694 --> 00:45:48,307 (Lydia) Ja, also gibt es hier Leute, die Ihnen helfen können. 755 00:45:48,307 --> 00:45:51,247 Vielleicht hebt jemand die Hand, um-- 756 00:45:52,424 --> 00:45:53,644 (Person 14) Nicht dafür. 757 00:45:53,644 --> 00:45:55,512 Aber ich denke, das ist ziemlich interessant, 758 00:45:55,512 --> 00:45:58,559 dass nur die Variante der Form 759 00:45:58,559 --> 00:46:02,607 auch geographisch, mit Koordinaten 760 00:46:02,607 --> 00:46:04,995 oder einer Art von Kartierung, damit umgehen kann. 761 00:46:05,595 --> 00:46:07,815 Auch unterschiedliche Aussprachen zu haben, 762 00:46:07,815 --> 00:46:11,837 und ich denke, das ist etwas, das in vielen Sprachen geschieht. 763 00:46:12,607 --> 00:46:16,262 Wir sollten damit anfangen. 764 00:46:16,262 --> 00:46:18,865 Und ich werde nach der Eigenschaft suchen. 765 00:46:19,782 --> 00:46:20,933 (Lydia) Cool. 766 00:46:20,933 --> 00:46:24,256 Sie erhalten also Unterstützung für Ihren Eigenschaftenvorschlag. 767 00:46:25,936 --> 00:46:27,297 Ich danke Ihnen. 768 00:46:28,153 --> 00:46:30,261 In Ordnung, noch Fragen? 769 00:46:32,280 --> 00:46:33,344 Finn. 770 00:46:33,774 --> 00:46:35,095 Finn ist einer dieser Leute, 771 00:46:35,095 --> 00:46:37,765 die auf lexikografischen Daten aufbauen. 772 00:46:37,765 --> 00:46:40,085 (Finn) Es ist nur eine kleine Frage, 773 00:46:40,405 --> 00:46:44,226 und es geht um Variationen in der Rechtschreibung. 774 00:46:44,896 --> 00:46:48,002 Es scheint, schwierig zu sein, sie in... 775 00:46:48,532 --> 00:46:53,368 Man könnte natürlich mehrere Formen für dasselbe Wort haben. 776 00:46:56,327 --> 00:46:58,448 Ich weiß nicht, es scheint... 777 00:46:59,558 --> 00:47:03,535 Wenn man es nicht so macht, scheint es, schwierig zu sein, es zu spezifizieren... 778 00:47:04,611 --> 00:47:05,888 oder ich weiß nicht, 779 00:47:05,888 --> 00:47:09,591 ob es sich nur um eine kleine technische Frage handelt oder ob... 780 00:47:09,591 --> 00:47:11,252 (Lydia) Betrachten wir es gemeinsam. 781 00:47:11,642 --> 00:47:14,990 Ich würde gerne ein Beispiel sehen. 782 00:47:17,478 --> 00:47:18,478 Asaf. 783 00:47:26,616 --> 00:47:28,126 (Asaf) Vielen Dank. 784 00:47:29,386 --> 00:47:33,685 Ich kann ein sehr konkretes Beispiel aus meiner Muttersprache, Hebräisch, nennen. 785 00:47:34,205 --> 00:47:38,374 Im Hebräischen gibt es zwei Hauptvarianten, 786 00:47:38,374 --> 00:47:42,362 um fast jedes Wort auszudrücken, 787 00:47:42,506 --> 00:47:47,270 weil die traditionelle Schreibweise 788 00:47:47,270 --> 00:47:49,755 viele Vokale auslässt. 789 00:47:50,934 --> 00:47:55,064 Und deshalb werden in modernen Ausgaben der Bibel und der Poesie 790 00:47:55,064 --> 00:47:57,251 diakritische Zeichen verwendet. 791 00:47:57,251 --> 00:48:02,670 Diese diakritischen Zeichen werden jedoch nie für moderne Prosa, 792 00:48:02,670 --> 00:48:05,604 Zeitungstexte oder Straßenschilder verwendet. 793 00:48:05,604 --> 00:48:11,209 Der durchschnittliche tägliche Gebrauch legt also zusätzliche Vokale hinein 794 00:48:12,169 --> 00:48:13,968 und verwendet die diakritischen Zeichen nicht, 795 00:48:13,968 --> 00:48:15,607 weil sie natürlich umständlicher sind 796 00:48:15,607 --> 00:48:18,044 und alle möglichen Regeln haben und niemand die Regeln kennt. 797 00:48:18,633 --> 00:48:20,531 Es gibt also grundsätzlich zwei Varianten. 798 00:48:20,531 --> 00:48:25,042 Es gibt die alltägliche, beiläufige Prosa-Variante, 799 00:48:25,042 --> 00:48:27,827 und es gibt die Bibel oder die Poesie, 800 00:48:27,827 --> 00:48:31,970 die immer in diesem traditionellen diakritischierten Text vorkommen. 801 00:48:31,970 --> 00:48:33,302 Um nützlich zu sein, 802 00:48:33,302 --> 00:48:37,208 müsste Lexeme sowohl Varianten jedes einzelnen Wortes 803 00:48:37,208 --> 00:48:39,867 als auch jede einzelne Form jedes einzelnen Wortes erkennen. 804 00:48:40,677 --> 00:48:43,391 Das ist also ein sehr umfassender Anwendungsfall 805 00:48:43,391 --> 00:48:46,340 für offizielle stabile Varianten. 806 00:48:46,340 --> 00:48:48,942 Es ist kein Dialekt, es sind keine Regionen, 807 00:48:49,332 --> 00:48:53,627 es sind im Grunde zwei nebeneinander existierende morphologische Systeme. 808 00:48:54,537 --> 00:48:56,656 Und auch ich weiß nicht genau, 809 00:48:56,656 --> 00:48:58,926 wie ich das momentan in Lexeme ausdrücken soll. 810 00:48:58,926 --> 00:49:02,790 Das ist eine Sache, die mich-- als Teilantwort auf Magnus' Frage-- 811 00:49:02,790 --> 00:49:05,238 davon abhält, die Teile hochzuladen, 812 00:49:05,238 --> 00:49:09,394 die aus dem größten hebräischen Wörterbuch, das öffentlich zugänglich ist 813 00:49:09,394 --> 00:49:13,141 und das ich seit einigen Jahren digitalisiere, stammen. 814 00:49:13,141 --> 00:49:14,803 Ein guter Teil davon ist fertig, 815 00:49:14,803 --> 00:49:16,549 aber ich stelle es jetzt nicht auf Lexeme, 816 00:49:16,549 --> 00:49:20,018 weil ich nicht genau weiß, wie ich dieses Problem lösen soll. 817 00:49:20,018 --> 00:49:23,387 (Lydia) In Ordnung, lösen wir das Problem hier. (lacht) 818 00:49:24,393 --> 00:49:25,911 Das muss doch möglich sein. 819 00:49:30,045 --> 00:49:32,047 In Ordnung, noch Fragen? 820 00:49:37,173 --> 00:49:39,735 Wenn nicht, dann danke ich Ihnen vielmals. 821 00:49:40,605 --> 00:49:42,675 (Beifall)