1 00:00:05,888 --> 00:00:09,312 Existem aproximadamente 7.500 línguas 2 00:00:09,312 --> 00:00:10,806 a serem faladas no planeta hoje. 3 00:00:11,770 --> 00:00:13,808 Destas, estima-se 4 00:00:13,808 --> 00:00:18,466 que cerca de 70% estão em risco de não sobreviver 5 00:00:18,466 --> 00:00:20,355 até ao fim do século XXI. 6 00:00:22,270 --> 00:00:24,266 Sempre que uma língua morre, 7 00:00:24,711 --> 00:00:26,622 é como cortar uma ligação 8 00:00:26,622 --> 00:00:30,590 que durou centenas ou milhares de anos, 9 00:00:30,590 --> 00:00:34,816 com cultura, com história, 10 00:00:35,320 --> 00:00:38,150 tradições, e conhecimento. 11 00:00:38,933 --> 00:00:42,250 O linguista Kenneth Hale disse uma vez 12 00:00:42,250 --> 00:00:44,183 que toda vez que uma língua morre, 13 00:00:44,183 --> 00:00:46,794 é como lançar uma bomba atómica no Louvre. 14 00:00:50,783 --> 00:00:52,494 A pergunta é, 15 00:00:52,730 --> 00:00:54,800 por que é que as línguas morrem? 16 00:00:58,014 --> 00:01:00,155 Talvez a resposta mais simples seja 17 00:01:00,162 --> 00:01:03,051 que alguém possa imaginar governos autoritários 18 00:01:03,051 --> 00:01:05,311 a impedir que as pessoas falassem o idioma nativo, 19 00:01:05,844 --> 00:01:09,630 crianças a ser punidas por falarem a sua língua na escola, 20 00:01:09,866 --> 00:01:12,911 ou o governo a fechar estações de rádio 21 00:01:12,923 --> 00:01:14,644 do idioma da minoria. 22 00:01:15,044 --> 00:01:16,977 Isso aconteceu definitivamente no passado, 23 00:01:16,977 --> 00:01:19,088 e ainda acontece hoje, de certo modo. 24 00:01:19,616 --> 00:01:23,026 Mas a resposta honesta 25 00:01:23,026 --> 00:01:26,666 é que na maioria dos casos de extinção de uma língua, 26 00:01:27,296 --> 00:01:29,336 é uma muito mais simples 27 00:01:29,336 --> 00:01:32,555 e facílima resposta. 28 00:01:33,696 --> 00:01:36,222 As línguas acabam extintas 29 00:01:36,220 --> 00:01:37,888 porque não são passadas 30 00:01:37,888 --> 00:01:39,733 de uma geração para a outra. 31 00:01:42,280 --> 00:01:43,866 Cada vez que uma pessoa que fala 32 00:01:43,866 --> 00:01:46,088 uma língua minoritária tem um filho, 33 00:01:46,752 --> 00:01:50,355 passa por um dilema. 34 00:01:51,360 --> 00:01:53,030 As pessoas perguntam-se: 35 00:01:53,660 --> 00:01:56,288 "Será que ensino a minha língua para o meu filho, 36 00:01:56,770 --> 00:02:01,311 ou ensino-lhe a língua da maioria?" 37 00:02:01,311 --> 00:02:03,222 Essencialmente, essa é a ideia 38 00:02:03,900 --> 00:02:05,844 que lhes passa pela cabeça. 39 00:02:06,720 --> 00:02:08,355 Em que, por um lado, 40 00:02:09,530 --> 00:02:11,733 cada vez que nas suas vidas 41 00:02:11,737 --> 00:02:14,222 que tiveram a oportunidade de usar a língua nativa 42 00:02:14,866 --> 00:02:18,490 para comunicação, para aceder a cultura tradicional, 43 00:02:19,776 --> 00:02:21,748 uma pedra é colocada no lado esquerdo. 44 00:02:22,228 --> 00:02:23,840 E cada vez que se encontram 45 00:02:23,840 --> 00:02:25,755 incapacitados de usarem a língua nativa, 46 00:02:25,770 --> 00:02:27,955 e tiveram de se relegar à língua da maioria, 47 00:02:27,958 --> 00:02:30,066 uma pedra é colocada no lado direito. 48 00:02:31,822 --> 00:02:34,800 Agora, pela força e pela dignidade 49 00:02:34,800 --> 00:02:36,600 de ser capaz de falar a língua materna, 50 00:02:36,600 --> 00:02:38,720 as pedras do lado esquerdo costumam ser mais pesadas. 51 00:02:38,720 --> 00:02:42,048 Mas com pedras suficientes no lado direito, 52 00:02:42,560 --> 00:02:44,600 eventualmente a balança inverte 53 00:02:44,600 --> 00:02:47,111 e quando uma pessoa toma a decisão 54 00:02:47,111 --> 00:02:49,150 de ensinar a sua língua, 55 00:02:49,160 --> 00:02:50,622 eles veem a própria linguagem 56 00:02:50,622 --> 00:02:52,820 mais como um fardo do que uma benção. 57 00:02:55,590 --> 00:02:58,676 A pergunta é, como revertemos isto? 58 00:02:59,450 --> 00:03:01,777 Primeiro, precisamos pensar sobre o facto de, 59 00:03:03,511 --> 00:03:05,141 que para qualquer língua existente 60 00:03:05,141 --> 00:03:07,900 existem esferas sociais onde podem ser usadas. 61 00:03:07,900 --> 00:03:08,976 Então, qualquer língua 62 00:03:08,976 --> 00:03:10,800 que é uma língua materna falada hoje, 63 00:03:10,800 --> 00:03:12,990 pode ser usada na família de alguém. 64 00:03:13,790 --> 00:03:16,671 Um número menor de línguas podem ser usadas dentro de uma comunidade, 65 00:03:16,671 --> 00:03:18,660 um número ainda menor, talvez numa região, 66 00:03:19,288 --> 00:03:22,155 e um pequeno punhado de línguas, 67 00:03:22,511 --> 00:03:24,697 podem ser usados na comunicação internacional. 68 00:03:25,824 --> 00:03:28,640 E mesmo através destas esferas, 69 00:03:28,640 --> 00:03:31,712 existe a pergunta se alguém é capaz de usar a sua língua, 70 00:03:31,712 --> 00:03:35,533 para propósitos educacionais ou de negócio, 71 00:03:35,911 --> 00:03:37,600 ou tecnológicos? 72 00:03:39,136 --> 00:03:41,952 Então, para explicar melhor 73 00:03:43,200 --> 00:03:44,530 o que estou a falar aqui, 74 00:03:44,530 --> 00:03:46,393 vou usar uma anedota. 75 00:03:48,400 --> 00:03:50,400 Vamos dizer que está prestes a ir 76 00:03:50,400 --> 00:03:52,280 para as suas férias de sonho na Índia, 77 00:03:53,155 --> 00:03:56,032 e tem uma escala de oito horas em Istambul. 78 00:03:58,348 --> 00:04:00,896 Agora, não estava necessariamente a pensar em visitar a Turquia, 79 00:04:00,896 --> 00:04:04,266 mas com a escala, e com seu amigo turco 80 00:04:04,266 --> 00:04:05,933 a falar-lhe de um restaurante incrível, 81 00:04:05,933 --> 00:04:07,400 que não é longe do aeroporto, 82 00:04:07,800 --> 00:04:10,600 você diz: "Sabes, se calhar, passo por lá durante a escala." 83 00:04:11,022 --> 00:04:12,920 Então, sai do aeroporto, 84 00:04:13,950 --> 00:04:15,480 vai até o restaurante, 85 00:04:15,480 --> 00:04:17,020 entregam-lhe o menu, 86 00:04:17,020 --> 00:04:19,086 e está todo em turco. 87 00:04:20,170 --> 00:04:22,911 Agora, vamos supor, para este exemplo, 88 00:04:22,911 --> 00:04:24,377 que não fala turco. 89 00:04:25,210 --> 00:04:26,535 O que faz? 90 00:04:28,361 --> 00:04:29,950 Bem, na melhor das hipóteses, 91 00:04:29,950 --> 00:04:32,383 encontra alguém, talvez, que fala a sua língua materna, 92 00:04:32,383 --> 00:04:34,264 alemão, inglês, etc. 93 00:04:36,220 --> 00:04:37,997 Mas vamos dizer que não é o seu dia de sorte 94 00:04:38,000 --> 00:04:41,066 e ninguém no restaurante fala alemão ou inglês. 95 00:04:42,000 --> 00:04:43,377 Então, o que faz? 96 00:04:43,377 --> 00:04:45,995 Se for como eu, e imagino que a maioria aqui seja, 97 00:04:45,995 --> 00:04:48,130 provavelmente recorre a uma solução tecnológica, 98 00:04:49,535 --> 00:04:52,351 tradutor automático ou dicionário digital, 99 00:04:52,607 --> 00:04:54,196 procura cada palavra individualmente, 100 00:04:54,399 --> 00:04:57,733 e eventualmente faz o seu pedido de uma refeição turca deliciosa. 101 00:04:59,970 --> 00:05:02,844 Agora, vamos imaginar outro cenário: 102 00:05:03,610 --> 00:05:06,400 você é o orador nativo de uma língua minoritária. 103 00:05:07,455 --> 00:05:09,333 Imaginemos, baixo sórbio. 104 00:05:09,333 --> 00:05:11,000 Baixo sórbio é uma língua ameaçada 105 00:05:11,000 --> 00:05:12,488 falada aqui na Alemanha, 106 00:05:12,488 --> 00:05:16,888 a cerca de 130 quilómetros a sudeste daqui, 107 00:05:17,711 --> 00:05:20,857 e que é falada apenas por alguns milhares de pessoas, a maioria idosos. 108 00:05:22,810 --> 00:05:25,111 Imaginemos que a sua língua materna é o baixo sórbio. 109 00:05:25,370 --> 00:05:26,773 Chega ao restaurante. 110 00:05:26,773 --> 00:05:28,752 Claro que, a probabilidade de encontrar alguém 111 00:05:28,752 --> 00:05:31,387 que fale a sua língua no restaurante é extraordinariamente baixa. 112 00:05:32,280 --> 00:05:36,412 Mas, de novo, pode simplesmente recorrer a uma solução tecnológica. 113 00:05:36,890 --> 00:05:39,333 Contudo, para a sua língua-mãe, 114 00:05:39,333 --> 00:05:41,718 essas soluções tecnológicas não existem. 115 00:05:42,010 --> 00:05:44,991 Precisaria depender do alemão ou do inglês 116 00:05:44,991 --> 00:05:47,488 como sua língua auxiliar para o turco. 117 00:05:48,920 --> 00:05:52,382 Claro que acaba por conseguir a sua deliciosa refeição turca, 118 00:05:52,382 --> 00:05:54,860 mas começa a pensar no quão difícil isso seria 119 00:05:54,860 --> 00:05:57,170 se você fosse o seu avô, que não falava alemão de todo. 120 00:05:58,244 --> 00:05:59,840 Isto é só uma pequena situação, 121 00:05:59,844 --> 00:06:04,787 mas colocaria uma pedra no lado direito da balança, 122 00:06:05,310 --> 00:06:07,053 e faria-o talvez pensar 123 00:06:07,053 --> 00:06:09,898 que quando tiver um filho ou quando tiver outro filho, 124 00:06:10,943 --> 00:06:14,726 o fardo que carregou por ter passado por isto, 125 00:06:14,726 --> 00:06:17,133 talvez não valha a pena para manter a sua língua-mãe. 126 00:06:19,391 --> 00:06:21,284 E imagine se fosse uma situação 127 00:06:21,284 --> 00:06:26,177 de importância consideravelmente maior, 128 00:06:26,177 --> 00:06:28,380 como, por exemplo, estar num hospital. 129 00:06:32,562 --> 00:06:36,180 Neste ponto podemos ajudar... 130 00:06:36,790 --> 00:06:40,242 por nós, quero dizer eu e você nesta sala podemos ajudar. 131 00:06:41,400 --> 00:06:43,575 Temos as ferramentas para ajudar com isto. 132 00:06:45,155 --> 00:06:47,355 Se as ferramentas tecnológicas estiverem disponíveis 133 00:06:47,355 --> 00:06:49,630 a falantes de línguas minoritárias e ignoradas, 134 00:06:50,555 --> 00:06:54,022 colocamos um dedinho na balança, no lado esquerdo da balança. 135 00:06:54,022 --> 00:06:55,776 Alguém não precisa necessariamente de pensar 136 00:06:55,776 --> 00:06:57,870 que precisam de depender de uma língua minoritária 137 00:06:57,870 --> 00:06:59,664 para poderem interagir com o mundo externo, 138 00:07:00,351 --> 00:07:05,111 pois isso abre as esferas sociais 139 00:07:05,111 --> 00:07:06,328 um pouco mais ainda. 140 00:07:07,910 --> 00:07:10,223 Claro que, a solução ideal 141 00:07:10,223 --> 00:07:13,192 é que tenhamos tradução automática para todas as línguas a nível mundial. 142 00:07:13,332 --> 00:07:16,831 Mas, infelizmente, isso não é fazível. 143 00:07:16,831 --> 00:07:19,800 Tradução automática requer grandes excertos de texto, 144 00:07:19,800 --> 00:07:21,268 e para muitas destas línguas 145 00:07:21,268 --> 00:07:23,080 ameaçadas ou sem muita informação, 146 00:07:23,391 --> 00:07:25,439 esses dados não estão disponíveis. 147 00:07:26,309 --> 00:07:28,279 Alguns nem são frequentemente escritos, 148 00:07:29,000 --> 00:07:32,825 por isso conseguir dados suficientes para um sistema de tradução automática 149 00:07:32,825 --> 00:07:34,390 é improvável. 150 00:07:34,390 --> 00:07:38,060 Mas o que temos disponível são dados léxicos. 151 00:07:40,244 --> 00:07:43,444 Pelo trabalho de muitos linguistas 152 00:07:43,444 --> 00:07:45,440 nas últimas centenas de anos, 153 00:07:47,777 --> 00:07:49,728 dicionários e gramáticas foram produzidas 154 00:07:49,728 --> 00:07:51,680 para a maioria das línguas do mundo. 155 00:07:53,920 --> 00:07:56,511 Mas, infelizmente, a maioria desses trabalhos 156 00:07:56,511 --> 00:08:00,644 não está acessível ou disponível para o mundo, 157 00:08:00,807 --> 00:08:03,693 ainda mais para quem fala estas línguas minoritárias. 158 00:08:04,522 --> 00:08:06,377 E não é um processo intencional, 159 00:08:06,377 --> 00:08:07,910 muitas vezes é simplesmente porque 160 00:08:07,910 --> 00:08:10,785 a produção inicial destes dicionários era pequena, 161 00:08:11,155 --> 00:08:12,543 e as poucas cópias 162 00:08:12,543 --> 00:08:16,244 estão a ganhar bolor numa biblioteca de universidade algures. 163 00:08:17,511 --> 00:08:21,333 Mas temos a habilidade de reunir estes dados 164 00:08:21,333 --> 00:08:23,330 e torná-los acessíveis ao mundo. 165 00:08:24,133 --> 00:08:28,377 A Fundação Wikimedia é uma das melhores organizações, 166 00:08:28,377 --> 00:08:30,555 eu diria a *melhor* organização do mundo, 167 00:08:30,975 --> 00:08:33,396 para reunir dados disponíveis 168 00:08:33,396 --> 00:08:36,688 para a maioria da população deste planeta. 169 00:08:38,533 --> 00:08:40,134 Então, vamos trabalhar nisso. 170 00:08:41,000 --> 00:08:43,222 Para explicar um pouco 171 00:08:43,224 --> 00:08:45,050 o que estivemos a fazer sobre isso, 172 00:08:45,311 --> 00:08:48,127 gostaria de apresentar a minha organização, a PanLex, 173 00:08:48,711 --> 00:08:51,888 que é uma organização que almeja 174 00:08:51,888 --> 00:08:54,146 reunir dados léxicos para este propósito. 175 00:08:54,780 --> 00:08:56,830 Começámos há cerca de 12 anos 176 00:08:56,830 --> 00:08:59,600 como um projeto de pesquisa da Universidade de Washington. 177 00:08:59,600 --> 00:09:01,088 A ideia por trás disto 178 00:09:01,088 --> 00:09:03,990 era mostrar que as traduções inferidas 179 00:09:04,377 --> 00:09:07,125 poderiam criar um dispositivo de tradução eficiente, 180 00:09:07,125 --> 00:09:09,088 essencialmente um dispositivo de tradução léxica. 181 00:09:09,088 --> 00:09:12,223 Este é um exemplo dos dados da PanLex. 182 00:09:12,680 --> 00:09:14,057 Isto mostra como se traduz 183 00:09:14,066 --> 00:09:17,805 da palavra "ev" em turco, que significa casa, 184 00:09:17,805 --> 00:09:19,555 para baixo sórbio, 185 00:09:19,555 --> 00:09:21,201 a língua a que me referi antes. 186 00:09:21,212 --> 00:09:23,190 É improvável encontrarmos 187 00:09:24,333 --> 00:09:26,200 um dicionário de turco para baixo sórbio, 188 00:09:26,200 --> 00:09:28,244 mas passando isto por muitas 189 00:09:28,244 --> 00:09:30,240 e muitas línguas intermédias diferentes, 190 00:09:30,488 --> 00:09:32,600 podemos criar traduções eficientes. 191 00:09:34,333 --> 00:09:36,911 Uma vez que isto foi mostrado nos projetos de pesquisa, 192 00:09:36,911 --> 00:09:39,631 o fundador da PanLex, Dr. Jonathan Pool, 193 00:09:40,711 --> 00:09:43,666 decidiu: "Por que não fazer simplesmente isto?" 194 00:09:43,666 --> 00:09:45,470 Fundou uma empresa sem fins lucrativos 195 00:09:45,470 --> 00:09:48,522 para reunir o máximo de dados léxicos possível, e torná-los acessíveis. 196 00:09:48,911 --> 00:09:51,066 E é isso o que estamos a fazer há 12 anos. 197 00:09:51,256 --> 00:09:54,516 Durante esse tempo, reunimos milhares e milhares de dicionários, 198 00:09:54,516 --> 00:09:56,479 extraímos os dados léxicos deles 199 00:09:56,479 --> 00:10:01,340 e elaborámos uma base de dados que permite inferir traduções léxicas 200 00:10:01,340 --> 00:10:03,755 por entre qualquer... 201 00:10:03,755 --> 00:10:05,866 A nossa contagem actual é aproximadamente 5.500 202 00:10:05,860 --> 00:10:07,955 das 7.500 línguas do mundo. 203 00:10:09,121 --> 00:10:10,685 E, claro, 204 00:10:10,685 --> 00:10:12,221 estamos sempre a tentar aumentar isto 205 00:10:12,221 --> 00:10:14,784 e expandir os dados de cada língua individual. 206 00:10:17,220 --> 00:10:21,111 Então, a próxima pergunta é, 207 00:10:22,079 --> 00:10:25,663 o que podemos fazer para trabalharmos juntos nisso? 208 00:10:26,680 --> 00:10:28,931 Nós, na PanLex, estamos extremamente entusiasmados 209 00:10:28,931 --> 00:10:31,260 em assistir ao desenvolvimento de dados léxicos 210 00:10:31,260 --> 00:10:34,175 em que a Wikidata trabalhou recentemente. 211 00:10:35,155 --> 00:10:37,548 É fascinante ver organizações 212 00:10:37,550 --> 00:10:39,476 que estão a trabalhar em esferas muito similares, 213 00:10:39,476 --> 00:10:41,183 mas em aspectos diferentes. 214 00:10:41,535 --> 00:10:44,351 E estamos extremamente entusiasmados em ver 215 00:10:44,733 --> 00:10:46,466 os resultados disso da Wikidata. 216 00:10:46,466 --> 00:10:51,144 E também esperamos colaborar com a Wikidata. 217 00:10:53,844 --> 00:10:56,271 Penso que as habilidades especiais 218 00:10:56,271 --> 00:10:58,151 que desenvolvemos durante os últimos 12 anos, 219 00:10:58,151 --> 00:11:01,555 não só a reunir dados léxicos, mas a elaborar bases de dados, 220 00:11:01,557 --> 00:11:03,908 podem ser extremamente úteis para a Wikidata. 221 00:11:03,910 --> 00:11:07,111 E por outro lado, penso que... 222 00:11:08,415 --> 00:11:10,975 Estou especialmente entusiasmado pela a capacidade 223 00:11:11,743 --> 00:11:14,549 da Wikidata em fazer crowdsourcing de dados. 224 00:11:15,129 --> 00:11:18,047 Na PanLex atualmente as nossas fontes são inteiramente 225 00:11:18,399 --> 00:11:20,959 provenientes de meios impressos ou outros tipos, 226 00:11:21,170 --> 00:11:22,662 mas não temos nada em crowdsourcing. 227 00:11:22,670 --> 00:11:25,050 Não temos simplesmente infraestrutura disponível para isso, 228 00:11:25,050 --> 00:11:26,931 e claro, a Fundação Wikimedia 229 00:11:26,933 --> 00:11:28,930 é referência mundial em crowdsourcing. 230 00:11:31,458 --> 00:11:33,728 Eu espero realmente ver em como podemos 231 00:11:33,733 --> 00:11:35,680 juntar estas habilidades. 232 00:11:38,533 --> 00:11:41,600 Mas no geral, penso que a ideia principal a retirar disto 233 00:11:41,600 --> 00:11:43,697 é que enquanto estávamos a trabalhar nestas coisas, 234 00:11:43,697 --> 00:11:45,133 é minúcioso. 235 00:11:45,133 --> 00:11:47,533 Estamos sentados à procura de formas gramaticais, 236 00:11:47,533 --> 00:11:51,911 ou a folhear dicionários, dicionários antigos, 237 00:11:51,915 --> 00:11:53,977 ou às vezes dicionários recém-publicados, 238 00:11:53,977 --> 00:11:57,466 e a ver as formas escritas das palavras, 239 00:11:57,466 --> 00:11:59,994 e parece tudo muito específico. 240 00:11:59,994 --> 00:12:01,765 Mas ocasionalmente, precisamos de nos lembrar 241 00:12:01,765 --> 00:12:03,096 de dar um passo atrás 242 00:12:03,096 --> 00:12:05,261 e mesmo que o que fazemos pareça 243 00:12:06,231 --> 00:12:09,271 algo mundano por vezes, 244 00:12:10,091 --> 00:12:11,957 este trabalho é extremamente importante. 245 00:12:13,010 --> 00:12:15,666 Essa, na minha opinião, é a melhor maneira 246 00:12:15,666 --> 00:12:18,862 de apoiarmos línguas ameaçadas 247 00:12:18,862 --> 00:12:21,488 e garantirmos que a diversidade linguística do planeta 248 00:12:21,488 --> 00:12:25,730 seja preservada até ao fim do século, ou além. 249 00:12:26,444 --> 00:12:29,644 É inteiramente possível que o trabalho que fazemos hoje 250 00:12:29,644 --> 00:12:32,577 possa resultar em línguas 251 00:12:32,577 --> 00:12:35,355 a ser preservadas e passadas adiante, 252 00:12:35,355 --> 00:12:37,135 sem se tornarem extintas. 253 00:12:38,527 --> 00:12:40,605 Apenas para recordar 254 00:12:40,605 --> 00:12:43,207 que mesmo que esteja sentado em frente ao computador 255 00:12:43,207 --> 00:12:44,480 editando uma entrada individual 256 00:12:44,480 --> 00:12:49,707 e adicionando formas de dados de uma língua minoritária, 257 00:12:49,707 --> 00:12:51,796 para cada um dos substantivos, 258 00:12:51,800 --> 00:12:54,577 a pequena tarefa que está a fazer agora, 259 00:12:54,577 --> 00:12:57,528 pode ser parcialmente responsável 260 00:12:57,533 --> 00:12:59,155 em garantir que uma língua sobreviva 261 00:12:59,155 --> 00:13:01,060 até ao final do século ou além. 262 00:13:02,591 --> 00:13:03,703 Muito obrigado. 263 00:13:03,703 --> 00:13:05,717 E gostaria de abrir o painel a perguntas. 264 00:13:06,222 --> 00:13:08,373 (Aplausos) 265 00:13:23,688 --> 00:13:24,977 (Pessoa 1) Obrigada. 266 00:13:24,977 --> 00:13:26,701 - Obrigada pela sua palestra. - Obrigado. 267 00:13:26,701 --> 00:13:28,777 (Pessoa 1) Tenho uma pergunta sobre dicionários. 268 00:13:28,777 --> 00:13:31,107 Disse que trabalha com dicionários impressos? 269 00:13:31,107 --> 00:13:32,312 - Sim. - Minha pergunta é 270 00:13:32,312 --> 00:13:34,508 o que recolhe desses dicionários, 271 00:13:34,511 --> 00:13:38,222 e se há algum direito de autor com que precisa de lidar? 272 00:13:38,222 --> 00:13:41,060 Previ que esta seria a primeira pergunta. 273 00:13:41,060 --> 00:13:42,827 (Risadas) 274 00:13:42,827 --> 00:13:46,358 Primeiro, para a PanLex, 275 00:13:46,358 --> 00:13:50,244 temos, de acordo com os recursos legais que consultámos, 276 00:13:52,734 --> 00:13:57,466 embora a disposição e organização do dicionário possa ter esses direitos, 277 00:13:57,466 --> 00:14:03,260 a tradução por si mesma não é passível de ter direitos de autor. 278 00:14:04,170 --> 00:14:05,808 Um bom exemplo para isto é, 279 00:14:05,808 --> 00:14:10,525 uma lista telefónica, pelo menos de acordo com a legislação dos Estados Unidos, 280 00:14:10,956 --> 00:14:11,965 tem direitos de autor. 281 00:14:11,965 --> 00:14:16,800 Mas dizer que o número da pessoa X são D dígitos 282 00:14:16,800 --> 00:14:18,690 não tem direitos de autor. 283 00:14:21,666 --> 00:14:23,444 Então, tal como disse, 284 00:14:23,444 --> 00:14:25,311 de acordo com nossos representantes legais, 285 00:14:25,311 --> 00:14:27,333 lidamos assim com isto. 286 00:14:27,333 --> 00:14:30,666 Mas mesmo que isto não seja um argumento legal suficiente, 287 00:14:30,666 --> 00:14:32,063 uma coisa importante para lembrar 288 00:14:32,063 --> 00:14:38,269 é que a maioria destes dados léxicos 289 00:14:39,355 --> 00:14:40,530 não têm direitos de autor. 290 00:14:40,530 --> 00:14:42,822 Um número significativo deles não têm direitos de autor 291 00:14:42,822 --> 00:14:44,333 e podem ser usados livremente. 292 00:14:44,333 --> 00:14:46,988 E outra coisa, por exemplo, é que frequentemente, 293 00:14:47,311 --> 00:14:49,644 se estamos a trabalhar com um dicionário recém-impresso, 294 00:14:49,640 --> 00:14:51,577 ao invés de tentar escaneá-lo e digitalizá-lo, 295 00:14:51,577 --> 00:14:53,439 nós apenas mandamos um e-mail para o autor. 296 00:14:53,439 --> 00:14:57,600 E o que acontece é na maioria das vezes os linguistas ficarem entusiasmados 297 00:14:57,600 --> 00:14:59,600 em tornarem os seus dados acessíveis. 298 00:14:59,600 --> 00:15:01,267 Algo como: "Claro, por favor, 299 00:15:01,267 --> 00:15:03,273 coloque tudo aí e faça isso acessível." 300 00:15:03,573 --> 00:15:05,423 É extremamente raro que... 301 00:15:05,533 --> 00:15:08,424 Então, como disse, temos, de acordo com nossas opiniões legais, 302 00:15:08,424 --> 00:15:09,466 a possibilidade, 303 00:15:09,466 --> 00:15:11,177 mas mesmo que não queira aceitar isso, 304 00:15:11,177 --> 00:15:15,644 é muito fácil conseguir dados acessíveis publicamente. 305 00:15:26,288 --> 00:15:28,470 - (Pessoa 2) Obrigado. Olá. - Olá. 306 00:15:28,470 --> 00:15:29,830 Pode falar um pouco mais 307 00:15:29,830 --> 00:15:35,031 sobre como a pessoa que fala baixo sórbio acessará os dados. 308 00:15:35,031 --> 00:15:38,355 Especificamente como é que esta informação irá chegar-lhe 309 00:15:38,357 --> 00:15:40,977 e como isso irá convencê-la 310 00:15:40,977 --> 00:15:42,800 a usar... 311 00:15:42,800 --> 00:15:44,680 Ótima pergunta e isto é uma das coisas 312 00:15:44,680 --> 00:15:46,266 que tenho vindo a pensar muito, também, 313 00:15:46,266 --> 00:15:49,759 porque penso que quando falamos sobre acesso de dados 314 00:15:50,270 --> 00:15:53,244 há na verdade múltiplas etapas. 315 00:15:53,244 --> 00:15:56,368 Uma, claro, é a preservação de dados, garantindo que os dados não desaparecem. 316 00:15:56,368 --> 00:15:58,911 Segundo, é fazer com que seja interoperável 317 00:15:59,177 --> 00:16:01,844 e possa ser usado. 318 00:16:01,844 --> 00:16:05,370 E terceiro é garantir que esteja disponível. 319 00:16:05,631 --> 00:16:07,333 No caso da PanLex, 320 00:16:07,333 --> 00:16:09,755 temos uma API que pode ser usada, 321 00:16:09,755 --> 00:16:11,968 mas, claro, não pode ser usada por um utilizador final. 322 00:16:11,968 --> 00:16:14,847 Mas também desenvolvemos interfaces. 323 00:16:15,945 --> 00:16:19,727 E também, por exemplo, se aceder a *translate.panlex.org* 324 00:16:19,728 --> 00:16:22,711 pode fazer traduções na nossa base de dados. 325 00:16:22,711 --> 00:16:25,864 Se quiser brincar com a API, aceda a *dev.panlex.org*, 326 00:16:25,866 --> 00:16:29,222 e encontrará muitas coisas da API, ou aceda a *api.panlex.org*. 327 00:16:30,950 --> 00:16:32,542 Mas há também outro passo, 328 00:16:32,542 --> 00:16:36,577 que é mesmo que torne os seus dados completamente acessíveis 329 00:16:36,570 --> 00:16:40,533 com ferramentas que sejam super úteis para o acesso, 330 00:16:41,210 --> 00:16:43,244 se não promover as ferramentas, 331 00:16:43,244 --> 00:16:45,148 então as pessoas não serão capazes de usá-las. 332 00:16:45,148 --> 00:16:47,177 E isso, sinceramente, é... 333 00:16:48,827 --> 00:16:51,044 uma coisa de que não se fala o suficiente, 334 00:16:51,044 --> 00:16:52,955 e eu não tenho uma boa resposta para isso. 335 00:16:52,955 --> 00:16:54,800 Como garantimos que... 336 00:16:55,022 --> 00:16:56,933 por exemplo, eu só recentemente, 337 00:16:56,933 --> 00:16:59,647 há alguns anos atrás, tomei conhecimento da Wikidata 338 00:16:59,647 --> 00:17:02,463 e é exatamente o tipo de coisa com que fico entusiasmado. 339 00:17:02,970 --> 00:17:07,177 Então, como nos promovemos para os outros? 340 00:17:07,177 --> 00:17:08,780 Vou deixar esta pergunta em aberto. 341 00:17:08,780 --> 00:17:10,800 Como disse, não tenho uma boa resposta. 342 00:17:10,800 --> 00:17:12,888 Mas claro, para fazermos isto, 343 00:17:12,888 --> 00:17:14,880 precisamos de completar as primeiras etapas. 344 00:17:22,133 --> 00:17:24,777 (Pessoa 3) Se quisermos ter tradução automática, 345 00:17:24,777 --> 00:17:27,822 não precisamos de uma memória de tradução? 346 00:17:27,827 --> 00:17:30,666 Não sei se as palavras 347 00:17:30,666 --> 00:17:32,918 que colocamos na Wikidata, 348 00:17:32,918 --> 00:17:36,558 estas pequenas frases que colocamos na Wikidata, 349 00:17:36,558 --> 00:17:41,130 como itens normais da Wikidata ou como lexemas da Wikidata, 350 00:17:41,130 --> 00:17:43,953 são suficientes para fazer uma tradução adequada. 351 00:17:43,955 --> 00:17:46,600 Precisamos de frases inteiras, por exemplo, para... 352 00:17:46,772 --> 00:17:48,320 (Benjamin) Sim, realmente. 353 00:17:48,577 --> 00:17:51,422 (Pessoa 3) E onde conseguimos esta estrutura de dados? 354 00:17:51,422 --> 00:17:55,177 Não tenho certeza, se atualmente, 355 00:17:55,177 --> 00:17:59,533 a Wikidata é capaz de lidar com isto de forma adequada, 356 00:17:59,533 --> 00:18:03,463 com a questão da memória de tradução, 357 00:18:04,324 --> 00:18:05,965 *translatewiki.net*, 358 00:18:05,965 --> 00:18:09,490 para entrar no limiar da... 359 00:18:12,111 --> 00:18:14,993 Devemos fazer algo a respeito disso, ou devemos... 360 00:18:15,000 --> 00:18:17,133 Sim, e agradeço verdadeiramente a sua pergunta. 361 00:18:17,135 --> 00:18:18,715 Falei disso superficialmente antes, 362 00:18:18,715 --> 00:18:20,618 mas adoraria reiterar. 363 00:18:21,356 --> 00:18:24,955 Esta é a razão principal do porquê da PanLex operar com dados léxicos 364 00:18:24,955 --> 00:18:27,030 e o porquê de me empolgar com dados léxicos, 365 00:18:27,030 --> 00:18:29,935 ao contrário de... não ao contrário, mas como complemento 366 00:18:29,935 --> 00:18:35,207 aos motores de tradução automática e à tradução automática em geral. 367 00:18:35,900 --> 00:18:39,200 Como disse, a tradução automática requer um tipo específico de dados, 368 00:18:39,740 --> 00:18:43,123 e esses dados não estão disponíveis para a maior parte das línguas mundiais. 369 00:18:43,123 --> 00:18:44,966 Para a grande maioria das línguas mundiais, 370 00:18:44,966 --> 00:18:46,639 isso simplesmente não está disponível. 371 00:18:46,650 --> 00:18:48,447 Mas isso não significa que devemos desistir. 372 00:18:48,757 --> 00:18:50,007 Porquê? 373 00:18:51,260 --> 00:18:54,444 Se eu precisar de traduzir o menu turco do restaurante, 374 00:18:54,755 --> 00:18:59,360 a tradução léxica será provavelmente uma ferramenta excepcional para isto. 375 00:18:59,360 --> 00:19:01,715 Não estou a dizer que pode usar tradução léxica 376 00:19:01,715 --> 00:19:04,600 para ter um parágrafo perfeito ao traduzir um parágrafo. 377 00:19:04,600 --> 00:19:06,866 Quando digo tradução léxica, digo palavra para palavra, 378 00:19:06,866 --> 00:19:09,670 e traduções palavra para palavra podem ser extremamente úteis, 379 00:19:12,231 --> 00:19:14,708 é engraçado pensar nisto, mas não tínhamos acesso 380 00:19:14,708 --> 00:19:16,620 a tradução automática de qualidade. 381 00:19:16,980 --> 00:19:20,191 Ninguém tinha acesso a isso até recentemente. 382 00:19:20,191 --> 00:19:23,649 E sobrevivíamos com dicionários, 383 00:19:23,649 --> 00:19:27,687 e são um recurso incrivelmente bom. 384 00:19:28,311 --> 00:19:31,288 Os dados estão disponíveis, então por que não tornar disponível 385 00:19:31,288 --> 00:19:34,377 para o mundo em geral e para os oradores dessas línguas? 386 00:19:36,422 --> 00:19:38,666 (Pessoa 4) Olá, que mecanismos tem ao dispor 387 00:19:38,666 --> 00:19:40,666 para quando a comunidade... estou aqui. 388 00:19:40,666 --> 00:19:43,253 - Onde está? Ok, certo. - (Pessoa 4) Sim, desculpe. (risos) 389 00:19:43,253 --> 00:19:44,577 ...quando a própria comunidade 390 00:19:44,577 --> 00:19:47,320 não quiser parte dos seus dados na PanLex? 391 00:19:47,320 --> 00:19:48,933 Ótima pergunta. 392 00:19:50,153 --> 00:19:51,955 A forma como lidamos com isso 393 00:19:51,955 --> 00:19:56,287 é que se um dicionário foi publicado, e estiver disponível publicamente, 394 00:19:56,666 --> 00:19:58,133 é uma boa indicação. 395 00:19:58,593 --> 00:20:02,400 Se o puder comprar numa loja ou numa biblioteca de uma universidade, 396 00:20:02,400 --> 00:20:04,690 ou numa biblioteca pública que qualquer um pode aceder. 397 00:20:04,690 --> 00:20:08,080 Isto é uma boa indicação que essa decisão foi tomada. 398 00:20:08,080 --> 00:20:11,577 (Pessoa 4) [inaudível] 399 00:20:15,740 --> 00:20:18,266 (Pessoa 5) Por favor, Kimberly, pode falar para o microfone? 400 00:20:19,295 --> 00:20:20,447 Pode repetir? 401 00:20:20,447 --> 00:20:23,307 (Pessoa 4) Os linguistas nem sempre têm a permissão da comunidade. 402 00:20:23,307 --> 00:20:24,387 Para publicar coisas, 403 00:20:24,387 --> 00:20:27,533 frequentemente publicam coisas sem o consentimento da comunidade. 404 00:20:27,533 --> 00:20:29,577 E isso é totalmente verdade. 405 00:20:29,577 --> 00:20:32,533 Eu diria que é um... 406 00:20:32,533 --> 00:20:34,422 Que acontece. 407 00:20:34,422 --> 00:20:36,770 Eu diria que acontece numa minoria de casos, 408 00:20:36,770 --> 00:20:40,955 limitado geralmente à América do Norte, 409 00:20:40,955 --> 00:20:43,355 mas às vezes também com línguas da América do Sul. 410 00:20:44,765 --> 00:20:46,488 É algo que temos de levar em conta. 411 00:20:46,488 --> 00:20:49,288 Se recebêssemos notificação, por exemplo, 412 00:20:49,288 --> 00:20:52,377 de que os dados que estão na PanLex 413 00:20:52,377 --> 00:20:56,330 não deveriam ser acedidos pelo resto do mundo, 414 00:20:56,330 --> 00:20:58,040 então, é claro que removeríamos. 415 00:20:58,040 --> 00:20:59,310 (Pessoa 4) Boa, boa. 416 00:21:01,281 --> 00:21:02,451 Claro, que isso não significa 417 00:21:02,451 --> 00:21:04,391 que iremos seguir as regras de direito de autor, 418 00:21:04,391 --> 00:21:06,542 mas que vamos ouvir as comunidades tradicionais, 419 00:21:06,542 --> 00:21:08,157 e essa é a diferença principal. 420 00:21:08,157 --> 00:21:10,252 (Pessoa 4) Sim, era a isso que me referia. 421 00:21:15,022 --> 00:21:16,755 Isso leva-nos a um ponto interessante 422 00:21:16,755 --> 00:21:18,020 que é 423 00:21:18,844 --> 00:21:22,244 às vezes uma grande pergunta para quem fala por aquela língua. 424 00:21:23,000 --> 00:21:27,911 Tive uma experiência ao visitar o sudoeste americano 425 00:21:27,911 --> 00:21:29,755 e ao trabalhar com alguns grupos, 426 00:21:29,777 --> 00:21:32,288 que trabalhavam com indígenas, as línguas do "Pueblo" (povo). 427 00:21:36,053 --> 00:21:38,044 Há aproximadamente 428 00:21:38,044 --> 00:21:40,420 seis idiomas do *Pueblo* (povo), dependendo de como os divide, 429 00:21:40,420 --> 00:21:41,955 faladas naquela região. 430 00:21:41,955 --> 00:21:44,022 Mas estão divididos em 18 Pueblos diferentes 431 00:21:44,320 --> 00:21:47,066 e cada um tem o seu próprio governo tribal, 432 00:21:47,066 --> 00:21:50,022 e cada governo pode ter uma opinião diferente 433 00:21:50,022 --> 00:21:54,007 sobre se a sua língua estar acessível ou não a estrangeiros. 434 00:21:56,626 --> 00:21:58,170 Por exemplo, o Pueblo Zuni, 435 00:21:58,170 --> 00:22:01,472 é um Pueblo único que fala o idioma Zuni. 436 00:22:02,923 --> 00:22:05,274 E eles gostam que a sua língua esteja por todo o lado, 437 00:22:05,274 --> 00:22:07,694 põe-na nos sinais de trânsito e tudo, é ótimo. 438 00:22:07,694 --> 00:22:10,637 Mas para algumas das outras línguas, 439 00:22:10,644 --> 00:22:13,051 pode ter um grupo que diz: 440 00:22:13,051 --> 00:22:15,866 "Sim, não queremos a nossa língua acedida por estrangeiros." 441 00:22:15,871 --> 00:22:18,838 Mas quando temos o Pueblo vizinho que fala a mesma língua e dizem: 442 00:22:18,838 --> 00:22:21,666 "Queremos mesmo que a nossa língua esteja acessível a estrangeiros 443 00:22:21,666 --> 00:22:24,088 ao usar estas ferramentas tecnológicas, 444 00:22:24,088 --> 00:22:26,560 porque queremos que a nossa língua perdure." 445 00:22:26,560 --> 00:22:29,488 Isso traz-nos uma questão ética bastante interessante. 446 00:22:29,488 --> 00:22:31,651 Porque, se por defeito diz: 447 00:22:31,651 --> 00:22:34,622 "Certo, vou removê-la porque o grupo diz que a deveria remover." 448 00:22:34,622 --> 00:22:36,711 não está também a ignorar o segundo grupo 449 00:22:36,711 --> 00:22:39,360 porque o primeiro quer remover as coisas? 450 00:22:39,360 --> 00:22:42,755 Acho que é uma pergunta que não tem uma resposta fácil. 451 00:22:42,755 --> 00:22:44,955 Mas diria que, pelo menos em relação à PanLex. 452 00:22:44,955 --> 00:22:48,938 E oficialmente, ainda não passámos por isto, 453 00:22:48,938 --> 00:22:50,407 que eu tenha conhecimento. 454 00:22:50,933 --> 00:22:52,920 Agora, isso pode ser parcialmente porque... 455 00:22:53,666 --> 00:22:55,444 voltando à pergunta, 456 00:22:55,666 --> 00:22:57,790 talvez precisemos de nos promover um pouco mais. 457 00:22:58,660 --> 00:23:02,155 Mas, no geral, até onde sei, 458 00:23:02,155 --> 00:23:04,488 isto não aconteceu. 459 00:23:04,488 --> 00:23:06,871 Mas o nosso plano para isto 460 00:23:06,871 --> 00:23:10,975 é se a comunidade diz que não quer os seus dados na nossa base de dados, 461 00:23:10,975 --> 00:23:12,285 então removemos. 462 00:23:12,285 --> 00:23:14,916 (Pessoa 4) Porque aconteceu isso na Wikidata e na Wikipedia... 463 00:23:14,916 --> 00:23:16,240 - Aconteceu? - ...nos comentários. 464 00:23:16,240 --> 00:23:17,407 - A Sério? - Foi um problema. 465 00:23:17,407 --> 00:23:20,538 Sim, consigo imaginar especialmente nos comentários de fotos ou certas coisas. 466 00:23:20,538 --> 00:23:21,900 (Pessoa 4) Correto. 467 00:23:27,177 --> 00:23:33,170 (Pessoa 5) Olá, tenho uma pergunta sobre o lado crowdsourcing disto. 468 00:23:34,087 --> 00:23:36,644 Na medida em que se pede para a comunidade 469 00:23:36,654 --> 00:23:40,480 para anotar ou adicionar dados num conjunto de dados, 470 00:23:40,480 --> 00:23:44,200 uma das coisas que é um pouco intimidadora, 471 00:23:44,711 --> 00:23:49,244 como editor, consigo olhar apenas para o que está em falta. 472 00:23:49,244 --> 00:23:53,242 Mas se vou passar tempo com as coisas, tendo ideias, 473 00:23:53,582 --> 00:23:56,672 há uma lista de itens de alta prioridade, 474 00:23:57,755 --> 00:24:01,198 que penso que seja muito motivadora nesse aspecto. 475 00:24:01,200 --> 00:24:04,222 Fiquei curioso em saber se têm um sistema 476 00:24:04,222 --> 00:24:07,866 em que, essencialmente, sabem quais as lacunas nos próprios dados, 477 00:24:07,866 --> 00:24:12,088 e em que têm evidência linguística e sabem quais são aqueles 478 00:24:12,088 --> 00:24:15,530 em que se tivéssemos anotado, seriam impulsionadores de alto impacto. 479 00:24:15,530 --> 00:24:17,152 Então posso imaginar 480 00:24:18,202 --> 00:24:21,405 que ter o lexema para "casa" é muito impactante, 481 00:24:21,405 --> 00:24:24,977 já o lexema de um dado ou outro não seja tanto. 482 00:24:24,977 --> 00:24:28,947 Mas fiquei curioso se têm isso, e se é algo 483 00:24:30,217 --> 00:24:35,480 que possa ser usado para conduzir os esforços da comunidade. 484 00:24:35,840 --> 00:24:37,066 Ótima pergunta. 485 00:24:37,200 --> 00:24:41,216 Uma coisa que a Wikidata tem bastante... 486 00:24:41,216 --> 00:24:44,666 perdão, a PanLex, tem muitas Listas de Swadesh. 487 00:24:44,666 --> 00:24:47,511 Aparentemente temos a maior coleção de Listas de Swadesh do mundo, 488 00:24:47,511 --> 00:24:48,555 o que é interessante. 489 00:24:48,555 --> 00:24:50,212 Se não sabe o que é uma Lista de Swadesh, 490 00:24:50,212 --> 00:24:56,244 é essencialmente um lista de itens léxicos regularizados 491 00:24:56,244 --> 00:25:00,040 que pode ser usada para a análise de línguas. 492 00:25:00,040 --> 00:25:02,730 Contêm conjuntos bem básicos. 493 00:25:02,730 --> 00:25:05,003 Há alguns diferentes tipos de Listas de Swadesh. 494 00:25:05,003 --> 00:25:07,328 Mas existem cerca de 100 a 213 itens, 495 00:25:07,328 --> 00:25:08,911 e podem conter 496 00:25:08,911 --> 00:25:12,777 palavras como "casa", "olho" e "pele" 497 00:25:12,777 --> 00:25:14,444 e basicamente palavras comuns 498 00:25:14,444 --> 00:25:16,331 que deve encontrar em qualquer língua. 499 00:25:16,331 --> 00:25:19,888 É realmente um bom ponto de partida 500 00:25:19,888 --> 00:25:22,988 ter esses tipos de dados disponíveis. 501 00:25:29,090 --> 00:25:31,126 Agora, como mencionei antes, 502 00:25:31,133 --> 00:25:33,600 crowdsourcing é algo que ainda não fazemos 503 00:25:33,600 --> 00:25:36,066 e estamos realmente muito entusiasmados em começar. 504 00:25:36,066 --> 00:25:37,554 É uma das coisas que me entusiasma 505 00:25:37,554 --> 00:25:39,290 ao falar com as pessoas nesta conferência, 506 00:25:40,490 --> 00:25:42,982 é como o crowdsourcing pode ser usado 507 00:25:42,982 --> 00:25:45,931 e a logística por trás disso, 508 00:25:46,200 --> 00:25:48,867 e este é o tipo de perguntas que podem surgir. 509 00:25:51,288 --> 00:25:53,400 Penso que a resposta que vou lhe dar é 510 00:25:53,400 --> 00:25:55,376 que temos uma lista de prioridades... 511 00:25:55,376 --> 00:25:58,044 Uma coisa que digo com certeza é que temos uma lista de prioridade 512 00:25:58,044 --> 00:25:59,780 quando se trata das línguas que procuramos. 513 00:25:59,780 --> 00:26:02,222 Fazemos isto ao procurar por línguas 514 00:26:02,222 --> 00:26:04,806 que não sejam atualmente auxiliadas por soluções tecnológicas, 515 00:26:04,806 --> 00:26:06,977 que são frequentemente línguas minoritárias, 516 00:26:06,977 --> 00:26:09,280 ou habitualmente línguas minoritárias, 517 00:26:09,280 --> 00:26:12,096 e priorizamos essas. 518 00:26:13,916 --> 00:26:16,844 Mas em termos de itens léxicos individuais, 519 00:26:16,851 --> 00:26:20,244 a forma comum de conseguir novos dados 520 00:26:20,244 --> 00:26:22,977 é essencialmente ao consumir um dicionário inteiro. 521 00:26:23,287 --> 00:26:25,911 Estamos a apoiar-nos na escolha do dicionário 522 00:26:25,911 --> 00:26:29,333 de itens léxicos, ao invés de dizermos 523 00:26:29,333 --> 00:26:31,500 que precisamos da palavra "casa" em todas as línguas. 524 00:26:31,500 --> 00:26:35,000 Mas nos dados de crowdsourcing, precisaremos de algo assim. 525 00:26:35,000 --> 00:26:37,912 Então é uma oportunidade para crescimento e pesquisa. 526 00:26:40,044 --> 00:26:43,088 (Pessoa 6) Olá, chamo-me Victor, e isto é incrível. 527 00:26:45,108 --> 00:26:46,888 Como tem slides aí, 528 00:26:46,888 --> 00:26:49,355 será que poderia falar um pouco sobre os parâmetros técnicos 529 00:26:49,355 --> 00:26:51,260 para os quais tem dados 530 00:26:51,260 --> 00:26:57,022 ou fluxo de informação da Wikidata para a PanLex e vice-versa. 531 00:26:57,022 --> 00:26:59,955 Se isto já está implementado 532 00:26:59,955 --> 00:27:03,178 e como lida com 533 00:27:03,888 --> 00:27:07,133 o vai e vem de informações, ou até mesmo com um loop de respostas 534 00:27:07,140 --> 00:27:09,950 entre a PanLex e a Wikidata? 535 00:27:10,090 --> 00:27:13,733 Não temos nenhuma ligação formal com a Wikidata neste momento, 536 00:27:13,733 --> 00:27:15,343 e isto é algo que eu, novamente, 537 00:27:15,343 --> 00:27:18,104 estou realmente entusiasmado para falar a audiência desta conferência. 538 00:27:18,104 --> 00:27:20,644 Tivemos alguma interação com o Wikitionary, 539 00:27:21,774 --> 00:27:24,720 mas, sinceramente, a Wikidata seria mais adequada, 540 00:27:24,720 --> 00:27:26,755 para o que estamos à procura. 541 00:27:27,355 --> 00:27:29,201 Ter material léxico direto 542 00:27:29,201 --> 00:27:32,311 significa que teremos bem menos análise e extração de dados. 543 00:27:32,933 --> 00:27:37,148 Então, a resposta é, ainda não temos, mas queremos. 544 00:27:37,148 --> 00:27:39,800 (Pessoa 6) Se não têm, quais os obstáculos? 545 00:27:39,800 --> 00:27:43,511 E como podemos ver, a Wikidata já suporta diversas línguas, 546 00:27:43,511 --> 00:27:46,533 mas quando vejo o *translate.panlex.org*, 547 00:27:46,533 --> 00:27:49,311 aparentemente suportam muitas, muitas variantes, 548 00:27:49,311 --> 00:27:50,888 muito mais que a Wikidata. 549 00:27:50,888 --> 00:27:53,316 Como vê se há uma lacuna 550 00:27:53,316 --> 00:27:57,177 primeiro entre tradução ou tradução léxica, 551 00:27:57,177 --> 00:28:00,155 utilização versus esforço 552 00:28:00,155 --> 00:28:03,777 ao tentar mapear uma estrutura de conhecimento. 553 00:28:03,777 --> 00:28:05,866 Mapear conhecimento pode ser muito interessante. 554 00:28:05,866 --> 00:28:07,844 Tivemos algumas discussões bastante interessantes 555 00:28:07,844 --> 00:28:12,311 sobre a maneira de como a Wikidata organiza os dados léxicos, 556 00:28:12,311 --> 00:28:13,777 os seus dados léxicos, 557 00:28:13,777 --> 00:28:16,044 e como nós organizamos os nossos dados léxicos. 558 00:28:16,044 --> 00:28:20,933 E existem diferenças subtis que requerem estratégia de mapeamento, 559 00:28:21,920 --> 00:28:24,577 algumas delas não seriam necessariamente automáticas, 560 00:28:24,577 --> 00:28:27,422 mas podemos ser capazes de desenvolver técnicas para lidar com isto. 561 00:28:27,942 --> 00:28:30,796 Deu o exemplo de variantes de língua. 562 00:28:30,796 --> 00:28:34,111 Costumamos ser bem "separadores" quando se trata de variações de língua. 563 00:28:34,111 --> 00:28:36,311 Por outras palavras, se temos uma fonte que diz 564 00:28:36,311 --> 00:28:38,755 que este é o dialeto falado 565 00:28:38,755 --> 00:28:41,695 do lado esquerdo do rio em Papua Nova Guiné, para esta língua, 566 00:28:41,695 --> 00:28:42,913 e temos outra fonte que diz 567 00:28:42,913 --> 00:28:44,955 que este é o dialeto falado no lado direito do rio, 568 00:28:44,955 --> 00:28:46,720 então, consideramo-los dialetos distintos. 569 00:28:46,720 --> 00:28:51,302 E fazemos isso para basicamente preservar o maior número de dados possível. 570 00:28:52,222 --> 00:28:54,355 Ser capaz de mapear isso com o que a Wikidata faz... 571 00:28:54,355 --> 00:28:56,938 Na verdade, o que gostaria era ter conversas 572 00:28:56,938 --> 00:29:00,696 sobre como as línguas 573 00:29:00,696 --> 00:29:06,323 são definidas na Wikidata. 574 00:29:08,145 --> 00:29:12,320 Novamente, nós usamos uma estratégia bem "separadora". 575 00:29:14,282 --> 00:29:17,866 Apoiamo-nos amplamente nos códigos ISO 6393, 576 00:29:17,866 --> 00:29:19,643 que é fornecido pelo Ethnologue, 577 00:29:19,643 --> 00:29:23,840 e para cada código individual, permitimos múltiplas variantes, 578 00:29:23,840 --> 00:29:29,098 sejam variantes escritas, dialetos regionais, *sociolectos* (calão), etc. 579 00:29:30,240 --> 00:29:32,762 Novamente, oportunidade para discussão e trabalho. 580 00:29:35,622 --> 00:29:39,466 (Pessoa 7) Olá, gostaria de saber se têm um canal de OCR, 581 00:29:39,466 --> 00:29:44,533 especialmente porque estamos tentando fazer OCR no Maya, 582 00:29:44,533 --> 00:29:47,928 e não estamos tendo resultado. 583 00:29:47,933 --> 00:29:49,933 Não entende nada. 584 00:29:49,933 --> 00:29:52,512 - Sim! - E, é isto. 585 00:29:52,512 --> 00:29:56,078 Se os seus canais estiverem disponíveis. 586 00:29:56,078 --> 00:30:00,288 E outra coisa é se está a sobrepor os códigos ISO, 587 00:30:00,288 --> 00:30:01,641 algumas vezes dizem: 588 00:30:01,641 --> 00:30:04,199 "Oh, isto é uma língua, e isto é outra língua." 589 00:30:04,199 --> 00:30:06,555 Mas existem fontes que dizem outras coisas, 590 00:30:06,555 --> 00:30:10,133 como mencionou, mas tendem a sobrepor-se. 591 00:30:10,133 --> 00:30:12,955 Então, como é que prosseguem? 592 00:30:12,956 --> 00:30:15,155 Sim, é uma pergunta realmente fabulosa. 593 00:30:15,155 --> 00:30:17,120 Gostei mesmo. 594 00:30:17,120 --> 00:30:20,400 Não temos um canal OCR oficial, por assim dizer. 595 00:30:20,400 --> 00:30:23,533 Fazemos numa base de fonte para fonte. 596 00:30:23,533 --> 00:30:26,266 Uma das razões é porque frequentemente temos fontes 597 00:30:26,266 --> 00:30:27,955 que não precisam necessariamente de OCR, 598 00:30:27,955 --> 00:30:29,841 que estão disponíveis para algumas línguas, 599 00:30:29,841 --> 00:30:32,916 e concentramo-nos nelas pois estas requerem a menor quantidade de trabalho. 600 00:30:33,006 --> 00:30:35,000 Mas, obviamente, se quisermos aprofundar 601 00:30:35,000 --> 00:30:37,056 algumas fontes que estão na nossa lista, 602 00:30:37,056 --> 00:30:40,896 iremos precisar essencialmente de desenvolver fortes canais OCR. 603 00:30:40,896 --> 00:30:43,968 Mas existe outro aspecto, tal como mencionou... 604 00:30:45,552 --> 00:30:49,088 as pessoas que desenvolveram motores OCR 605 00:30:49,088 --> 00:30:52,672 talvez não tenham percebido o quanto as pode stressar. 606 00:30:52,672 --> 00:30:55,181 Sabe o que é divertido? 607 00:30:55,181 --> 00:30:57,690 Tentar fazer OCR num dicionário russo-tibetano. 608 00:30:58,600 --> 00:31:00,496 É muito difícil, pelo que parece... 609 00:31:01,503 --> 00:31:03,747 Nós desistimos e contratámos alguém para digitar tudo, 610 00:31:04,022 --> 00:31:05,641 o que foi completamente viável. 611 00:31:05,641 --> 00:31:07,260 Na realidade, o que aconteceu 612 00:31:07,260 --> 00:31:10,266 foi que esta incrível mulher russa foi capaz de aprender a ler tibetano 613 00:31:10,266 --> 00:31:12,755 para conseguir escrever, o que foi muito fixe. 614 00:31:15,333 --> 00:31:18,270 Penso que se está a lidar com material em caracteres Latinos, 615 00:31:18,270 --> 00:31:22,871 penso que soluções OCR podem ser desenvolvidas, que sejam mais robustas, 616 00:31:22,871 --> 00:31:24,841 do que lidar com estas fontes multilinguísticas 617 00:31:24,841 --> 00:31:26,991 e esperar que acabe com um quatro aleatório, 618 00:31:26,991 --> 00:31:28,284 se está a lidar com algo como 619 00:31:28,284 --> 00:31:31,020 fontes Maias do século XVI, com o dígito quatro. 620 00:31:32,088 --> 00:31:37,600 Mas existem algumas fontes 621 00:31:37,600 --> 00:31:40,111 que o OCR provavelmente nunca irá conseguir apanhar, 622 00:31:40,111 --> 00:31:42,244 ou que irá requerer uma imensa quantidade de trabalho, 623 00:31:43,200 --> 00:31:46,933 e na verdade colocamos um pouco disso em uso agora. 624 00:31:46,933 --> 00:31:48,800 Temos outro projeto em execução na PanLex 625 00:31:48,800 --> 00:31:53,533 para transcrever toda a literatura tradicional de Bali, 626 00:31:53,533 --> 00:31:57,952 e percebemos que em manuscritos balineses 627 00:31:58,444 --> 00:31:59,644 não há a possibilidade de OCR. 628 00:31:59,644 --> 00:32:02,200 Então arranjámos uma mão cheia de pessoas balinesas para digitar, 629 00:32:02,200 --> 00:32:05,000 e acabou por se tornar um projeto cultural muito bom em Bali, 630 00:32:05,000 --> 00:32:07,288 e tornou-se notícia. 631 00:32:07,288 --> 00:32:09,084 Por isso eu diria 632 00:32:09,084 --> 00:32:11,377 que não precisa necessariamente depender de OCR, 633 00:32:11,377 --> 00:32:12,577 mas há muita coisa por aí. 634 00:32:12,577 --> 00:32:15,160 Por isso, ter soluções OCR seria bom. 635 00:32:16,663 --> 00:32:20,992 Aliás, se alguém aqui se interessa por OCR super multilínguas, 636 00:32:20,992 --> 00:32:22,635 por favor, fale comigo. 637 00:32:29,517 --> 00:32:31,377 (Pessoa 8) Obrigado pela sua apresentação. 638 00:32:32,007 --> 00:32:34,866 Falou sobre integração 639 00:32:34,866 --> 00:32:37,060 entre a PanLex e a Wikidata, 640 00:32:37,060 --> 00:32:38,792 mas não especificou muito. 641 00:32:38,792 --> 00:32:42,701 Estava a verificar a sua licença de dados, e vocês usam o CC0. 642 00:32:42,701 --> 00:32:44,210 - Sim. - (Pessoa 8) Isso é ótimo. 643 00:32:44,210 --> 00:32:46,377 Então, existem duas formas possíveis, 644 00:32:46,377 --> 00:32:49,400 em que podemos importar os dados 645 00:32:49,400 --> 00:32:52,777 ou podemos manter algo similar ao Freebase, 646 00:32:52,777 --> 00:32:55,688 onde tínhamos a base de dados completa do Freebase, 647 00:32:55,688 --> 00:32:59,080 importamo-la e fazemos um link, 648 00:32:59,080 --> 00:33:03,955 um identificador externo para a base de dados do Freebase. 649 00:33:03,955 --> 00:33:08,397 Tem algo assim em mente ou está a pensar em algo similar? 650 00:33:08,397 --> 00:33:10,401 Ou só quer fazer... 651 00:33:15,291 --> 00:33:18,755 uma base de dados independente que possa ser ligada à Wikidata? 652 00:33:18,755 --> 00:33:20,533 Sim, essa é uma ótima pergunta 653 00:33:20,533 --> 00:33:23,282 e na verdade penso que ela vai até além 654 00:33:23,282 --> 00:33:25,648 de algumas das coisas em que estive a pensar sobre, 655 00:33:25,648 --> 00:33:29,555 parcialmente porque, como eu disse, 656 00:33:29,955 --> 00:33:32,111 fazer com que as duas bases de dados trabalhem juntas 657 00:33:32,111 --> 00:33:33,533 é uma etapa por si só. 658 00:33:33,533 --> 00:33:35,332 Penso que o primeiro passo que podemos dar 659 00:33:35,333 --> 00:33:37,622 é literalmente partilhar as nossas habilidades. 660 00:33:37,911 --> 00:33:40,246 Temos muita experiência em lidar com coisas 661 00:33:40,246 --> 00:33:42,656 como classificações de propriedades de lexemas individuais 662 00:33:42,656 --> 00:33:44,734 que eu adoraria partilhar. 663 00:33:45,864 --> 00:33:49,050 Mas ser capaz de ligar as duas bases de dados seria maravilhoso. 664 00:33:49,050 --> 00:33:50,808 Estou 100% a favor disso. 665 00:33:50,808 --> 00:33:54,066 Acho que seria um pouco mais fácil 666 00:33:54,066 --> 00:33:56,022 a Wikidata usar a forma da PanLex, 667 00:33:56,022 --> 00:33:58,866 mas talvez seja tendencioso por ver como isso iria funcionar. 668 00:34:02,040 --> 00:34:06,088 Sim, essencialmente, desde que a Wikidata esteja confortável, 669 00:34:06,088 --> 00:34:09,620 com todas as licenças e coisas assim, ou encontraremos uma solução, 670 00:34:09,620 --> 00:34:12,057 penso que seria uma ótima ideia. 671 00:34:13,216 --> 00:34:16,235 Só temos que pensar em maneiras de ligar os dados. 672 00:34:16,235 --> 00:34:22,234 Algo que imagino seria, essencialmente, que as edições do Wikidata fossem 673 00:34:22,577 --> 00:34:26,088 imediatamente preenchidas no banco de dados PanLex, 674 00:34:26,088 --> 00:34:28,551 sem precisar, essencialmente, 675 00:34:28,551 --> 00:34:30,786 consumir novamente tudo outra vez. 676 00:34:30,786 --> 00:34:35,779 Tornar essencialmente a Wikidata numa interface de crowdsourcing da PanLex, 677 00:34:35,779 --> 00:34:36,888 seria realmente incrível. 678 00:34:36,888 --> 00:34:39,777 E depois ser capaz de usar a PanLex em traduções imediatas, 679 00:34:39,780 --> 00:34:42,224 para ser capaz de traduzir pelos itens léxicos da Wikidata, 680 00:34:42,224 --> 00:34:43,770 isso seria glorioso. 681 00:34:55,288 --> 00:35:00,266 (Pessoa 9) Isto parece o processo de fiscalização semântica da web, 682 00:35:00,266 --> 00:35:03,808 tapar buracos por inferência. 683 00:35:05,682 --> 00:35:09,733 Se pensarmos assim, este tipo de tradução, 684 00:35:09,733 --> 00:35:13,353 como é que lida com incompatibilidade semântica 685 00:35:13,355 --> 00:35:16,088 e gramatical? 686 00:35:16,088 --> 00:35:18,888 Por exemplo, se tenta traduzir algo para o alemão, 687 00:35:18,888 --> 00:35:21,933 pode simplesmente colocar várias palavras juntas 688 00:35:21,933 --> 00:35:25,986 e encontrar algo sensato, 689 00:35:25,986 --> 00:35:29,184 por outro lado, acho que já li em algum lugar 690 00:35:31,450 --> 00:35:38,450 que nem toda a língua tem o mesmo sistema granular 691 00:35:38,450 --> 00:35:40,453 para cores, por exemplo. 692 00:35:41,577 --> 00:35:42,800 Disse que todos 693 00:35:42,800 --> 00:35:45,010 usam um sistema diferente para cores ou o mesmo? 694 00:35:45,530 --> 00:35:48,377 (Pessoa 8) Eu lembro-me apenas que sobre a evolução da língua, 695 00:35:48,377 --> 00:35:51,533 que começaram com o preto e branco, e depois... 696 00:35:51,533 --> 00:35:53,333 Sim, a hierarquia das cores. 697 00:35:53,333 --> 00:35:54,492 A hierarquia das cores 698 00:35:54,492 --> 00:35:57,271 é uma ótima forma de ilustrar como isto funciona, certo? 699 00:35:57,977 --> 00:36:01,400 Essencialmente, quando tem uma única língua pivot... 700 00:36:02,043 --> 00:36:04,822 é bem interessante quando se lê documentos traduzidos automaticamente 701 00:36:04,822 --> 00:36:08,000 porque é frequente falar sobre uma língua pivot hipotética, 702 00:36:08,000 --> 00:36:09,826 em que dizem: "Ah sim, há uma língua pivot," 703 00:36:09,826 --> 00:36:12,133 e depois lê o documento e diz: "É inglês." 704 00:36:12,133 --> 00:36:16,688 Então o que essa forma de tradução léxica faz, 705 00:36:16,680 --> 00:36:20,352 é passar o termo por muitas línguas intermédias diferentes, 706 00:36:20,755 --> 00:36:26,142 tem o efeito de ser capaz de lidar com muita ambiguidade semântica. 707 00:36:26,142 --> 00:36:28,426 Porque à medida que passa por outras línguas 708 00:36:28,426 --> 00:36:33,408 que contêm limites semânticos similares razoáveis para uma palavra, 709 00:36:33,408 --> 00:36:37,038 pode essencialmente evitar o problema 710 00:36:37,038 --> 00:36:39,808 de introduzir ambiguidade semântica através da língua pivot. 711 00:36:39,808 --> 00:36:43,266 Então, ao usar a hierarquia de cores como exemplo, 712 00:36:43,266 --> 00:36:46,460 se tomar uma língua que tem uma palavra única para azul e verde 713 00:36:46,460 --> 00:36:50,688 e a traduz para azul 714 00:36:50,688 --> 00:36:53,244 na sua língua pivot 715 00:36:53,244 --> 00:36:54,477 e então para outra língua 716 00:36:54,477 --> 00:36:57,422 que tem ambiguidades diferentes para essas coisas, 717 00:36:57,422 --> 00:37:00,283 acaba por introduzir ambiguidade semântica. 718 00:37:00,283 --> 00:37:02,370 Mas se passar por mais línguas 719 00:37:02,370 --> 00:37:05,660 que também tenham um item léxico único para verde e azul, 720 00:37:05,660 --> 00:37:10,666 então, essencialmente, a especificidade semântica 721 00:37:11,040 --> 00:37:16,990 é passada adiante para a língua resultante. 722 00:37:17,755 --> 00:37:20,666 No que se trata de aspectos gramáticos, 723 00:37:20,666 --> 00:37:23,488 a PanLex tem estado primeiramente, na sua história, 724 00:37:23,488 --> 00:37:28,960 a recolher lexemas essenciais, formas léxicas essenciais. 725 00:37:29,711 --> 00:37:31,800 E com isso, quero dizer, basicamente, 726 00:37:31,804 --> 00:37:33,840 o que encontraria num termo de dicionário. 727 00:37:34,800 --> 00:37:38,170 Então não nos concentramos nesta altura 728 00:37:38,555 --> 00:37:40,955 em reunir variantes de formas gramaticais, 729 00:37:40,955 --> 00:37:43,360 coisas como dados nominais, etc. 730 00:37:43,360 --> 00:37:44,830 ou pretérito passado e presente. 731 00:37:44,830 --> 00:37:46,487 Mas é algo que procuramos fazer. 732 00:37:46,488 --> 00:37:48,420 Uma coisa que é sempre importante lembrar 733 00:37:48,420 --> 00:37:50,600 é que, como o nosso foco é... 734 00:37:51,422 --> 00:37:54,490 está em apoiar línguas minoritárias que estão ameaçadas ou sem apoio, 735 00:37:55,000 --> 00:37:57,777 queremos garantir que algo está disponível 736 00:37:57,777 --> 00:37:59,711 antes de torná-lo perfeito. 737 00:38:01,621 --> 00:38:02,844 Uma frase que eu adoro é: 738 00:38:02,844 --> 00:38:04,927 "Não deixe o perfeito ser inimigo do bom." 739 00:38:04,927 --> 00:38:06,570 E é algo que almejamos. 740 00:38:06,570 --> 00:38:09,014 Mas estamos super interessados na ideia 741 00:38:09,014 --> 00:38:12,266 de lidar com formas gramaticais, 742 00:38:12,266 --> 00:38:14,279 e poder traduzir através de formas gramaticais, 743 00:38:14,279 --> 00:38:15,795 e é algo em que já fizemos pesquisa 744 00:38:15,795 --> 00:38:17,808 mas que ainda não foi totalmente implementado. 745 00:38:25,350 --> 00:38:28,777 (Pessoa 9) Então dos 7.500 idiomas, 746 00:38:30,448 --> 00:38:33,111 presumo que se baseiem em dicionários que foram escritos para nós, 747 00:38:33,111 --> 00:38:36,222 mas todas estas idiomas têm formas de escrita tradicional? 748 00:38:36,222 --> 00:38:38,101 E como lidam com isso? 749 00:38:38,101 --> 00:38:39,887 É uma ótima pergunta. 750 00:38:42,111 --> 00:38:45,062 Essencialmente, sim, muitas destas línguas 751 00:38:45,066 --> 00:38:47,977 como todos sabem, não são escritas. 752 00:38:47,977 --> 00:38:50,666 Contudo, qualquer língua para a qual um dicionário foi produzido 753 00:38:50,666 --> 00:38:52,466 contém algum tipo de ortografia, 754 00:38:52,466 --> 00:38:56,710 logo, baseamo-nos na ortografia produzida para o dicionário. 755 00:38:56,710 --> 00:38:59,686 Ocasionalmente fazemos uma ligeira manipulação de ortografia 756 00:39:00,956 --> 00:39:03,177 se pudermos, basicamente, garantir que não há danos. 757 00:39:03,177 --> 00:39:05,377 Mas tentamos evitar, tanto quanto possível. 758 00:39:09,443 --> 00:39:11,485 Essencialmente, não nos intrometemos 759 00:39:11,485 --> 00:39:13,229 em desenvolver ortografia para as línguas, 760 00:39:13,229 --> 00:39:14,967 porque frequentemente não foi desenvolvida, 761 00:39:14,967 --> 00:39:17,240 mesmo que não esteja amplamente publicada. 762 00:39:19,300 --> 00:39:22,155 Por exemplo, 763 00:39:22,155 --> 00:39:26,022 muitas línguas faladas na Nova Guiné, 764 00:39:26,488 --> 00:39:29,125 pode não haver uma forma ortográfica comum utilizada, 765 00:39:29,125 --> 00:39:30,980 mas alguns linguistas conseguiram fazer algo 766 00:39:30,980 --> 00:39:32,553 e já é um bom primeiro passo. 767 00:39:33,473 --> 00:39:36,730 Também reunimos formas fonéticas quando estão disponíveis nos dicionários, 768 00:39:36,730 --> 00:39:38,400 e esta é outra forma, 769 00:39:38,400 --> 00:39:40,533 essencialmente uma representação IPA da palavra, 770 00:39:40,533 --> 00:39:41,800 se estiver disponível. 771 00:39:41,800 --> 00:39:43,333 Isso também pode ser usado. 772 00:39:43,333 --> 00:39:45,755 Mas geralmente não usamos isso como auxílio, 773 00:39:45,755 --> 00:39:48,226 pois pode introduzir certas ambiguidades. 774 00:39:52,666 --> 00:39:55,466 (Pessoa 10) Obrigada, talvez não seja uma pergunta muito pertinente. 775 00:39:56,044 --> 00:40:00,572 Mas só trabalham com as línguas intermediárias? 776 00:40:01,132 --> 00:40:02,215 Não, não. 777 00:40:02,222 --> 00:40:03,790 (Pessoa 10) Ok, certo. Obrigada. 778 00:40:03,790 --> 00:40:05,683 Fico feliz que tenha feito essa pergunta. 779 00:40:06,323 --> 00:40:11,311 Isto é uma foto do ecrã do *translate.panlex.org*. 780 00:40:11,311 --> 00:40:12,826 Se fizer uma tradução, 781 00:40:12,826 --> 00:40:15,022 terá uma lista de traduções no lado direito. 782 00:40:15,022 --> 00:40:17,874 Clica no botão de reticências e há um gráfico assim. 783 00:40:17,874 --> 00:40:21,760 E o que isto mostra são as línguas intermediárias, 784 00:40:22,010 --> 00:40:24,133 as 20 principais, por pontuação. 785 00:40:24,133 --> 00:40:26,093 Daria mais detalhes de como pontuamos, 786 00:40:26,093 --> 00:40:27,452 mas não é muito importante agora. 787 00:40:27,452 --> 00:40:30,244 Por pontos que estão a sendo usados. 788 00:40:30,244 --> 00:40:33,393 Mas para fazer a tradução, estamos a usar bem mais que 20. 789 00:40:33,393 --> 00:40:35,797 O motivo de mostrarmos 20, é porque se forem mais de 20... 790 00:40:35,797 --> 00:40:37,661 é como se fosse uma simulação de física. 791 00:40:37,661 --> 00:40:39,638 Podem mover as coisas e elas reagem. 792 00:40:39,638 --> 00:40:42,200 Mas se tiver mais de 20, o computador fica muito irritado. 793 00:40:45,400 --> 00:40:47,419 É mais uma demonstração, sim. 794 00:40:55,955 --> 00:40:57,888 (Pessoa 11) Leila, da Fundação Wikimedia. 795 00:40:58,068 --> 00:41:00,155 Apenas uma nota na... 796 00:41:00,155 --> 00:41:03,260 Mencionou a Fundação Wikimedia algumas vezes durante a apresentação, 797 00:41:03,260 --> 00:41:06,533 gostaria de dizer se quiser realizar qualquer tipo de consumo de dados 798 00:41:06,533 --> 00:41:08,460 ou colaboração com a Wikidata, 799 00:41:08,820 --> 00:41:11,200 talvez a Wikimedia Alemanha seja um local melhor 800 00:41:11,200 --> 00:41:13,182 com quem ter essas conversas? 801 00:41:13,182 --> 00:41:16,256 Porque a Wikidata vive praticamente dentro da Wikimedia Alemanha, 802 00:41:16,256 --> 00:41:17,511 e a equipa está lá, 803 00:41:17,511 --> 00:41:19,971 como também a comunidade de voluntários da Wikidata, 804 00:41:19,977 --> 00:41:23,710 seria o local perfeito para conversar 805 00:41:23,710 --> 00:41:25,590 sobre qualquer tipo de consumo 806 00:41:25,590 --> 00:41:31,136 ou trabalhar para aproximar a PanLex da Wikidata. 807 00:41:31,577 --> 00:41:32,688 Ótimo, muito obrigado! 808 00:41:32,688 --> 00:41:34,901 Porque sinceramente não estou muito familiarizado 809 00:41:34,901 --> 00:41:37,823 com as complexidades de arquitectura 810 00:41:37,823 --> 00:41:39,740 de como todos os projetos se relacionam. 811 00:41:39,740 --> 00:41:41,977 Adivinho pelas gargalhadas que seja complicado. 812 00:41:41,977 --> 00:41:44,333 Mas sim, basicamente queremos conversar 813 00:41:44,333 --> 00:41:48,333 com quem for responsável pela Wikidata. 814 00:41:48,333 --> 00:41:52,120 Como tal, é só fazermos um pequeno encontro 815 00:41:52,860 --> 00:41:56,470 com quem for responsável pela Wikidata, aí está com quem nos interessa conversar, 816 00:41:56,470 --> 00:41:58,264 que é com todos vocês que são voluntários. 817 00:42:03,646 --> 00:42:05,424 Existem mais perguntas? 818 00:42:10,066 --> 00:42:14,400 Ok, se alguém tiver mais alguma pergunta 819 00:42:14,400 --> 00:42:17,711 sobre algo que falei, ou dos detalhes e especificidades destas coisas, 820 00:42:17,711 --> 00:42:19,800 por favor fale comigo, estou super entusiasmado. 821 00:42:20,560 --> 00:42:23,977 E especialmente se está a lidar com algo que envolva material léxico, 822 00:42:23,977 --> 00:42:28,666 algo que envolva línguas minoritárias ameaçados, 823 00:42:28,666 --> 00:42:30,444 e idiomas desamparados, 824 00:42:30,444 --> 00:42:34,410 e também Unicode, que é algo que também faço. 825 00:42:36,790 --> 00:42:37,870 Obrigado a todos 826 00:42:37,870 --> 00:42:39,563 e obrigado por me terem convidado a falar, 827 00:42:39,563 --> 00:42:41,550 espero que tenham gostado! 828 00:42:41,550 --> 00:42:43,753 (Aplausos)