1 00:00:06,303 --> 00:00:07,362 (Lydia) Muito obrigada. 2 00:00:07,362 --> 00:00:11,244 Então, nesta conferência, um dos grandes temas são as linguagens. 3 00:00:11,244 --> 00:00:13,710 Então... 4 00:00:13,710 --> 00:00:18,368 Quero dar-vos uma visão geral de onde estamos atualmente 5 00:00:18,368 --> 00:00:19,734 no que diz respeito a linguagens 6 00:00:19,734 --> 00:00:22,167 e para onde podemos ir daqui. 7 00:00:28,956 --> 00:00:32,580 A Wikidada pretende dar a mais pessoas mais acesso a mais conhecimento 8 00:00:32,580 --> 00:00:37,168 e a linguagem é uma parte muito importante para tornar isso realidade. 9 00:00:38,115 --> 00:00:43,291 Especialmente, porque cada vez mais as nossas vidas dependem da tecnologia. 10 00:00:44,114 --> 00:00:48,873 E, como um dos palestrantes mencionou há pouco, 11 00:00:49,613 --> 00:00:51,588 alguma da tecnologia deixa as pessoas para trás 12 00:00:51,588 --> 00:00:55,020 simplesmente porque não falam determinada linguagem, 13 00:00:55,320 --> 00:00:57,573 o que não está correto. 14 00:00:58,473 --> 00:01:02,097 Então, nós queremos fazer algo em relação a isso. 15 00:01:02,927 --> 00:01:05,841 E, de forma a mudar isso, precisamos de pelos menos duas coisas. 16 00:01:06,321 --> 00:01:11,270 Primeiro, providenciar conteúdo na língua nativa das pessoas 17 00:01:11,270 --> 00:01:12,955 e, segundo, 18 00:01:12,955 --> 00:01:15,770 providenciar interação na sua língua, 19 00:01:15,770 --> 00:01:19,189 nas aplicações ou seja no que for que tenham. 20 00:01:20,367 --> 00:01:25,277 A Wikidata ajuda em ambas as coisas. 21 00:01:25,277 --> 00:01:28,408 Em relação à primeira, *conteúdo na sua língua*, 22 00:01:28,408 --> 00:01:30,879 isso é basicamente o que temos nos itens e propriedades, 23 00:01:31,319 --> 00:01:33,082 como descrevemos o mundo. 24 00:01:33,082 --> 00:01:35,085 Isto não é, certamente, tudo o que é preciso, 25 00:01:35,085 --> 00:01:39,294 mas já dá uma ajuda considerável. 26 00:01:39,614 --> 00:01:41,847 A outra coisa, *interação na sua língua*, 27 00:01:41,847 --> 00:01:46,389 é onde os lexemas entram em jogo 28 00:01:46,389 --> 00:01:49,382 se quiserem falar com o vosso assistente pessoal digital, 29 00:01:49,382 --> 00:01:54,918 ou se quiserem que o vosso dispositivo traduza um texto e afins. 30 00:01:56,404 --> 00:01:59,254 Tudo bem, vamos olhar para *conteúdo na sua língua*. 31 00:01:59,254 --> 00:02:03,396 O que temos em *itens* e *propriedades*? 32 00:02:05,406 --> 00:02:09,696 Para isto, as etiquetas nesses itens e propriedades são cruciais. 33 00:02:10,236 --> 00:02:14,866 Precisamos de saber como se chama esta entidade de que estamos a falar. 34 00:02:15,656 --> 00:02:19,847 E, em vez de falarmos sobre Q5... 35 00:02:19,847 --> 00:02:22,180 Alguém que fale inglês sabe que isso é um "humano", 36 00:02:22,180 --> 00:02:24,706 alguém que fale alemão sabe que é um "mensch", 37 00:02:24,706 --> 00:02:26,374 e por aí adiante. 38 00:02:26,374 --> 00:02:29,742 Então, estas etiquetas nos itens e propriedades 39 00:02:29,742 --> 00:02:33,619 estão a fechar as brechas entre humanos e máquinas 40 00:02:33,619 --> 00:02:35,439 e entre humanos e humanos. 41 00:02:35,439 --> 00:02:40,115 Fazendo com que mais conhecimento esteja acessível para eles. 42 00:02:43,270 --> 00:02:46,290 Isso é um bom objetivo. 43 00:02:46,290 --> 00:02:48,342 Mas qual é o aspeto disso? 44 00:02:48,342 --> 00:02:49,607 Bem, é este. 45 00:02:50,947 --> 00:02:52,416 O que estão a ver aqui 46 00:02:52,416 --> 00:02:58,496 é que a maioria dos items na Wikidata tem duas etiquetas, 47 00:02:58,496 --> 00:03:00,767 portanto, são etiquetados em duas línguas. 48 00:03:01,697 --> 00:03:03,851 Depois disso, é um, e depois três 49 00:03:03,851 --> 00:03:06,115 e depois fica muito triste. 50 00:03:06,781 --> 00:03:08,581 (riso tímido) 51 00:03:10,047 --> 00:03:12,713 Eu penso que temos que fazer melhor. 52 00:03:14,185 --> 00:03:15,319 Mas, por outro lado, 53 00:03:15,319 --> 00:03:17,478 eu, na verdade, estava à espera de muito pior. 54 00:03:17,478 --> 00:03:19,560 Estava à espera que a média fosse um. 55 00:03:19,560 --> 00:03:22,503 Portanto, fiquei bastante contente em ver dois. (risos) 56 00:03:24,921 --> 00:03:26,186 Certo. 57 00:03:27,156 --> 00:03:29,527 Mas, o interessante não é só saber 58 00:03:29,527 --> 00:03:33,742 quantas etiquetas os nossos items e propriedades têm, 59 00:03:33,742 --> 00:03:36,565 também é interessante ver em que línguas. 60 00:03:38,045 --> 00:03:43,764 Aqui têm um gráfico das línguas 61 00:03:43,764 --> 00:03:46,838 que têm etiquetas para *itens*. 62 00:03:46,838 --> 00:03:50,669 A maior parte é *Outra*. 63 00:03:51,229 --> 00:03:53,863 Então, peguei nas 100 maiores línguas 64 00:03:54,483 --> 00:03:58,902 e tudo o resto são *Outras*, para que o gráfico se perceba. 65 00:03:59,542 --> 00:04:02,142 Depois, há inglês e holandês, 66 00:04:03,002 --> 00:04:04,254 francês, 67 00:04:05,924 --> 00:04:09,129 e não nos esqueçamos do... asturiano. 68 00:04:09,659 --> 00:04:11,889 - (plateia 1) (grito de entusiasmo) - De facto! 69 00:04:13,899 --> 00:04:16,954 Então, podem ver que há aqui um considerável desequilíbrio 70 00:04:16,954 --> 00:04:20,114 e o foco ainda se mantém muito no inglês. 71 00:04:21,236 --> 00:04:24,367 Outra coisa que notamos é que nas *Propriedades*, 72 00:04:24,367 --> 00:04:25,999 as coisas estão bem melhores. 73 00:04:27,399 --> 00:04:32,750 E penso que, em parte, isso deve-se a haver muito menos propriedades. 74 00:04:32,750 --> 00:04:36,770 Então, mesmo comunidades menores têm hipótese de se manter a par. 75 00:04:36,770 --> 00:04:39,173 Mas também é uma parte importante da Wikidata, 76 00:04:39,173 --> 00:04:41,159 a localização na tua própria língua. 77 00:04:41,159 --> 00:04:42,384 Portanto, isso é bom. 78 00:04:45,752 --> 00:04:47,842 O que quero salientar aqui com o asturiano 79 00:04:47,842 --> 00:04:53,698 é que uma comunidade pequena pode realmente fazer uma enorme diferença 80 00:04:54,448 --> 00:04:57,085 com alguma dedicação e trabalho, 81 00:04:57,085 --> 00:04:58,420 o que é muito fixe. 82 00:05:01,846 --> 00:05:03,530 Uma pequena pergunta para vocês. 83 00:05:03,530 --> 00:05:05,493 Se pegarmos em todas as propriedades na Wikidata, 84 00:05:05,493 --> 00:05:07,687 que não são indentificadores externos, 85 00:05:07,687 --> 00:05:10,358 qual é o que tem mais etiquetas, o maior número de linguagens? 86 00:05:10,767 --> 00:05:13,717 (plateia) [inaudível] 87 00:05:13,717 --> 00:05:16,786 Ouço algum acordo em *instância de*? 88 00:05:17,316 --> 00:05:19,443 Estariam errados. 89 00:05:19,873 --> 00:05:22,210 É *imagem*. (risos) 90 00:05:23,160 --> 00:05:26,366 Então, sim, isso diz-vos, se falarem uma destas línguas 91 00:05:26,366 --> 00:05:28,621 nas quais *instância de* ainda não tem etiqueta, 92 00:05:28,621 --> 00:05:30,190 que poderão querer adicioná-la. 93 00:05:31,642 --> 00:05:35,676 Tem, neste momento, 148 etiquetas. 94 00:05:37,688 --> 00:05:41,249 Mas isso é outro slide. 95 00:05:42,631 --> 00:05:44,162 Este gráfico diz-nos algo 96 00:05:44,162 --> 00:05:49,321 sobre quanto conteúdo estamos a tornar disponível numa certa língua 97 00:05:49,321 --> 00:05:52,042 e quanto conteúdo é realmente utilizado. 98 00:05:52,042 --> 00:05:55,448 Então, o que temos aqui é basicamente uma curva 99 00:05:55,448 --> 00:06:00,987 com a maior parte do conteúdo com etiquetas em inglês, disponível em inglês 100 00:06:01,507 --> 00:06:04,295 e a ser muito usado. 101 00:06:04,295 --> 00:06:06,449 E depois, isto meio que baixa. 102 00:06:06,449 --> 00:06:09,436 Mas, novamente, o que podem ver são os valores atípicos 103 00:06:09,436 --> 00:06:15,333 que têm muito mais conteúdo do que seria de esperar 104 00:06:16,663 --> 00:06:19,539 e isso é mesmo muito bom. 105 00:06:20,739 --> 00:06:24,945 O problema é que não é tão utilizado. 106 00:06:25,565 --> 00:06:28,742 Asturiano e holandês deveriam ser mais altos. 107 00:06:28,742 --> 00:06:31,994 Acho que, ajudar essas comunidades 108 00:06:33,266 --> 00:06:35,493 a aumentar o uso dos dados que coletaram, 109 00:06:35,493 --> 00:06:37,682 é uma coisa realmente útil de se fazer. 110 00:06:42,910 --> 00:06:46,801 O que esta análise e outras nos mostraram é uma coisa boa, 111 00:06:46,801 --> 00:06:51,378 embora estejamos a ver que os itens que são mais utilizados 112 00:06:51,378 --> 00:06:55,295 também tendem a ter mais etiquetas 113 00:06:55,295 --> 00:06:58,188 ou ao contrário. Não é completamente claro. 114 00:07:02,513 --> 00:07:04,376 E então, a questão é: 115 00:07:04,806 --> 00:07:07,009 estamos a servir apenas as linguagens poderosas? 116 00:07:07,899 --> 00:07:11,147 Ou conseguimos fazê-lo para todos? 117 00:07:12,757 --> 00:07:17,743 O que vêm aqui é um agrupamento das linguagens. 118 00:07:17,743 --> 00:07:21,832 As linguagens que estão agrupadas tendem a ter etiquetas juntas. 119 00:07:26,042 --> 00:07:28,599 E conseguimos vê-las a aglomerarem-se. 120 00:07:28,599 --> 00:07:34,065 Agora, temos aqui um aglomerado similar, colorido, 121 00:07:34,065 --> 00:07:39,475 baseado em quão viva, quão usada, 122 00:07:40,455 --> 00:07:43,156 quão ameaçada a linguagem está. 123 00:07:43,156 --> 00:07:44,642 E uma coisa boa que vemos aqui, 124 00:07:44,642 --> 00:07:49,566 é que linguagens seguras e ameaçadas 125 00:07:49,566 --> 00:07:53,773 não formam dois aglomerados diferentes. 126 00:07:53,773 --> 00:07:58,872 Elas misturam-se, 127 00:08:00,262 --> 00:08:04,545 o que é muito melhor do que seria se fosse ao contrário 128 00:08:04,545 --> 00:08:09,377 onde as linguagens seguras, as linguagens poderosas, 129 00:08:10,197 --> 00:08:12,164 estariam apenas a ajudar-se entre elas. 130 00:08:12,594 --> 00:08:14,356 Não, não é esse o caso. 131 00:08:14,356 --> 00:08:17,417 E isso é uma coisa ótima. 132 00:08:17,417 --> 00:08:20,042 Quando vi isto, pensei que isto era muito bom. 133 00:08:23,474 --> 00:08:25,169 Aqui está uma coisa similar, 134 00:08:26,239 --> 00:08:28,800 onde olhamos para 135 00:08:30,230 --> 00:08:34,222 os estados das linguagens, 136 00:08:34,222 --> 00:08:36,225 para quantas etiquetas têm. 137 00:08:39,367 --> 00:08:42,937 O que estão a ver é uma clara vantagem para as linguagens seguras, 138 00:08:42,937 --> 00:08:44,248 como seria de esperar. 139 00:08:45,508 --> 00:08:46,693 Mas também estão a ver 140 00:08:46,693 --> 00:08:54,407 que as linguagens na categoria dois, e três e até mesmo quatro 141 00:08:54,407 --> 00:08:59,280 não estão, na verdade, nada mal 142 00:08:59,280 --> 00:09:02,367 em termos de representação na Wikidata e em outros. 143 00:09:03,287 --> 00:09:06,408 É uma coisa muito boa de se encontrar. 144 00:09:07,646 --> 00:09:09,129 Agora, se olharmos para a mesma coisa 145 00:09:09,129 --> 00:09:12,418 para quanto do conteúdo dessas etiquetas 146 00:09:12,418 --> 00:09:15,495 é atualmente usado na Wikipedia, por exemplo, 147 00:09:17,455 --> 00:09:22,563 emerge uma imagem semelhante. 148 00:09:23,603 --> 00:09:29,813 E diz-nos que estas comunidades estão a fazer um bom uso do tempo 149 00:09:29,813 --> 00:09:34,504 preenchendo as etiquetas para os itens mais usados, por exemplo. 150 00:09:36,410 --> 00:09:40,493 Há valores atípicos onde penso que podemos ajudar... 151 00:09:41,683 --> 00:09:48,202 Ajudar as comunidades a encontrar sítios onde o seu trabalho será mais valioso. 152 00:09:49,312 --> 00:09:52,663 Mas, no geral, estou contente com este panorama. 153 00:09:54,823 --> 00:09:59,844 Agora, isto foram os itens e as propriedades da Wikidata. 154 00:10:00,714 --> 00:10:03,033 Agora vamos olhar para a interação nas vossas línguas. 155 00:10:03,033 --> 00:10:05,203 Portanto as porções do lexema da Wikidata 156 00:10:05,203 --> 00:10:09,394 onde nós descrevemos palavras e as suas formas e significados. 157 00:10:10,167 --> 00:10:13,301 Andamos a fazer isso desde Maio do ano passado 158 00:10:16,391 --> 00:10:19,127 e o conteúdo tem aumentado. 159 00:10:19,434 --> 00:10:22,149 Podem ver aqui em azul os lexemas 160 00:10:22,149 --> 00:10:25,938 e a vermelho, as formas nesses lexemas 161 00:10:25,938 --> 00:10:29,910 e a amarelo, os sentidos nesses lexemas. 162 00:10:30,991 --> 00:10:34,451 Então algumas comunidades-- já voltaremos a isso mais tarde-- 163 00:10:34,451 --> 00:10:39,793 dispenderam muito tempo a criar formas e sentidos para os seus lexemas, 164 00:10:39,793 --> 00:10:42,753 o que é muito útil 165 00:10:42,753 --> 00:10:48,243 porque constrói o núcleo dos conjuntos de dados que precisamos. 166 00:10:50,562 --> 00:10:55,133 Agora, olhamos para todas as línguas 167 00:10:55,133 --> 00:10:57,906 que têm lexemas na Wikidata. 168 00:10:57,906 --> 00:11:01,003 Portanto, palavras que nós temos. 169 00:11:01,713 --> 00:11:04,404 Há, agora, 310 línguas. 170 00:11:04,884 --> 00:11:08,290 Agora, qual é que acham que é a língua que está no topo 171 00:11:08,290 --> 00:11:11,949 quando falamos em número de lexemas neste momento na Wikidata? 172 00:11:12,813 --> 00:11:19,073 (Plateia) [inaudível] 173 00:11:19,073 --> 00:11:20,146 O quê? 174 00:11:20,146 --> 00:11:21,741 (Plateia 2) Alemão. 175 00:11:21,741 --> 00:11:24,142 Desculpe, já o tinha ouvido antes. 176 00:11:24,142 --> 00:11:25,651 É Russo. 177 00:11:27,691 --> 00:11:29,754 O Russo está bastante à frente. 178 00:11:31,647 --> 00:11:33,832 E, para vos dar alguma perspetiva, 179 00:11:35,652 --> 00:11:36,816 há diferentes opiniões 180 00:11:36,816 --> 00:11:42,231 mas li, por exemplo, que entre 1 000 e 3 000 palavras 181 00:11:42,231 --> 00:11:45,450 chegam para chegar ao nível conversacional noutra língua 182 00:11:45,450 --> 00:11:49,461 e que entre 4 000 a 10 000 palavras chegam para o nível avançado. 183 00:11:51,591 --> 00:11:55,282 Então, ainda temos um pouco para pôr em dia. 184 00:11:58,483 --> 00:12:03,279 Uma coisa à qual quero que prestem atenção é ao basco 185 00:12:03,279 --> 00:12:07,744 com, aproximadamente, 10 000 lexemas. 186 00:12:09,244 --> 00:12:13,003 Agora, se olharem para o número de formas nesses lexemas, 187 00:12:14,013 --> 00:12:16,497 o basco está lá em cima, 188 00:12:18,137 --> 00:12:20,006 o que é bastante fixe. 189 00:12:20,006 --> 00:12:24,930 Deviam ir a uma palestra que vos explique o porquê desta situação. 190 00:12:27,181 --> 00:12:31,175 Agora, olhando para o número de sentidos, para o que as palavras querem dizer, 191 00:12:32,015 --> 00:12:35,081 o basco chega mesmo ao topo da lista. 192 00:12:35,081 --> 00:12:37,102 Eu acho que merece um aplauso. 193 00:12:37,102 --> 00:12:40,861 (aplausos) 194 00:12:45,678 --> 00:12:47,118 Outra pequena pergunta. 195 00:12:47,118 --> 00:12:50,181 Qual é o lexema com o maior número de traduções neste momento? 196 00:12:50,651 --> 00:12:56,676 (Plateia) Gatos, gatos, [inaudível], Douglas Adams, [inaudível]. 197 00:12:56,676 --> 00:13:00,014 Todos bons palpites, mas não. 198 00:13:00,882 --> 00:13:04,137 É esta, a palavra para "água", em russo. 199 00:13:09,571 --> 00:13:12,253 Já falámos muito 200 00:13:12,253 --> 00:13:16,412 sobre quantos lexemas, formas e sentidos temos, 201 00:13:16,412 --> 00:13:20,493 mas isso é apenas uma parte do que precisamos. 202 00:13:20,493 --> 00:13:21,515 A outra parte 203 00:13:21,515 --> 00:13:25,161 é descrever os lexemas, formas e sentidos, 204 00:13:25,161 --> 00:13:27,647 de uma forma que as máquinas possam ler. 205 00:13:27,647 --> 00:13:30,039 E para isso temos declarações, tal como nos itens. 206 00:13:31,479 --> 00:13:36,362 E uma das propriedades que usamos é o exemplo de utilização. 207 00:13:36,362 --> 00:13:38,582 Portanto quem quer que esteja a usar os dados 208 00:13:38,582 --> 00:13:42,089 pode entender como usar a palavra no contexto, 209 00:13:42,089 --> 00:13:44,158 pode ser uma citação, por exemplo. 210 00:13:45,396 --> 00:13:47,113 E aqui, o polaco reina. 211 00:13:47,900 --> 00:13:49,764 Bom trabalho falantes de polaco. 212 00:13:54,219 --> 00:13:57,680 Outra propriedade que é mesmo útil é IPA, 213 00:13:57,680 --> 00:14:00,186 logo, como é que se pronuncia uma palavra. 214 00:14:00,876 --> 00:14:07,497 O russo, aparentemente, precisa imenso de declarações IPA. 215 00:14:10,219 --> 00:14:13,314 Mas, novamente, polaco em segundo. 216 00:14:17,148 --> 00:14:20,753 E, por último, mas não menos importante, temos a pronunciação áudio. 217 00:14:20,753 --> 00:14:23,372 Isto corresponde a ligações a ficheiros nos *Commons* 218 00:14:23,372 --> 00:14:25,959 onde alguém diz a palavra, 219 00:14:25,959 --> 00:14:29,913 de forma a que possamos ouvir como um nativo a pronuncia 220 00:14:29,913 --> 00:14:32,871 para o caso de não conseguires ler IPA, por exemplo. 221 00:14:34,959 --> 00:14:39,205 E há um projeto muito porreiro baseado na Wiki, 222 00:14:39,205 --> 00:14:40,474 chamado Lingua Libre, 223 00:14:40,884 --> 00:14:45,173 onde podemos ir e ajudar a gravar palavras na nossa língua 224 00:14:45,173 --> 00:14:47,836 que pode ser depois adicionadas a lexemas na Wikidata, 225 00:14:48,446 --> 00:14:52,103 para que outras pessoas possam entender como pronunciar as palavras. 226 00:14:53,663 --> 00:14:55,694 (plateia 3) Há alguma ligação para isso? 227 00:14:55,694 --> 00:14:57,485 Se procurarem por "Lingua Libre"... 228 00:14:57,485 --> 00:15:00,981 Tenho a certeza de que alguém pode publicá-la no nosso canal do Telegram. 229 00:15:03,138 --> 00:15:04,621 Aqueles tipos são os maiores. 230 00:15:04,621 --> 00:15:06,726 Fizeram uma coisa mesmo fixe com a Wikibase. 231 00:15:09,416 --> 00:15:10,617 Certo. 232 00:15:12,556 --> 00:15:17,285 Então, a questão é, para onde seguimos daqui? 233 00:15:19,165 --> 00:15:22,010 A julgar pelos números que vos mostrei, 234 00:15:23,030 --> 00:15:25,172 já fizemos um longo caminho 235 00:15:25,172 --> 00:15:28,430 na direção de dar a mais pessoas mais acesso a mais conhecimento 236 00:15:28,430 --> 00:15:31,240 quando procuram línguas na Wikidata. 237 00:15:32,530 --> 00:15:36,392 Mas ainda há muito trabalho pela frente. 238 00:15:38,992 --> 00:15:42,341 Algumas coisas que podem fazer para ajudar, por exemplo, 239 00:15:42,341 --> 00:15:44,921 é organizar maratonas de etiquetagem, 240 00:15:44,921 --> 00:15:50,124 como juntar pessoas para etiquetar items na Wikidata. 241 00:15:50,914 --> 00:15:55,121 Ou fazer uma maratona de etiquetagem para lexemas na vossa língua, 242 00:15:55,121 --> 00:15:59,212 para introduzir as palavras mais usadas na vossa língua na Wikidata. 243 00:16:00,773 --> 00:16:03,285 Ou podem usar uma ferramenta como o Terminator, 244 00:16:03,285 --> 00:16:08,493 que vos ajuda a encontrar os itens mais importantes na vossa língua 245 00:16:08,493 --> 00:16:11,549 a que ainda falte alguma etiqueta. 246 00:16:13,274 --> 00:16:18,359 Sendo que mais importante é medido por quantas vezes é usado 247 00:16:18,359 --> 00:16:22,553 em outros items da Wikidata como ligações ou declarações. 248 00:16:25,768 --> 00:16:30,022 E, claro, para a porção do lexema, 249 00:16:31,342 --> 00:16:35,169 agora que temos uma cobertura básica desses lexemas, 250 00:16:35,169 --> 00:16:41,163 queremos também construí-los, adicionar-lhes mais declarações 251 00:16:41,163 --> 00:16:44,401 para que eles possam, realmente, construir a base 252 00:16:44,401 --> 00:16:47,421 para construir aplicações significativas a partir deles. 253 00:16:48,141 --> 00:16:50,795 Porque estamos a aproximarmo-nos dessa massa crítica, 254 00:16:50,795 --> 00:16:53,496 mas ainda estamos longe disso, 255 00:16:53,496 --> 00:16:56,624 de podermos construir aplicações sérias sobre isto. 256 00:16:58,097 --> 00:17:01,680 E espero que todos vocês se juntem a nós para fazermos isso. 257 00:17:02,583 --> 00:17:07,103 E isso já me leva 258 00:17:07,103 --> 00:17:09,843 a uma pequena ajuda dos nossos amigos. 259 00:17:09,843 --> 00:17:12,812 Bruno, queres vir até aqui 260 00:17:13,882 --> 00:17:16,854 para nos falares sobre as máscaras lexicais? 261 00:17:17,541 --> 00:17:18,567 (Bruno) Obrigado, Lydia, 262 00:17:18,567 --> 00:17:21,519 por me cederes este bocadinho de tempo 263 00:17:21,519 --> 00:17:24,150 para apresentar o trabalho que estamos a fazer na Google 264 00:17:24,150 --> 00:17:29,635 com o Denny, que a maior parte de vocês já deve ter ouvido falar ou conhece. 265 00:17:30,126 --> 00:17:32,030 Porque na Google-- eu sou linguista, 266 00:17:32,030 --> 00:17:36,150 portanto estou muito feliz de estar aqui entre outros entusiastas de linguagens-- 267 00:17:36,620 --> 00:17:39,278 nós também estamos a construir alguns léxicos 268 00:17:39,278 --> 00:17:41,766 e construimos esta tecnologia, 269 00:17:41,766 --> 00:17:45,589 ou esta abordagem, que pensamos poderá ser útil para vocês. 270 00:17:46,369 --> 00:17:48,455 Só para vos situar, 271 00:17:48,455 --> 00:17:52,068 isto é a minha experiência lexicográfica a falar. 272 00:17:52,788 --> 00:17:54,347 Quando criamos bases de dados de léxico, 273 00:17:54,347 --> 00:17:58,623 é preciso muito tempo para a manter, mantê-la consistente 274 00:17:58,623 --> 00:18:00,125 e para trocar dados, 275 00:18:00,125 --> 00:18:02,027 como vocês provavelmente sabem. 276 00:18:02,517 --> 00:18:05,927 Houve várias tentativas para unificar as características e propriedades 277 00:18:05,927 --> 00:18:09,184 que descrevem os lexemas e as formas. 278 00:18:09,184 --> 00:18:10,936 Ainda não é um problema resolvido, 279 00:18:10,936 --> 00:18:13,958 mas há ainda algumas tentativas de unificação nesse sentido. 280 00:18:13,958 --> 00:18:15,209 Mas o que está mesmo a faltar-- 281 00:18:15,209 --> 00:18:18,732 e isto é um problema que tivemos no início do nosso projeto na Google-- 282 00:18:18,732 --> 00:18:21,607 é tentar ter uma estrutura interna 283 00:18:22,197 --> 00:18:25,910 que descreva como uma entrada lexical se deverá parecer, 284 00:18:25,910 --> 00:18:28,581 que tipo de dados ou que tipo de informação temos 285 00:18:28,581 --> 00:18:32,237 e a especificação pretendida. 286 00:18:32,237 --> 00:18:38,187 Assim, isto foi o que inventámos, esta coisa chamada máscara lexical. 287 00:18:38,897 --> 00:18:44,841 Uma máscara lexical descreve o que é expectável de uma entrada, 288 00:18:44,841 --> 00:18:47,329 de uma entrada lexicográfica, para estar completa, 289 00:18:47,329 --> 00:18:51,436 tanto em termos de número de formas que se esperam de um lexema 290 00:18:51,436 --> 00:18:55,607 como do número de características que se esperam em cada forma. 291 00:18:56,397 --> 00:18:58,329 Aqui está um exemplo para adjetivos italianos. 292 00:18:58,329 --> 00:19:02,002 Seria de esperar, em italiano, termos quatro formas para os adjetivos 293 00:19:02,002 --> 00:19:05,383 e cada uma dessas formas ter uma combinação específica 294 00:19:05,383 --> 00:19:07,946 de género e número de características. 295 00:19:08,606 --> 00:19:12,672 Isto é o que esperamos de adjetivos italianos. 296 00:19:12,672 --> 00:19:16,176 Claro que, podemos ter máscaras extremamente complexas, 297 00:19:16,176 --> 00:19:20,783 como a conjugação dos verbos em francês, que é bastante extensa. 298 00:19:20,783 --> 00:19:23,487 E não vos quero mostrar nenhuma máscara russa 299 00:19:23,487 --> 00:19:25,378 porque não cabe no ecrã. (risos) 300 00:19:26,308 --> 00:19:29,531 E também temos especificações detalhadas, 301 00:19:29,531 --> 00:19:33,421 porque distinguimos o que está ao nível da forma. 302 00:19:33,421 --> 00:19:37,544 Então, aqui temos nomes russos que têm três números 303 00:19:37,544 --> 00:19:40,048 e alguns casos com diferentes formas. 304 00:19:40,048 --> 00:19:43,086 Mas, eles também têm uma especificação de entrada de gama 305 00:19:43,086 --> 00:19:45,590 que diz que o nome em particular tem 306 00:19:45,590 --> 00:19:50,133 um género inerente e uma característica de animação inerente 307 00:19:50,133 --> 00:19:52,488 que também são especificados na máscara. 308 00:19:54,518 --> 00:19:58,779 Também queremos salientar que uma máscara fornece uma especificação 309 00:19:58,779 --> 00:20:01,874 para qual deve ser o aspeto de uma entrada. 310 00:20:01,874 --> 00:20:07,158 Mas, podemos ter máscaras mais pequenas, para aspetos defeituosos da forma 311 00:20:07,158 --> 00:20:11,282 ou aspetos defeituosos do lexema que acontecem na linguagem. 312 00:20:11,282 --> 00:20:14,537 Aqui podem ver a forma mais simples dos verbos franceses 313 00:20:14,537 --> 00:20:19,729 que só têm a terceira pessoa do singular para todos os verbos metereológicos, 314 00:20:19,729 --> 00:20:23,969 como "chove" ou "neva", em português. 315 00:20:24,537 --> 00:20:26,493 Distinguimos estes dois níveis. 316 00:20:26,923 --> 00:20:29,962 E como é que usamos isto na Google? 317 00:20:29,962 --> 00:20:32,643 Quando temos um léxico que queremos usar, 318 00:20:33,063 --> 00:20:38,309 usamos a máscara para literalmente atirar os léxicos, 319 00:20:38,309 --> 00:20:40,163 todas as entradas, através da máscara 320 00:20:40,163 --> 00:20:44,303 e ver que entrada tem problemas em termos de estrutura. 321 00:20:44,303 --> 00:20:46,523 Está a faltar uma forma? Falta uma característica? 322 00:20:46,523 --> 00:20:51,497 E, quando surge um problema, fazemos validação humana 323 00:20:51,497 --> 00:20:53,751 ou só para ver se passa na máscara. 324 00:20:53,751 --> 00:20:57,924 É uma ferramenta extremamente poderosa para conferir a qualidade da estrutura. 325 00:20:59,427 --> 00:21:01,964 Portanto, estamos felizes em anunciar hoje 326 00:21:01,964 --> 00:21:05,408 que recebemos luz verde para disponibilizarmos o código fonte. 327 00:21:05,948 --> 00:21:07,573 Portanto este é o esquema. 328 00:21:07,573 --> 00:21:09,477 Se quiserem isto, podemos lançar 329 00:21:09,477 --> 00:21:13,483 e pode ser providenciado à Wikidata em ficheiros ShEx. 330 00:21:13,483 --> 00:21:16,688 Este é o ficheiro ShEx para nomes em alemão, 331 00:21:16,688 --> 00:21:20,428 e o Denny está a trabalhar na conversão da nossa especificação interna 332 00:21:20,428 --> 00:21:23,666 para uma mais de código aberto. 333 00:21:23,666 --> 00:21:27,522 Atualmente temos mais de 25 linguagens, 334 00:21:27,522 --> 00:21:29,225 portanto esperamos crescer do nosso lado, 335 00:21:29,225 --> 00:21:34,350 mas também fazer disto uma oportunidade para colaborar noutras línguas. 336 00:21:34,350 --> 00:21:40,728 E uma dessas colaborações é a que o Denny tem com o Lukas. 337 00:21:40,728 --> 00:21:45,052 O Lukas tem umas ferramentas ótimas para ter uma interface com o utilizador 338 00:21:45,052 --> 00:21:51,061 que ajuda o utilizador ou contribuidor a adicionar mais formas. 339 00:21:51,061 --> 00:21:54,151 Portanto, se quiserem adicionar um adjetivo em francês, 340 00:21:54,151 --> 00:21:59,057 a interface diz-vos quantas formas são expetáveis 341 00:21:59,057 --> 00:22:01,562 e e quantas características essa forma deverá ter. 342 00:22:01,562 --> 00:22:06,268 Então a nossa máscara ajudará a ferramenta a ser definida e expandida. 343 00:22:07,048 --> 00:22:08,385 É isto. 344 00:22:08,591 --> 00:22:10,358 (Lydia) Muito obrigado. 345 00:22:10,358 --> 00:22:13,523 (aplausos) 346 00:22:14,249 --> 00:22:16,891 Certo. Há questões? 347 00:22:16,891 --> 00:22:19,381 Querem falar mais sobre os lexemas? 348 00:22:19,697 --> 00:22:21,475 - (plateia 4) Sim. - Sim. (risos) 349 00:22:33,055 --> 00:22:35,380 (plateia 4) A minha questão, porque estava a falar 350 00:22:35,380 --> 00:22:38,996 acerca de dar mais acesso a mais pessoas em mais línguas, 351 00:22:38,996 --> 00:22:42,444 mas há muitas línguas que não podem ser usadas na Wikidata. 352 00:22:42,444 --> 00:22:44,588 Então que solução é que têm para isso? 353 00:22:45,739 --> 00:22:47,686 Quando diz que não podem ser usadas, 354 00:22:47,686 --> 00:22:50,308 está a referir-se à entrada de etiquetas? 355 00:22:50,308 --> 00:22:52,578 - (plateia 4) Etiquetas, descrições. - Certo. 356 00:22:52,578 --> 00:22:55,498 Para lexemas, é um pouco diferente 357 00:22:55,498 --> 00:22:57,793 porque aí não temos essa restrição. 358 00:22:58,923 --> 00:23:05,425 Para etiquetas nos itens e propriedades, há realmente alguma restrição 359 00:23:05,433 --> 00:23:12,411 porque quisemos ter a certeza que não é completamente-- 360 00:23:12,411 --> 00:23:14,229 qualquer um faz o que quiser 361 00:23:14,229 --> 00:23:17,769 e torna-se ingerível. 362 00:23:17,769 --> 00:23:23,898 Até uma comunidade pequena que queira uma língua e que queira trabalhar nisso: 363 00:23:23,898 --> 00:23:26,657 venham ter connosco e fazemos acontecer. 364 00:23:26,657 --> 00:23:29,202 (plateia 4) Nós fizemos isso no *Hackathon* de Praga em Maio 365 00:23:29,202 --> 00:23:32,359 e demorou quase até Agosto até conseguirmos usar a nossa linguagem. 366 00:23:32,359 --> 00:23:34,935 - Sim. - (plateia 4) Portanto, é muito lento. 367 00:23:34,935 --> 00:23:37,854 Sim, infelizmente é muito lento. 368 00:23:37,854 --> 00:23:39,883 Estamos a trabalhar com o Comité de Linguagem 369 00:23:39,883 --> 00:23:46,048 a tentar resolver os mais básicos... 370 00:23:49,537 --> 00:23:55,447 Ter o acordo sobre que tipo de linguagens são realmente "permitidas" 371 00:23:56,047 --> 00:23:59,838 e isso tem demorado tempo demais, 372 00:23:59,838 --> 00:24:04,178 o que pode ser a razão para o vosso pedido ter demorado mais do que devia. 373 00:24:04,778 --> 00:24:06,213 (plateia 4) Obrigada. 374 00:24:06,555 --> 00:24:07,610 (plateia 5) Obrigado. 375 00:24:07,610 --> 00:24:10,788 Lydia, se se lembra das estatísticas que mostrou, 376 00:24:10,788 --> 00:24:12,886 o número de lexemas por linguagem. - Sim. 377 00:24:12,886 --> 00:24:17,599 (plateia 5) Então, contaram todos as formas como pontos de dados 378 00:24:17,599 --> 00:24:20,034 ou apenas os lexemas? 379 00:24:20,909 --> 00:24:22,621 (Lydia) Está a falar disto? 380 00:24:22,621 --> 00:24:24,053 A qual é que se refere? 381 00:24:24,053 --> 00:24:25,529 (plateia 5) Sim, exatamente. 382 00:24:25,797 --> 00:24:28,341 Se se lembrar, este número é [inaudível] 383 00:24:28,341 --> 00:24:31,514 todas as formas, todos os lexemas ou apenas quantos lexemas há? 384 00:24:31,514 --> 00:24:33,915 Não, isto é apenas o número de lexemas. 385 00:24:33,915 --> 00:24:35,395 (plateia 5) Só o número de lexemas. 386 00:24:35,395 --> 00:24:36,797 Então é apenas uma estatística 387 00:24:36,797 --> 00:24:39,310 porque, se depois contássemos com as formas-- 388 00:24:39,310 --> 00:24:40,614 por isso pergunto-- 389 00:24:40,614 --> 00:24:42,637 então, todas as línguas com morfologia de inflexão, 390 00:24:42,637 --> 00:24:44,927 como russo, sérvio, esloveno, etc, 391 00:24:44,927 --> 00:24:47,616 têm uma vantagem natural, porque têm tantas. 392 00:24:47,616 --> 00:24:51,630 Daí, este tipo de saltos aqui no número de formulários. 393 00:24:51,630 --> 00:24:53,851 (plateia 5) Sim, era esse mesmo. Obrigado. 394 00:24:56,386 --> 00:25:00,224 (plateia 6) Tenho só uma pergunta rápida acerca de... 395 00:25:00,524 --> 00:25:06,824 Quando estávamos a falar sobre os itens e propriedades. 396 00:25:07,124 --> 00:25:09,921 Até onde eu consigo entender, não há, atualmente, forma 397 00:25:09,921 --> 00:25:12,746 de dar uma fonte definida a qualquer das etiquetas 398 00:25:12,746 --> 00:25:14,606 e descrições que foram dadas. - Sim. 399 00:25:14,606 --> 00:25:18,047 (plateia 6) Então, não há nada porque, quando estás a falar 400 00:25:18,047 --> 00:25:20,920 acerca de uma propriedade de um item, 401 00:25:20,920 --> 00:25:24,339 podes ter, por exemplo, etiquetas conflituosas. 402 00:25:24,339 --> 00:25:27,999 - Sim. - (Plateia 6) Então, esta pessoa é como... 403 00:25:28,302 --> 00:25:30,432 Falamos à pouco sobre coisas indígenas, por exemplo. 404 00:25:30,432 --> 00:25:35,965 Então esta pessoa é um artista norueguês, de acordo com uma fonte, 405 00:25:35,965 --> 00:25:38,750 e um artista sami, de acordo com outra fonte. 406 00:25:39,230 --> 00:25:42,633 Ou, por exemplo, em estoniano, tivemos um problema 407 00:25:42,633 --> 00:25:47,729 onde tivemos que mudar uma terminologia para a terminologia oficial usada 408 00:25:47,729 --> 00:25:49,482 nos léxicos oficiais. 409 00:25:49,482 --> 00:25:52,262 Mas não temos realmente uma forma de indicar porquê. 410 00:25:52,262 --> 00:25:53,596 Qual foi a fonte disto 411 00:25:53,596 --> 00:25:55,561 e por que razão isto está melhor do que estava. 412 00:25:55,561 --> 00:25:57,150 Fui apenas eu, como uma pessoa ao acaso, 413 00:25:57,150 --> 00:25:59,615 a mudar isto para quem quer que o veja. 414 00:25:59,615 --> 00:26:02,520 Então, há um plano para isto ser possível de qualquer forma, 415 00:26:02,520 --> 00:26:06,355 de modo a que possamos realmente ter fontes confiáveis para dados de linguagem? 416 00:26:07,045 --> 00:26:11,358 Isso é parcialmente possível. 417 00:26:11,358 --> 00:26:15,958 Por exemplo, quando há um item para uma pessoa, 418 00:26:15,968 --> 00:26:22,720 pode ter as declarações: primeiro nome, último nome, e por aí em diante. 419 00:26:22,720 --> 00:26:26,226 E, nessa altura, pode-se providenciar referências para isso. 420 00:26:28,061 --> 00:26:32,544 Tenho algumas reticências em adicionar mais complexidade 421 00:26:32,544 --> 00:26:35,557 para referências em etiquetas e descrições, 422 00:26:35,557 --> 00:26:38,624 mas se as pessoas realmente pensam 423 00:26:38,624 --> 00:26:44,939 que isto é algo que não está coberto por qualquer referência na declaração, 424 00:26:44,939 --> 00:26:46,803 então falamos sobre isso. 425 00:26:48,809 --> 00:26:53,303 Mas temo que vá adicionar muita complexidade 426 00:26:53,303 --> 00:26:56,523 para o que espero serem poucos casos. 427 00:26:57,393 --> 00:27:00,188 Mas estou disposta a ser convencida do contrário 428 00:27:00,188 --> 00:27:04,017 se as pessoas realmente sentem que isto tem relevãncia. 429 00:27:04,017 --> 00:27:07,737 (plateia 6) Se for adicionado provavelmente não deveria ser o padrão, 430 00:27:07,737 --> 00:27:12,182 mostrado a todos os utilizadores iniciados na interface, em todos os casos. 431 00:27:12,182 --> 00:27:16,190 Podia ser mais, "Clica aqui se queres adicionar algo específico sobre isto." 432 00:27:17,632 --> 00:27:23,368 Temos alguma ideia de quantas vezes isso teria importância? 433 00:27:24,340 --> 00:27:26,423 (plateia 6) Em estónio, por exemplo-- 434 00:27:26,423 --> 00:27:29,034 eu imagino que seja assim noutras línguas também-- 435 00:27:29,034 --> 00:27:34,113 por exemplo, há um nome oficial que é a legítima tradução 436 00:27:34,113 --> 00:27:36,726 para inglês de, 437 00:27:36,726 --> 00:27:40,314 digamos, um tipo específico de municipalidade. 438 00:27:40,314 --> 00:27:42,182 Este foi o meu caso de utilizador, por exemplo, 439 00:27:42,182 --> 00:27:44,409 onde estávamos a usar a palavra "paróquia" 440 00:27:45,159 --> 00:27:50,615 na qual a palavra estónia original significava paróquia de igreja 441 00:27:50,615 --> 00:27:51,779 e essa foi a sua origem, 442 00:27:51,779 --> 00:27:54,809 mas não é agora a tradução oficial que a Estónia recebe atualmente. 443 00:27:54,809 --> 00:27:58,853 Neste caso, eu juntaria-a apenas como declarações de nome oficial 444 00:27:58,853 --> 00:28:00,817 e juntaria a referência aí. 445 00:28:02,032 --> 00:28:03,158 (plateia 6) Certo. 446 00:28:05,026 --> 00:28:06,572 Mais questões, sim? 447 00:28:07,682 --> 00:28:09,944 (Asaf) Dois comentários rápidos. 448 00:28:09,944 --> 00:28:13,934 Falou especificamente do asturiano como uma linguagem que está em alta 449 00:28:13,934 --> 00:28:16,385 e eu acho que isso é falso. 450 00:28:16,385 --> 00:28:17,644 Conte-me. 451 00:28:17,644 --> 00:28:19,748 (Asaf) Eu penso que é apenas um bot 452 00:28:19,748 --> 00:28:24,068 que colou nomes de pessoas, nomes apropriados para pessoas, 453 00:28:24,068 --> 00:28:27,172 e disse "Bem, isto é exatamente como em francês ou espanhol" 454 00:28:27,172 --> 00:28:28,558 e copiou-o massivamente. 455 00:28:28,558 --> 00:28:33,316 Uma prova é que não se vê essa energia no asturiano, 456 00:28:33,316 --> 00:28:37,205 em coisas que realmente requerem tradução, como nomes de propriedades, 457 00:28:37,205 --> 00:28:39,568 ou nomes de itens que não são nomes próprios. 458 00:28:39,568 --> 00:28:41,119 Asaf, partes-me o coração. 459 00:28:41,119 --> 00:28:43,108 (Asaf) Eu sei, costumo estragar as festas, 460 00:28:43,108 --> 00:28:48,458 mas tenho boas notícias também, sobre os números das pronunciações. 461 00:28:49,408 --> 00:28:53,515 Como saberão, o *Commons* está cheio de ficheiros de pronunciação 462 00:28:53,515 --> 00:28:54,668 e, por exemplo, 463 00:28:54,668 --> 00:29:01,102 o holandês tem, nada mais nada menos, que 300 000 ficheiros desses introduzidos 464 00:29:01,802 --> 00:29:05,051 que necessitam de ser "ingeridos" de alguma forma. 465 00:29:05,051 --> 00:29:07,697 Então, se alguém está à procura de um projeto para as horas vagas, 466 00:29:07,697 --> 00:29:08,807 há imensos 467 00:29:08,807 --> 00:29:13,210 ficheiros de pronunciação, classificados e categorizados no *Commons* 468 00:29:13,210 --> 00:29:16,763 na categoria "Pronunciação" por linguagem. 469 00:29:16,763 --> 00:29:22,840 Estão à espera de ser combinados com os lexemas e postos no lexema. 470 00:29:23,030 --> 00:29:25,484 E estava a pensar se me poderia dizer alguma coisa 471 00:29:25,484 --> 00:29:26,585 sobre o quadro referência, 472 00:29:26,585 --> 00:29:28,757 algo sobre quanto investimento 473 00:29:28,757 --> 00:29:31,995 ou o que podemos esperar relativo ao lexema no próximo ano, 474 00:29:31,995 --> 00:29:34,020 porque eu, pessoalmente, mal posso esperar. 475 00:29:34,839 --> 00:29:37,044 Não pode? (risos) 476 00:29:37,044 --> 00:29:39,118 - (Asaf) Por mais. - Sim. (risos) 477 00:29:40,339 --> 00:29:42,329 Penso que ... 478 00:29:44,401 --> 00:29:49,523 Neste momento, estamos concentrados mais na Wikibase e na qualidade de dados 479 00:29:51,283 --> 00:29:55,087 para ver quanta tração isto tem 480 00:29:55,087 --> 00:30:01,516 e para obter mais para descobrir onde os próximos pontos críticos estão 481 00:30:01,516 --> 00:30:06,003 e depois voltar atrás e melhorar mais os dados lexicográficos. 482 00:30:06,903 --> 00:30:09,790 E uma das coisas que adoraria ouvir de vocês 483 00:30:09,790 --> 00:30:14,136 é onde exatamente vocês vêm que poderão ser dados os próximos passos, 484 00:30:14,136 --> 00:30:15,966 onde querem melhorias 485 00:30:15,966 --> 00:30:20,340 para que nós possamos descobrir como fazer isso acontecer. 486 00:30:21,065 --> 00:30:22,810 Mas claro que está certo, 487 00:30:22,810 --> 00:30:25,712 ainda há muito a fazer também do lado técnico. 488 00:30:30,363 --> 00:30:35,848 (plateia 7) Ao carregarmos as palavras bascas com formas, 489 00:30:35,848 --> 00:30:38,259 e verão alguns destes tipos de coisas, estávamos todos... 490 00:30:38,259 --> 00:30:41,329 Na semana passada dissemos "Somos os primeiros em algo." 491 00:30:41,329 --> 00:30:42,919 [inaudível] 492 00:30:42,919 --> 00:30:44,928 Apareceu na imprensa e foi tipo: 493 00:30:44,928 --> 00:30:49,208 "O basco foi o primeiro em algo, foram os primeiros." 494 00:30:49,208 --> 00:30:50,466 (risos) 495 00:30:50,466 --> 00:30:53,318 E depois as pessoas perguntaram "Mas para que serve isto?" 496 00:30:54,538 --> 00:30:56,749 Nós não temos uma boa resposta. 497 00:30:56,749 --> 00:30:57,888 Quer dizer, certo, 498 00:30:57,888 --> 00:31:01,841 isto vai ajudar computadores a entender mais a nossa linguagem, sim. 499 00:31:01,841 --> 00:31:05,279 Mas que tipo de ferramentas podemos fazer no futuro? 500 00:31:05,279 --> 00:31:07,407 E ainda não temos uma boa resposta. 501 00:31:07,407 --> 00:31:10,625 Portanto eu não sei se vocês têm uma boa resposta para isto. 502 00:31:10,625 --> 00:31:12,742 (risos) Eu não sei se eu tenho uma boa resposta, 503 00:31:12,742 --> 00:31:14,746 mas tenho uma resposta. 504 00:31:15,380 --> 00:31:20,225 Então, eu penso, neste momento, como estava a dizer [inaudível], 505 00:31:20,225 --> 00:31:21,924 que ainda não chegámos à massa crítica 506 00:31:21,924 --> 00:31:25,529 onde podemos construir um monte de ferramentas realmente interessantes. 507 00:31:25,529 --> 00:31:27,707 Mas já existem algumas ferramentas. 508 00:31:28,157 --> 00:31:31,692 No outro dia, a Esther Pandalia, por exemplo, 509 00:31:31,692 --> 00:31:33,817 lançou uma ferramenta onde podemos ver, 510 00:31:35,587 --> 00:31:38,889 penso que eram as palavras num globo, 511 00:31:38,889 --> 00:31:41,901 onde eram faladas, de onde tinham vindo. 512 00:31:42,461 --> 00:31:44,090 Posso estar errada sobre isto. 513 00:31:44,090 --> 00:31:46,286 Mas ela respondeu no chat do projeto na Wikidata. 514 00:31:46,286 --> 00:31:48,984 Podem vê-lo ali. 515 00:31:49,574 --> 00:31:51,805 Então já vimos as primeiras ferramentas, 516 00:31:51,805 --> 00:31:55,696 tal como já vimos, no passado, quando a Wikidata começou. 517 00:31:56,846 --> 00:31:59,602 Primeiro algumas... Como uma rede 518 00:31:59,602 --> 00:32:03,424 e depois "Olha, há aqui esta coisa que liga a esta outra coisa." 519 00:32:04,734 --> 00:32:07,059 E à medida que temos mais dados 520 00:32:07,059 --> 00:32:10,352 e chegamos mais perto da massa crítica, 521 00:32:11,702 --> 00:32:14,747 tornam-se possíveis aplicações mais poderosas. 522 00:32:15,607 --> 00:32:17,516 Coisas como a Histropedia, 523 00:32:19,036 --> 00:32:21,988 coisas como perguntas e respostas 524 00:32:21,988 --> 00:32:26,463 no vosso assistente pessoal digital, Platypus e assim por diante. 525 00:32:26,463 --> 00:32:30,228 E estamos a ver coisas semelhantes com os lexemas. 526 00:32:31,048 --> 00:32:34,650 Estamos num estágio em que podemos construir estes pequenos: 527 00:32:34,650 --> 00:32:37,654 "Olha, há uma ligação entre duas coisas 528 00:32:37,654 --> 00:32:42,618 e há uma tradução dessa palavra para esse estágio de linguagem." 529 00:32:42,618 --> 00:32:47,687 E, à medida que construimos e à medida que descrevemos mais palavras, 530 00:32:47,687 --> 00:32:49,443 mais se torna possível. 531 00:32:49,443 --> 00:32:51,795 Agora, o que é que isso torna possível? 532 00:32:53,322 --> 00:33:00,103 Como o Ben, o nosso orador de antes, estava a dizer acerca de traduções, 533 00:33:00,103 --> 00:33:03,315 ser capaz de traduzir de uma língua para outra. 534 00:33:03,315 --> 00:33:07,839 E Jens, outro colega, que está sempre a falar sobre 535 00:33:07,839 --> 00:33:11,452 a União Europeia andar sempre à procura de um tradutor 536 00:33:11,452 --> 00:33:17,319 que possa fazê-lo de, penso que era maltês para sueco. 537 00:33:17,319 --> 00:33:19,027 - (plateia 8) Estónio. - Estónio. 538 00:33:19,027 --> 00:33:20,027 (risos) 539 00:33:22,016 --> 00:33:26,211 E essa não é uma combinação usual. 540 00:33:27,111 --> 00:33:31,735 Mas assim que temos todas essas linguagens num lugar passível de ser lido por máquina 541 00:33:31,735 --> 00:33:33,063 podemos fazer isso. 542 00:33:33,063 --> 00:33:36,857 Podemos obter um dicionário 543 00:33:36,857 --> 00:33:41,735 de estónio para maltês e vice-versa. 544 00:33:42,935 --> 00:33:45,607 Então, incluir combinações de linguagens em dicionários 545 00:33:45,607 --> 00:33:47,791 que não foram incluídas antes 546 00:33:47,791 --> 00:33:51,050 porque não havia procura suficiente para elas, por exemplo, 547 00:33:51,050 --> 00:33:55,380 para fazê-lo de forma financeiramente viável e para justificar o trabalho. 548 00:33:55,380 --> 00:33:57,147 Agora podemos fazer isso. 549 00:33:59,607 --> 00:34:02,088 E depois a geração de texto. 550 00:34:02,088 --> 00:34:03,653 A Lucie estava a falar 551 00:34:03,653 --> 00:34:10,136 acerca de como ela está a trabalhar com a Hattie em gerar textos 552 00:34:10,136 --> 00:34:14,673 para iniciar artigos na Wikipedia em línguas minoritárias. 553 00:34:15,423 --> 00:34:19,382 Isso precisa de dados sobre palavras 554 00:34:19,382 --> 00:34:22,589 e precisamos perceber a língua para fazer isso. 555 00:34:23,469 --> 00:34:28,133 Sim, e isto é só o que me vem à cabeça agora. 556 00:34:28,573 --> 00:34:30,494 Talvez a nossa audiência tenha mais ideias 557 00:34:30,494 --> 00:34:34,353 do que querem fazer quando tivermos todos esses gloriosos dados. 558 00:34:37,693 --> 00:34:40,772 (plateia 9) Vou-nos desviar do tópico dos lexemas. 559 00:34:40,772 --> 00:34:42,536 Quero perguntar-vos algo. 560 00:34:42,536 --> 00:34:45,514 Como posso eu, como membro da comunidade 561 00:34:45,514 --> 00:34:49,925 influenciar que a prioridade seja colocada na tarefa, 562 00:34:49,925 --> 00:34:56,644 que um utilizador novo venha, e possa indicar que línguas quer ver e editar 563 00:34:56,644 --> 00:35:02,115 sem um qualquer conhecimento padrão verbal secreto. 564 00:35:02,115 --> 00:35:04,893 Talvez haja, este ano, uma lista técnica de desejos 565 00:35:04,893 --> 00:35:06,820 sem tópicos da Wikipedia. 566 00:35:06,820 --> 00:35:10,119 Talvez haja esperança de que possamos votar acerca 567 00:35:10,119 --> 00:35:13,928 daquela coisa que não arranjamos há sete anos. 568 00:35:13,928 --> 00:35:17,607 Tem alguma ideia ou comentário sobre isso? 569 00:35:18,217 --> 00:35:20,198 Então, está a falar sobre o facto 570 00:35:20,198 --> 00:35:23,258 de alguém que não esteja ligado à Wikidata 571 00:35:23,258 --> 00:35:25,391 não poder mudar a sua linguagem facilmente? 572 00:35:25,391 --> 00:35:27,839 (plateia 9) Não, para novos utilizadores. 573 00:35:28,309 --> 00:35:30,689 Então, se estiverem ligados, 574 00:35:30,689 --> 00:35:34,871 eles podem mudar a sua língua no topo da página. 575 00:35:35,891 --> 00:35:39,589 Depois, aparece onde... 576 00:35:39,599 --> 00:35:42,013 onde as descrições das etiquetas estão 577 00:35:42,013 --> 00:35:43,483 e podem editá-las. 578 00:35:45,507 --> 00:35:49,009 (plateia 9) Bem, na verdade, muitas vezes o fluxo de trabalho é, 579 00:35:49,009 --> 00:35:52,217 se queremos ter múltiplas línguas elas estão disponíveis, 580 00:35:52,217 --> 00:35:55,419 e nem sempre acontece. 581 00:35:55,419 --> 00:35:58,584 Talvez devamos sentar-nos depois desta apresentação e mostra-me. 582 00:36:01,312 --> 00:36:04,089 Fixe. Mais questões? 583 00:36:05,394 --> 00:36:06,536 Sim. 584 00:36:11,415 --> 00:36:13,196 (plateia 10) Obrigado pela apresentação. 585 00:36:13,896 --> 00:36:15,127 Pode comentar 586 00:36:15,127 --> 00:36:19,307 acerca do estado da correlação com a comunidade do Wiktionary. 587 00:36:19,307 --> 00:36:22,146 Do que eu tenho conseguido ver, tem havido algumas discussões 588 00:36:22,146 --> 00:36:26,051 acerca de importar alguns elementos do trabalho, 589 00:36:26,051 --> 00:36:30,333 mas parece haver algumas questões de licenciamento e desentendimentos, etc. 590 00:36:30,333 --> 00:36:31,438 Certo. 591 00:36:31,438 --> 00:36:36,970 Então, as comunidades do Wiktionary passaram muito tempo 592 00:36:36,970 --> 00:36:38,973 a construir o Wiktionary. 593 00:36:38,973 --> 00:36:42,643 Construiram 594 00:36:42,883 --> 00:36:47,304 padrões extremamente complicados e complexos 595 00:36:47,304 --> 00:36:53,404 para construir as bonitas tabelas que geram formulários para vocês 596 00:36:53,404 --> 00:36:56,392 e é tudo realmente impressionante, 597 00:36:56,392 --> 00:37:00,683 e um pouco louco, se pensarmos bem nisso. 598 00:37:02,081 --> 00:37:07,994 E, é claro, investiram muito tempo e esforço a fazê-lo. 599 00:37:09,204 --> 00:37:11,671 E, compreensivelmente, 600 00:37:11,671 --> 00:37:17,116 não querem que isso seja agarrado 601 00:37:17,936 --> 00:37:18,982 de qualquer maneira. 602 00:37:18,982 --> 00:37:21,791 Então, há um pouco disso, vindo daí. 603 00:37:21,791 --> 00:37:25,137 E está certo, tudo bem. 604 00:37:25,137 --> 00:37:31,782 Agora, as primeiras comunidades Wiktionary estão a falar de mudar isso 605 00:37:31,782 --> 00:37:34,329 e importar alguns dos dados deles para a Wikidata. 606 00:37:34,329 --> 00:37:39,095 O russo, por exemplo, como já viram, é um desses casos 607 00:37:39,785 --> 00:37:42,355 e espero que mais aconteçam. 608 00:37:43,425 --> 00:37:46,640 Mas vai ser um processo lento, 609 00:37:46,640 --> 00:37:49,383 tal como a adopção dos dados da Wikidata pela Wikipedia 610 00:37:49,383 --> 00:37:51,909 está a ser um processo bem lento. 611 00:37:52,699 --> 00:37:56,183 O outro lado é tentar que seja mais fácil 612 00:37:56,183 --> 00:37:59,132 usar os dados que estão nos lexemas, 613 00:37:59,132 --> 00:38:02,209 no Wiktionary, para que possam fazer uso deles 614 00:38:02,209 --> 00:38:05,531 e partilhar dados entre as Wiktionaries de linguagens. 615 00:38:05,531 --> 00:38:08,753 O que é super difícil neste momento, 616 00:38:08,753 --> 00:38:11,560 o que é de doidos, tal como foi na Wikipedia. 617 00:38:13,720 --> 00:38:16,325 Esperem pelo presente de aniversário. (risos) 618 00:38:19,918 --> 00:38:21,182 Sim. 619 00:38:22,519 --> 00:38:24,777 (plateia 11) Quando estava a pensar sobre a outra forma, 620 00:38:24,777 --> 00:38:28,038 eu, na verdade, não o quis dizer porque penso que pode ser super tolo. 621 00:38:28,038 --> 00:38:31,833 Mas acho que o Wiktionary já tem algum conteúdo 622 00:38:31,833 --> 00:38:34,978 e eu sei que não pode ser transferido para a Wikidata 623 00:38:34,978 --> 00:38:37,048 por causa das diferenças de licenças. 624 00:38:37,048 --> 00:38:39,631 Mas estava a pensar que talvez possamos fazer algo acerca disso. 625 00:38:40,161 --> 00:38:45,473 Talvez obter permissão das comunidades 626 00:38:45,473 --> 00:38:51,205 depois de, não sei, haver uma votação pública 627 00:38:51,825 --> 00:38:55,642 de forma a que comunidade, os seus membros ativos, 628 00:38:55,642 --> 00:39:02,523 votem e digam se querem ou não aceitar a transferência de conteúdo 629 00:39:02,523 --> 00:39:05,528 para a qual podem fazer os lexemas da Wikidata. 630 00:39:06,148 --> 00:39:08,537 Porque penso que é um desperdício. 631 00:39:09,528 --> 00:39:14,273 Então, isso é definitivamente uma conversa que essas pessoas, 632 00:39:14,273 --> 00:39:18,249 que estão nas comunidades Wiktionary, podem ter lá. 633 00:39:18,249 --> 00:39:24,647 Penso que seria um pouco presunçoso da nossa parte forçarmos isso. 634 00:39:25,767 --> 00:39:31,032 Mas sim, penso que, definitivamente, vale a pena ter essa conversa. 635 00:39:31,032 --> 00:39:33,898 Mas eu penso que também é importante entender 636 00:39:33,898 --> 00:39:38,962 que há uma distinção entre o que é legalmente permitido 637 00:39:38,962 --> 00:39:43,057 e o que devíamos estar a fazer 638 00:39:43,057 --> 00:39:45,426 e o que as essas pessoas querem ou não. 639 00:39:45,736 --> 00:39:47,329 Portanto, mesmo se for legal, 640 00:39:47,329 --> 00:39:50,640 se algumas das comunidades Wiktionary não o quiserem, 641 00:39:50,640 --> 00:39:53,537 eu teria cuidado, no mínimo. 642 00:39:58,766 --> 00:40:02,489 Penso que precisamos do microfone para o vídeo. 643 00:40:04,380 --> 00:40:07,299 (plateia 12) Obviamente, isto é tudo muito excitante 644 00:40:07,849 --> 00:40:12,169 e penso imediatamente em como levar isto aos meus estudantes, 645 00:40:12,169 --> 00:40:15,288 como posso incorporar isto nos cursos, 646 00:40:15,288 --> 00:40:18,531 no trabalho que estamos a fazer, ambientes educacionais. 647 00:40:18,531 --> 00:40:22,271 E não tenho, neste momento, 648 00:40:22,791 --> 00:40:24,116 primeiro, conhecimento, 649 00:40:24,116 --> 00:40:27,278 mas acho que a documentação que temos 650 00:40:27,768 --> 00:40:29,992 pode ser melhorada. 651 00:40:29,992 --> 00:40:33,437 Portanto, isto é um pedido para fazerem vídeos fixes 652 00:40:33,437 --> 00:40:35,898 que expliquem como funciona. 653 00:40:35,898 --> 00:40:39,948 Porque, se os tivermos, podemos usá-los, 654 00:40:39,948 --> 00:40:41,985 podemos ter estudantes a bordo 655 00:40:41,985 --> 00:40:46,952 e podemos fazer as pessoas entender quão espetacular é. 656 00:40:46,952 --> 00:40:51,891 Sim, pensem na documentação e pensem na educação, por favor. 657 00:40:51,891 --> 00:40:54,440 Porque penso que muito pode ser feito. 658 00:40:54,440 --> 00:40:58,585 Estas são pequenas tarefas que podem ser feitas mesmo com... 659 00:41:00,125 --> 00:41:02,033 bem, não direi escolas primárias, 660 00:41:02,033 --> 00:41:05,495 mas certamente até com estudantes jovens. 661 00:41:05,765 --> 00:41:10,646 E, portanto, gostaria mesmo de ver esse potencial a ser aproveitado 662 00:41:10,646 --> 00:41:15,172 e, neste momento, eu, pessoalmente, não entendo o suficiente 663 00:41:15,172 --> 00:41:19,500 para conseguir criar tarefas ou para criar tipo... 664 00:41:20,200 --> 00:41:22,155 para fazer algo prático com isto. 665 00:41:22,155 --> 00:41:25,772 Portanto, qualquer ajuda, ideias que alguém tenha acerca disso, 666 00:41:25,772 --> 00:41:29,648 estou completamente disponível para ouvir tudo o que tenham em mente. 667 00:41:30,328 --> 00:41:32,129 Sim, vamos falar sobre isso. 668 00:41:35,273 --> 00:41:37,139 Mais questões? 669 00:41:37,569 --> 00:41:39,065 Mais alguém tinha levantado a mão. 670 00:41:39,065 --> 00:41:40,495 Esqueci-me de quem foi. 671 00:41:45,739 --> 00:41:49,866 (plateia 13) Então, se não conseguimos importar a partir do Wiktionary, 672 00:41:49,866 --> 00:41:55,772 há algum esforço concertado para achar outras fontes de domínio público, 673 00:41:55,772 --> 00:41:57,459 talvez dados mais antigos, 674 00:41:58,769 --> 00:42:03,167 e filtrá-los previamente, organizá-los 675 00:42:03,167 --> 00:42:08,470 para que seja fácil a sua verificação, por pessoas, para importação? 676 00:42:08,993 --> 00:42:11,131 Então, foram feitos esforços iniciais. 677 00:42:11,131 --> 00:42:14,649 Penso que o basco é um desses esforços. 678 00:42:14,649 --> 00:42:17,474 Talvez queiras dizer algo sobre isso? 679 00:42:18,426 --> 00:42:20,130 (plateia 14) [inaudível] 680 00:42:23,026 --> 00:42:27,148 Certo, a resposta é pagando por isso... 681 00:42:28,204 --> 00:42:33,381 Temos um acordo com um fornecedor com quem trabalhamos. 682 00:42:34,661 --> 00:42:38,725 Eles fazem dicionários, outros... 683 00:42:40,315 --> 00:42:42,458 montes de coisas, mas fazem dicionários. 684 00:42:42,458 --> 00:42:47,473 Temos um acordo com eles para tornar grátis os dicionários estudantis. 685 00:42:47,473 --> 00:42:52,622 Nós transmitiríamos as palavras mais comuns e começaríamos a carregá-las 686 00:42:52,622 --> 00:42:55,590 com um identificador externo e esse tipo de coisas. 687 00:42:56,090 --> 00:43:02,702 Mas houve alguma discussão acerca de deixá-lo no CC0, 688 00:43:02,702 --> 00:43:05,322 porque eles têm um dicionário com CC por ele, 689 00:43:05,947 --> 00:43:10,066 e perceberam qual era a diferença. 690 00:43:10,066 --> 00:43:13,726 Portanto, houve alguma discussão. 691 00:43:13,726 --> 00:43:19,499 Mas penso que podemos providenciar algumas ferramentas ou exemplos, no futuro, 692 00:43:19,499 --> 00:43:21,761 e penso que haverá outros dicionários 693 00:43:21,761 --> 00:43:23,826 que podemos gerir. 694 00:43:23,826 --> 00:43:29,274 E também penso que o Wiktionary deveria ir nessa direção, 695 00:43:29,274 --> 00:43:32,260 mas isso é outra grande discussão. 696 00:43:33,015 --> 00:43:34,447 E, para além disso, 697 00:43:34,447 --> 00:43:38,699 a Lea está também em contacto com pessoas da Occitan, 698 00:43:38,699 --> 00:43:41,767 que trabalham nos dicionários Occitan, 699 00:43:41,767 --> 00:43:45,138 e eles estão atualmente a trabalhar numa colaboração suméria. 700 00:43:51,374 --> 00:43:53,363 Mais questões? 701 00:44:01,307 --> 00:44:05,179 (plateia 15) Olá. Nós somos as pessoas que querem importar dados da Occitan. 702 00:44:05,179 --> 00:44:06,405 Perfeito! 703 00:44:06,405 --> 00:44:09,188 (plateia 15) E temos um pequeno problema para... 704 00:44:09,188 --> 00:44:14,135 Nós não sabemos como representar toda a variedade de lexemas. 705 00:44:14,135 --> 00:44:17,493 Temos seis dialetos 706 00:44:17,493 --> 00:44:23,904 e queremos indicar, para o lexema, em que dialeto é usado 707 00:44:23,904 --> 00:44:27,175 e não temos a declaração CO apropriada para isso. 708 00:44:27,175 --> 00:44:31,105 Portanto, enquanto o segmento não existir, 709 00:44:31,525 --> 00:44:34,365 não conseguimos [inaudível] 710 00:44:34,365 --> 00:44:37,603 porque vamos precisar de fazê-lo outra vez 711 00:44:37,603 --> 00:44:41,946 quando estivermos em condições de exportar a declaração. 712 00:44:41,946 --> 00:44:44,471 E é complicado porque é uma declaração 713 00:44:44,471 --> 00:44:47,802 que não vai ser pedida por muita gente 714 00:44:47,802 --> 00:44:53,444 porque é uma declaração que diz respeito principalmente a línguas minoritárias. 715 00:44:53,444 --> 00:44:56,803 Então teremos uma pessoa a pedir isto. 716 00:44:56,803 --> 00:44:59,962 Mas, como no caso dos nossos colegas Bascos, 717 00:44:59,962 --> 00:45:06,082 pode ser uma pessoa que ajudará milhares de outros. 718 00:45:06,082 --> 00:45:10,884 Portanto, pode não parecer importante, 719 00:45:10,884 --> 00:45:14,136 mas será muito importante para nós. 720 00:45:14,524 --> 00:45:17,600 Vocês já têm a nova proposta de propriedade a funcionar, 721 00:45:17,600 --> 00:45:19,470 ou precisam de ajuda para criá-la? 722 00:45:21,244 --> 00:45:24,300 (plateia 15) Fizemos o pedido há quatro meses. 723 00:45:24,300 --> 00:45:28,755 Certo, então vamos arranjar pessoal para ajudar com essa proposta. 724 00:45:29,959 --> 00:45:33,092 De certeza que há pessoas suficentes nesta sala para isso se realizar. 725 00:45:33,092 --> 00:45:35,992 (plateia 15) Proposta de propriedade [em francês]. 726 00:45:35,992 --> 00:45:39,479 Nós não tivemos resposta e não sabemos fazê-lo 727 00:45:39,479 --> 00:45:42,953 porque não somos da comunidade Wikidata. 728 00:45:44,514 --> 00:45:48,697 Sim, então há aqui pessoas que vos podem ajudar. 729 00:45:48,697 --> 00:45:52,134 Talvez alguém levante a mão para ficar... 730 00:45:52,134 --> 00:45:53,454 (plateia 14) Sou a favor. 731 00:45:53,454 --> 00:45:55,512 Mas penso que é muito interessante 732 00:45:55,512 --> 00:45:58,939 que apenas a variante de forma 733 00:45:58,939 --> 00:46:02,607 também o possa gerir geograficamente, 734 00:46:02,607 --> 00:46:04,995 com coordenadas ou algum tipo de mapeamento. 735 00:46:05,485 --> 00:46:07,815 Também tendo diferentes pronúncias 736 00:46:07,815 --> 00:46:11,837 e penso que é algo que acontece em muitas línguas. 737 00:46:12,517 --> 00:46:16,112 Deveríamos trabalhar para isso acontecer de alguma forma 738 00:46:16,112 --> 00:46:18,865 e eu vou procurar a propriedade. 739 00:46:19,652 --> 00:46:20,773 Fixe. 740 00:46:20,773 --> 00:46:24,446 Então, vocês terão apoio para a vossa proposta de propriedade. 741 00:46:25,996 --> 00:46:27,297 Obrigado. 742 00:46:27,962 --> 00:46:30,261 Mais alguma questão? 743 00:46:32,210 --> 00:46:33,474 Finn. 744 00:46:33,784 --> 00:46:35,055 O Finn é uma daquelas pessoas 745 00:46:35,055 --> 00:46:37,531 que constrói coisas tendo como base dados lexicográficos. 746 00:46:37,531 --> 00:46:40,285 (Finn) É só uma pequena questão, 747 00:46:40,285 --> 00:46:44,226 e é sobre variações de ortografia. 748 00:46:44,896 --> 00:46:48,242 Parece difícil pô-las em... 749 00:46:48,242 --> 00:46:53,838 Poderíamos, claro, ter múltiplas formas para a mesma palavra. 750 00:46:55,627 --> 00:46:58,448 Não sei, parece ser... 751 00:46:59,328 --> 00:47:03,535 Se não o fizeres dessa forma, parece ser difícil especificar... 752 00:47:04,521 --> 00:47:05,888 ou, não sei se 753 00:47:05,888 --> 00:47:09,591 é apenas um problema técnico menor ou se... 754 00:47:09,591 --> 00:47:11,332 Vamos olhar para isso juntos. 755 00:47:11,332 --> 00:47:15,230 Adoraria ver um exemplo. 756 00:47:17,248 --> 00:47:18,478 Asaf. 757 00:47:26,666 --> 00:47:28,396 (Asaf) Obrigado. 758 00:47:29,216 --> 00:47:33,685 Posso dar um exemplo concreto da minha língua, o hebreu. 759 00:47:34,125 --> 00:47:38,685 O Hebreu tem duas variantes principais 760 00:47:38,685 --> 00:47:42,646 para expressar quase todas as palavras, 761 00:47:42,646 --> 00:47:47,520 porque a ortografia tradicional 762 00:47:47,520 --> 00:47:50,044 deixa de parte muitas vogais. 763 00:47:50,814 --> 00:47:54,987 E, assim sendo, nas edições modernas da Bíblia e de poesia, 764 00:47:54,987 --> 00:47:57,265 são usados os diacríticos. 765 00:47:57,265 --> 00:48:02,560 Por outro lado, os diacríticos nunca são usados na prosa moderna 766 00:48:02,560 --> 00:48:05,734 ou imprensa escrita ou toponímia. 767 00:48:05,734 --> 00:48:11,209 Então, a utilização casual diária usa as vogais extra 768 00:48:12,049 --> 00:48:13,519 e não usa os diacríticos. 769 00:48:13,519 --> 00:48:15,607 Porque eles são, obviamente, mais complicados 770 00:48:15,607 --> 00:48:17,893 e têm todo o tipo de regras e ninguém sabe as regras. 771 00:48:18,393 --> 00:48:20,531 - (risos) - Então, há duas variantes. 772 00:48:20,531 --> 00:48:25,222 Há a variante casual para prosa 773 00:48:25,222 --> 00:48:27,827 e há a da Bíblia e da poesia. 774 00:48:27,827 --> 00:48:32,200 que vem sempre no tradicional texto diacriticizado. 775 00:48:32,200 --> 00:48:33,302 Para ser útil, 776 00:48:33,302 --> 00:48:37,428 o lexema teria que reconhecer ambas as variantes de cada palavra 777 00:48:37,428 --> 00:48:39,747 e cada forma de cada palavra. 778 00:48:40,477 --> 00:48:43,391 Portanto, esse é um caso de utilização muito abrangente 779 00:48:43,391 --> 00:48:46,250 para variantes oficiais estáveis. 780 00:48:46,250 --> 00:48:49,262 Não é dialeto, não é regional, 781 00:48:49,262 --> 00:48:53,627 são, basicamente, dois sistemas morfológicos coexistentes. 782 00:48:54,427 --> 00:48:58,786 E eu também não sei exatamente como expressar isso no lexema, agora, 783 00:48:58,786 --> 00:49:02,800 o que é uma das coisas que me impede, em resposta parcial à pergunta do Magnus, 784 00:49:02,800 --> 00:49:05,238 de carregar as partes que estão prontas 785 00:49:05,238 --> 00:49:09,394 do maior dicionário Hebreu, que é de domínio público 786 00:49:09,394 --> 00:49:12,927 e que tenho andar a digitalizar há vários anos. 787 00:49:12,927 --> 00:49:14,723 Uma grande porção está pronta, 788 00:49:14,723 --> 00:49:16,459 mas não o ponho no lexema agora 789 00:49:16,459 --> 00:49:20,115 porque, basicamente, não sei como resolver este problema. 790 00:49:20,115 --> 00:49:23,387 Está bem, vamos resolver este problema aqui. (risos) 791 00:49:24,303 --> 00:49:26,021 Tem de ser possível. 792 00:49:29,875 --> 00:49:32,047 Mais perguntas? 793 00:49:37,003 --> 00:49:39,735 Se não, então muito obrigada. 794 00:49:40,435 --> 00:49:44,915 (aplausos)