1 00:00:05,945 --> 00:00:09,476 Olá a todos, ao painel de Qualidade de Dados. 2 00:00:10,198 --> 00:00:13,671 A qualidade dos dados é importante porque cada vez mais pessoas 3 00:00:13,672 --> 00:00:16,229 dependem do bom estado dos nossos dados. 4 00:00:16,229 --> 00:00:20,029 Assim, vamos falar da qualidade dos dados. 5 00:00:22,469 --> 00:00:26,643 Haverão quatro oradores que farão breves introduções acerca de tópicos 6 00:00:26,643 --> 00:00:29,720 relacionados com qualidade de dados. Depois, responderemos a perguntas. 7 00:00:30,130 --> 00:00:32,234 O primeiro é o Lucas. 8 00:00:34,385 --> 00:00:35,385 Obrigado. 9 00:00:35,901 --> 00:00:39,899 Olá. O meu nome é Lucas e vou começar com uma síntese 10 00:00:39,899 --> 00:00:43,806 das ferramentas de qualidade de dados que já existem na Wikidata 11 00:00:43,807 --> 00:00:46,109 e também de algumas coisas que teremos em breve. 12 00:00:48,452 --> 00:00:50,623 Agrupei-as em temas gerais 13 00:00:50,623 --> 00:00:53,761 que são a maior visibilidade dos erros, tornar os problemas accionáveis, 14 00:00:53,762 --> 00:00:56,932 obter mais visibilidade sobre os dados para que mais pessoas notem os problemas, 15 00:00:56,945 --> 00:01:02,616 corrigir algumas fontes comuns de erros, manter a qualidade dos dados existentes 16 00:01:02,616 --> 00:01:03,966 e também a curadoria humana. 17 00:01:05,063 --> 00:01:10,104 As que estão atualmente disponíveis começam com as restrições de propriedades. 18 00:01:10,104 --> 00:01:12,421 Já o devem ter visto se usam a Wikidata. 19 00:01:12,422 --> 00:01:14,029 Podem, por vezes, obter estes ícones 20 00:01:14,530 --> 00:01:17,241 que verificam a consistência interna dos dados. 21 00:01:17,242 --> 00:01:20,800 Por exemplo, se um evento se seguir a outro, 22 00:01:20,801 --> 00:01:23,760 então a este último deve seguir-se este. 23 00:01:23,761 --> 00:01:27,161 O que estava aparentemente em falta no item WikidataCon. 24 00:01:27,162 --> 00:01:29,810 Não tenho a certeza, esta funcionalidade existe há apenas uns dias. 25 00:01:30,040 --> 00:01:34,681 Também existe... Se isto for demasiado simples ou condicionante, 26 00:01:34,682 --> 00:01:38,080 podem escrever quaisquer verificações que queiram usando o *Query Service* 27 00:01:38,081 --> 00:01:39,842 que é útil para várias coisas, 28 00:01:39,843 --> 00:01:44,543 mas também pode ser usado para encontrar erros. 29 00:01:44,544 --> 00:01:46,974 Por exemplo, se descobrirem uma ocorrência de um erro, 30 00:01:46,975 --> 00:01:49,709 podem verificar se existem outros locais 31 00:01:49,710 --> 00:01:51,958 onde as pessoas tenham feito um erro parecido 32 00:01:51,958 --> 00:01:53,438 e descobri-lo com o *Query Service*. 33 00:01:53,439 --> 00:01:57,875 Também podem combinar os dois e procurar violações de restrições no *Query Service*, 34 00:01:57,875 --> 00:02:01,240 como por exemplo, apenas violações que ocorram numa área 35 00:02:01,241 --> 00:02:03,762 ou WikiProject que seja relevantes para vocês. 36 00:02:03,762 --> 00:02:06,828 Embora, atualmente, os resultados não estejam completos. Infelizmente. 37 00:02:08,422 --> 00:02:09,877 Existe a avaliação de revisões. 38 00:02:10,690 --> 00:02:12,666 Penso que seja parte das alterações recentes. 39 00:02:12,667 --> 00:02:16,217 Podem também adicioná-la à vossa lista de visualização: uma avaliação automática 40 00:02:16,217 --> 00:02:20,249 da probabilidade desta edição ter sido feita em boa ou má-fé 41 00:02:20,250 --> 00:02:22,312 e da probabilidade de causar ou não danos. 42 00:02:22,313 --> 00:02:24,205 Penso que sejam essas as duas dimensões. 43 00:02:24,206 --> 00:02:25,686 Podem, se quiserem, 44 00:02:25,687 --> 00:02:29,898 concentrar a busca apenas nas edições danosas mas feitas com boa-fé. 45 00:02:29,899 --> 00:02:32,523 Se se estiverem a sentir particularmente amigáveis e acolhedores 46 00:02:32,524 --> 00:02:37,121 podem dizer a estes editores: "Obrigado pela contribuição. 47 00:02:37,122 --> 00:02:40,560 Deviam tê-la feito desta maneira, mas obrigado de qualquer forma." 48 00:02:40,561 --> 00:02:42,186 E, se não estiverem com essa disposição, 49 00:02:42,187 --> 00:02:44,452 podem rever as edições danosas feitas com má-fé 50 00:02:44,453 --> 00:02:45,573 e reverter o vandalismo. 51 00:02:47,544 --> 00:02:49,761 Existe também algo semelhante: avaliação de entidades. 52 00:02:49,762 --> 00:02:52,590 Em vez de classificar uma edição, a alteração que foi feita, 53 00:02:52,591 --> 00:02:53,904 vão classificar toda a revisão. 54 00:02:53,904 --> 00:02:56,483 Penso que seja a mesma medida de qualidade 55 00:02:56,483 --> 00:02:59,863 mencionada pela Lydia no início da conferência. 56 00:03:00,372 --> 00:03:04,569 Isto fornece um *script* de utilizador aqui em cima e uma pontuação de um a cinco, 57 00:03:04,570 --> 00:03:08,176 penso eu, da qualidade do item corrente. 58 00:03:10,043 --> 00:03:15,528 A ferramenta de fontes primárias é para bases de dados que queiram importar, 59 00:03:15,528 --> 00:03:18,414 mas que não têm qualidade suficiente para entrar diretamente na Wikidata. 60 00:03:18,414 --> 00:03:21,085 Ao invés, adicionam-nas à ferramenta de fontes primárias e, depois, 61 00:03:21,085 --> 00:03:22,956 as pessoas podem decidir 62 00:03:22,956 --> 00:03:26,024 se devem adicionar estas declarações individuais ou não. 63 00:03:28,595 --> 00:03:31,607 Mostrar coordenadas como mapas: é uma funcionalidade conveniente 64 00:03:31,607 --> 00:03:33,588 mas também é útil para controlo de qualidade. 65 00:03:33,588 --> 00:03:36,937 Por exemplo, se virem que isto devia ser o escritório da Wikimedia na Alemanha 66 00:03:36,938 --> 00:03:39,400 e as coordenadas forem algures no Oceano Índico, 67 00:03:39,401 --> 00:03:41,529 saberão que algo está errado, aqui. 68 00:03:41,530 --> 00:03:44,790 E podem vê-lo mais facilmente do que se tivessem apenas os números. 69 00:03:46,382 --> 00:03:49,576 Esta é uma engenhoca chamada indicador de integridade relativa, 70 00:03:49,577 --> 00:03:52,480 que apresenta este pequeno ícone 71 00:03:53,007 --> 00:03:55,419 que vos mostra o quão completo pensa que este item está 72 00:03:55,419 --> 00:03:57,672 e que propriedades é mais provável que estejam em falta. 73 00:03:57,672 --> 00:03:59,769 O que é muito útil se estiverem a editar um item, 74 00:03:59,769 --> 00:04:03,172 estiverem numa área com a qual não estejam muito familiarizados 75 00:04:03,172 --> 00:04:05,661 e não saibam quais são as propriedades certas a usar. 76 00:04:05,662 --> 00:04:08,230 Nesse caso, esta é uma miniaplicação muito útil. 77 00:04:09,604 --> 00:04:11,401 Temos o Shape Expressions. 78 00:04:11,402 --> 00:04:15,624 Penso que a Andra ou o Jose vão falar mais sobre elas 79 00:04:15,624 --> 00:04:19,757 mas são uma forma muito poderosa de comparar os dados que têm 80 00:04:19,758 --> 00:04:20,758 com o esquema. 81 00:04:20,759 --> 00:04:22,680 Como, que declaração devem ter certas entidades, 82 00:04:22,681 --> 00:04:25,677 a que outras entidades devem estar ligadas e como essas devem ser. 83 00:04:26,229 --> 00:04:29,374 Podem detetar problemas dessa forma. 84 00:04:30,366 --> 00:04:32,361 Penso que... Não. Ainda há mais. 85 00:04:32,362 --> 00:04:34,321 O *Integraality* ou painel de propriedades. 86 00:04:34,322 --> 00:04:36,773 Dá-vos uma visão geral dos dados já existentes. 87 00:04:36,774 --> 00:04:39,147 Por exemplo, isto é do *WikiProject Red Pandas*. 88 00:04:39,657 --> 00:04:41,681 Podem ver que temos um sexo ou género 89 00:04:41,682 --> 00:04:43,561 para quase todos os pandas-vermelhos. 90 00:04:43,561 --> 00:04:46,854 A data de nascimento varia bastante consoante o zoo de onde vêm 91 00:04:46,854 --> 00:04:50,255 e quase não temos pandas mortos, o que é maravilhoso 92 00:04:50,256 --> 00:04:51,346 (risos) 93 00:04:51,437 --> 00:04:52,600 porque são tão fofos. 94 00:04:53,699 --> 00:04:55,654 Por isso, isto também é útil. 95 00:04:56,377 --> 00:04:59,185 Cá está. Agora para o que está para vir. 96 00:04:59,889 --> 00:05:03,784 *Wikidata Bridge*, anteriormente conhecida como editor de clientes. 97 00:05:03,785 --> 00:05:07,076 Ou seja, editar dados a partir de caixas de informação da Wikipedia. 98 00:05:07,675 --> 00:05:11,725 O que, por um lado, dará mais visibilidade aos dados 99 00:05:11,725 --> 00:05:13,441 pois mais pessoas os conseguirão ver ali. 100 00:05:13,441 --> 00:05:18,841 E, assim se espera, encorajará uma maior utilização da Wikidata nas Wikipedias. 101 00:05:18,841 --> 00:05:20,920 Isto significa que mais pessoas podem reparar 102 00:05:20,921 --> 00:05:23,857 se, por exemplo, há dados desatualizados que precisam de ser atualizados, 103 00:05:23,857 --> 00:05:27,060 ao invés de só os verem na própria Wikidata. 104 00:05:28,630 --> 00:05:30,656 Existem também as referências corrompidas. 105 00:05:30,657 --> 00:05:33,959 Aqui, a ideia é que, se editarem uma declaração de valor, 106 00:05:34,683 --> 00:05:37,279 pode ser preciso atualizar também as referências, 107 00:05:37,280 --> 00:05:39,373 a não ser que seja apenas uma gralha, ou similar. 108 00:05:39,897 --> 00:05:43,662 Estas referências corrompidas dizem-no aos editores 109 00:05:43,663 --> 00:05:49,756 e também que os outros editores vêm as outras edições que foram feitas 110 00:05:49,756 --> 00:05:52,471 que editaram uma declaração de valor e não atualizaram a referência. 111 00:05:52,472 --> 00:05:56,766 Depois, podem limpar e decidir se isso deve... 112 00:05:57,737 --> 00:05:59,566 Precisam de fazê-lo novamente 113 00:05:59,566 --> 00:06:02,796 ou está tudo correto e não é necessário atualizar a referência. 114 00:06:03,543 --> 00:06:09,336 Tem relação com declarações assinadas. Que têm origem numa preocupação, penso eu, 115 00:06:09,336 --> 00:06:12,355 que alguns fornecedores de dados têm de... 116 00:06:14,131 --> 00:06:17,231 Há uma declaração que é referenciada através na UNESCO, ou similar. 117 00:06:17,232 --> 00:06:19,872 Depois, de repente, alguém vandaliza a declaração 118 00:06:19,873 --> 00:06:21,836 e eles estão preocupados que parecerá que 119 00:06:22,827 --> 00:06:26,992 essa organização, como a UNESCO, ainda define este valor de vandalismo. 120 00:06:26,993 --> 00:06:28,706 Assim, com declarações assinadas, 121 00:06:28,706 --> 00:06:31,488 eles podem assinar essa referência criptograficamente. 122 00:06:31,488 --> 00:06:33,562 Isso não vai prevenir edições à referência 123 00:06:34,169 --> 00:06:37,624 mas, se alguém vandalizar a declaração 124 00:06:37,624 --> 00:06:40,255 ou se a editar de alguma forma a assinatura deixa de ser válida. 125 00:06:40,255 --> 00:06:43,401 E pode-se ver que isto não é exatamente o que foi dito pela organização. 126 00:06:43,402 --> 00:06:47,064 Pode ser que seja uma boa edição e eles devam assinar a nova declaração, 127 00:06:47,065 --> 00:06:49,851 mas também pode acontecer que deva ser revertida. 128 00:06:51,203 --> 00:06:54,166 E também... Isto vai ser muito empolgante, penso eu. 129 00:06:54,166 --> 00:06:56,846 O *Citoid* é um sistema fantástico que existe na Wikipedia 130 00:06:57,379 --> 00:07:01,340 no qual podem colar um URL, um identificador, um ISBN, 131 00:07:01,340 --> 00:07:04,759 um ID da Wikidata ou outra coisa qualquer no *Visual Editor*, 132 00:07:05,260 --> 00:07:08,241 e ele devolve uma referência bem formatada. 133 00:07:08,242 --> 00:07:11,049 Tem todos os dados que quiserem e uma usabilidade excelente. 134 00:07:11,049 --> 00:07:14,337 Por comparação, na Wikidata, se eu quiser adicionar uma referência, 135 00:07:14,338 --> 00:07:18,801 tenho, tipicamente, de adicionar o URL, título, nome de autor, 136 00:07:18,802 --> 00:07:20,449 data de publicação da referência, 137 00:07:20,450 --> 00:07:25,141 recuperar as datas. No mínimo, o que é aborrecido. 138 00:07:25,141 --> 00:07:29,261 Espera-se que a integração do *Citoid* na Wikibase ajude com isso. 139 00:07:30,245 --> 00:07:33,604 Penso que é tudo o que tinha. Sim. 140 00:07:33,604 --> 00:07:36,400 Vou agora passar à Cristina. 141 00:07:37,788 --> 00:07:42,339 (aplausos) 142 00:07:43,780 --> 00:07:45,331 Olá, eu sou a Cristina. 143 00:07:45,331 --> 00:07:47,692 Sou uma cientista de investigação da Universidade de Zurique 144 00:07:47,692 --> 00:07:51,417 e também um membro ativo da comunidade Suíça. 145 00:07:52,698 --> 00:07:57,901 Quando eu e a Claudia Müller-Birn submetemos isto à WikidataCon, 146 00:07:57,902 --> 00:08:02,420 o que queríamos era continuar a discussão que começámos no início do ano 147 00:08:02,424 --> 00:08:07,442 numa workshop acerca de qualidade de dados e também nalgumas sessões na Wikimania. 148 00:08:07,442 --> 00:08:10,535 Então, o objetivo desta palestra é apresentar algumas ideias 149 00:08:10,536 --> 00:08:14,432 que estivemos a compilar, nossas e da comunidade, 150 00:08:14,432 --> 00:08:16,560 e continuar a discussão. 151 00:08:16,561 --> 00:08:20,065 Gostaríamos de continuar a interagir muito convosco. 152 00:08:21,557 --> 00:08:23,371 O que pensamos ser muito importante, 153 00:08:23,372 --> 00:08:27,580 é perguntarmos continuamente a todos os tipos de utilizador na comunidade, 154 00:08:27,581 --> 00:08:32,240 o que realmente precisam, que problemas têm com qualidade de dados. 155 00:08:32,240 --> 00:08:35,000 Não apenas os editores, mas também as pessoas que estão a programar 156 00:08:35,000 --> 00:08:36,241 ou a consumir os dados. 157 00:08:36,242 --> 00:08:39,494 E também os investigadores que estão a usar toda a história de edições 158 00:08:39,494 --> 00:08:41,120 para analisar o que está a acontecer. 159 00:08:42,367 --> 00:08:48,431 Assim, fizemos uma avaliação de cerca de 80 ferramentas que existem na Wikidata 160 00:08:48,431 --> 00:08:52,380 e alinhámo-las com as diferentes dimensões de qualidade de dados. 161 00:08:52,380 --> 00:08:54,360 O que vimos foi que, na realidade, 162 00:08:54,361 --> 00:08:57,681 muitas delas estão a vigiar, a monitorizar a integridade, 163 00:08:57,682 --> 00:09:02,820 mas, na verdade... Algumas delas estão também a capacitar interligações. 164 00:09:02,820 --> 00:09:08,442 Mas, existe uma grande necessidade de ferramentas que vejam a diversidade, 165 00:09:08,443 --> 00:09:12,824 que é uma das coisas que podemos ter na Wikidata. 166 00:09:12,824 --> 00:09:15,958 Especialmente, este princípio do design da Wikidata, 167 00:09:15,959 --> 00:09:17,901 segundo o qual podemos ter pluralidade 168 00:09:17,902 --> 00:09:20,308 e declarações diferentes com valores diferentes 169 00:09:20,914 --> 00:09:22,236 originárias de fontes diferentes. 170 00:09:22,236 --> 00:09:24,921 Visto ser uma fonte secundária, não temos realmente ferramentas 171 00:09:24,922 --> 00:09:27,750 que nos digam quantas declarações plurais existem, 172 00:09:27,751 --> 00:09:30,889 quantas podemos melhorar e como. 173 00:09:30,890 --> 00:09:32,833 Também não sabemos 174 00:09:32,833 --> 00:09:35,538 quais são todas as razões para pluralidade que podemos ter. 175 00:09:36,491 --> 00:09:39,201 Assim, a partir destes encontros da comunidade 176 00:09:39,201 --> 00:09:43,084 o que discutimos foram os desafios que ainda necessitam de atenção. 177 00:09:43,084 --> 00:09:47,249 Por exemplo, que ter todas estas comunidades de *crowdsourcing* 178 00:09:47,249 --> 00:09:50,813 é muito bom, já que pessoas diferentes atacam partes diferentes dos dados 179 00:09:50,813 --> 00:09:51,833 ou do gráfico. 180 00:09:51,834 --> 00:09:54,615 Temos também conhecimentos de origem diferentes. 181 00:09:54,616 --> 00:09:59,161 Mas, na realidade, é muito difícil alinhar tudo em algo que seja homogéneo 182 00:09:59,162 --> 00:10:04,920 pois pessoas diferentes usam propriedades diferentes de forma diferente. 183 00:10:04,920 --> 00:10:08,401 E estão também à espera de coisas diferentes das descrições de entidade. 184 00:10:09,003 --> 00:10:12,721 Foi também dito que são necessárias mais ferramentas 185 00:10:12,722 --> 00:10:16,000 que dêm uma melhor visão geral do estado global das coisas. 186 00:10:16,000 --> 00:10:20,733 Ou seja, que entidades estão em falta, em termos de integridade, 187 00:10:20,733 --> 00:10:25,013 mas também no que é que as pessoas estão a trabalhar hoje em dia, 188 00:10:25,013 --> 00:10:26,121 na maior parte do tempo. 189 00:10:26,741 --> 00:10:30,516 Também foi mencionada com frequência uma colaboração mais apertada 190 00:10:30,517 --> 00:10:33,311 entre, não só as linguagens, mas os WikiProjects 191 00:10:33,311 --> 00:10:35,571 a as diferentes plataformas Wikimedia. 192 00:10:35,571 --> 00:10:38,859 Publicámos todos os comentários transcritos 193 00:10:38,860 --> 00:10:42,959 de todas estas discussões nestas ligações aqui, no *Etherpads* 194 00:10:42,959 --> 00:10:46,162 e também na página *wiki* da Wikimania. 195 00:10:46,162 --> 00:10:48,481 Algumas das soluções que apareceram 196 00:10:48,481 --> 00:10:53,001 vão na direção da partilha das melhores práticas 197 00:10:53,001 --> 00:10:55,762 que estão a ser desenvolvidas nos diferentes WikiProjects. 198 00:10:55,762 --> 00:10:57,659 Mas, as pessoas também querem ferramentas 199 00:10:57,659 --> 00:11:01,239 que ajudem a organizar o trabalho em equipa 200 00:11:01,239 --> 00:11:03,845 ou, pelo menos, a perceber quem está a trabalhar em quê. 201 00:11:03,845 --> 00:11:07,815 Também foi mencionada a vontade de ter mais demonstrações 202 00:11:07,816 --> 00:11:12,019 e mais modelos que os ajudem a criar coisas de uma forma melhor. 203 00:11:12,946 --> 00:11:15,111 E, pelo contacto que temos 204 00:11:15,111 --> 00:11:18,721 com organizações de dados governamentais abertas 205 00:11:18,722 --> 00:11:20,068 e, em particular, 206 00:11:20,068 --> 00:11:23,102 eu estou em contacto com o cantão e a cidade de Zurique, 207 00:11:23,102 --> 00:11:26,207 eles estão muito interessados em trabalhar com a Wikidata 208 00:11:26,207 --> 00:11:29,896 porque querem que os seus dados estejam acessíveis para todos 209 00:11:29,897 --> 00:11:33,681 no local onde as pessoas vão e consultam ou acedem aos dados. 210 00:11:33,682 --> 00:11:36,550 Assim, para eles, algo que seria mesmo interessante 211 00:11:36,551 --> 00:11:38,600 seria ter algum tipo de indicador de qualidade 212 00:11:38,600 --> 00:11:41,082 tanto na wiki, o que já acontece atualmente, 213 00:11:41,082 --> 00:11:42,801 como nos resultados SPARQL. 214 00:11:42,802 --> 00:11:46,066 Para saber se podem ou não confiar dos dados da comunidade. 215 00:11:46,487 --> 00:11:49,630 Eles também querem saber que partes dos seus próprios conjuntos de dados 216 00:11:49,630 --> 00:11:51,417 são úteis para a Wikidata. 217 00:11:51,418 --> 00:11:56,040 E adorariam ter uma ferramenta que ajudasse a avaliar automaticamente. 218 00:11:56,041 --> 00:11:59,066 Também precisam de algum tipo de metodologia ou ferramenta 219 00:11:59,067 --> 00:12:03,894 que os ajude a decidir se devem ou não importar ou ligar os seus dados 220 00:12:03,894 --> 00:12:05,357 pois, nalguns casos,eles também têm 221 00:12:05,357 --> 00:12:07,947 os seus próprios conjuntos de dados abertos ligados e não sabem 222 00:12:07,947 --> 00:12:11,707 se devem apenas incorporar os dados ou continuar a criar ligações 223 00:12:11,707 --> 00:12:14,294 dos conjuntos de dados à Wikidata e vice-versa. 224 00:12:14,950 --> 00:12:20,043 Também querem saber se os seus websites forem referidos na Wikidata. 225 00:12:20,044 --> 00:12:23,361 E, quando correm essas consultas no serviço de consultas 226 00:12:23,362 --> 00:12:24,848 recebem, muitas vezes, *timeouts*. 227 00:12:24,849 --> 00:12:28,181 Por isso, talvez devêssemos mesmo criar mais ferramentas 228 00:12:28,181 --> 00:12:32,241 que os ajudem a obter estas respostas para as suas questões. 229 00:12:32,241 --> 00:12:33,938 (ruído de fundo) 230 00:12:33,938 --> 00:12:36,208 E, para além disso, 231 00:12:36,208 --> 00:12:39,361 nós, investigadores da *wiki*, também 232 00:12:39,362 --> 00:12:42,023 temos falta de alguma informação nos sumários de edição. 233 00:12:42,024 --> 00:12:44,953 Lembro-me que, quando estávamos a trabalhar 234 00:12:44,954 --> 00:12:48,919 para compreender os diferentes comportamentos dos editores 235 00:12:48,919 --> 00:12:53,403 com ferramentas ou *bots*, ou utilizadores anónimos, etc, 236 00:12:53,403 --> 00:12:56,154 faltava-nos realmente, por exemplo, 237 00:12:56,154 --> 00:13:01,112 uma forma padrão de registar que as ferramentas estavam a ser usadas. 238 00:13:01,113 --> 00:13:03,154 Já existem algumas ferramentas que fazem isso 239 00:13:03,155 --> 00:13:05,230 como o *PetScan* e muitas outras 240 00:13:05,230 --> 00:13:07,720 mas talvez devêssemos, na comunidade, 241 00:13:07,721 --> 00:13:11,965 debater mais acerca de como registar estes eventos 242 00:13:11,965 --> 00:13:13,829 para obter uma origem otimizada. 243 00:13:14,169 --> 00:13:15,321 E, no futuro, 244 00:13:15,322 --> 00:13:20,801 precisamos de pensar em dimensões de qualidade de dados mais concretas 245 00:13:20,802 --> 00:13:24,961 que estão relacionadas com dados ligados mas não com todos os tipos de dados. 246 00:13:24,962 --> 00:13:30,721 Por isso, trabalhámos nalgumas medidas para aceder ao aumento de informação 247 00:13:30,722 --> 00:13:33,881 proporcionado pelas ligações. O que queremos dizer com isso 248 00:13:33,882 --> 00:13:36,681 é que, quando ligamos a Wikidata a outros conjuntos de dados, 249 00:13:36,682 --> 00:13:38,201 também deviamos estar a pensar 250 00:13:38,202 --> 00:13:41,921 em quanto é que as entidades estão, na realidade, a ganhar na classificação, 251 00:13:41,922 --> 00:13:45,601 na descrição, mas também nos vocabulários que usam. 252 00:13:45,602 --> 00:13:51,041 Para dar um exemplo muito simples do que quero dizer com isto, 253 00:13:51,042 --> 00:13:54,269 podemos pensar... Neste caso, seria a Wikidata 254 00:13:54,270 --> 00:13:57,771 ou o centro de dados externo que está a ligar à Wikidata. 255 00:13:57,772 --> 00:14:00,487 Temos a entidade para uma pessoa chamada Natasha Noy, 256 00:14:00,487 --> 00:14:02,601 temos a afiliação e outras coisas. 257 00:14:02,602 --> 00:14:05,239 E, depois dizemos: "Está bem, ligamos a um local externo 258 00:14:05,240 --> 00:14:08,919 e aquela entidade também tem aquele nome." Mas, na realidade, temos o mesmo valor. 259 00:14:08,920 --> 00:14:12,889 Então, seria melhor se ligássemos a algo que tenha um nome diferente, 260 00:14:12,889 --> 00:14:16,881 o que ainda é válido porque esta pessoa tem duas formas de escrever o nome, 261 00:14:16,882 --> 00:14:19,714 e também outras informações que não temos na Wikidata 262 00:14:19,715 --> 00:14:21,760 ou que não temos no outro conjunto de dados. 263 00:14:22,390 --> 00:14:24,652 Mas também, o que é ainda melhor 264 00:14:24,653 --> 00:14:27,770 é que estamos a olhar para o conjunto de dados alvo 265 00:14:27,770 --> 00:14:31,392 e eles também têm novas formas de classificar a informação. 266 00:14:31,393 --> 00:14:35,354 Por isso, não só é uma pessoa, mas, no outro conjunto de dados, 267 00:14:35,355 --> 00:14:37,076 também diz que é do sexo feminino 268 00:14:37,076 --> 00:14:39,526 ou qualquer outra classificação que tenha sido usada. 269 00:14:39,526 --> 00:14:43,401 Se, no outro conjunto de dados, estiverem a usar muitos outros vocabulários 270 00:14:43,402 --> 00:14:46,588 isso também está a ajudar na recuperação de informação como um todo. 271 00:14:47,371 --> 00:14:51,233 Também gostava de dizer 272 00:14:51,234 --> 00:14:55,809 que pensamos que podemos mostrar melhor as consultas federadas 273 00:14:55,810 --> 00:15:00,448 porque, quando olhamos para o *log* da consulta fornecido por Malyshev *et al*, 274 00:15:01,285 --> 00:15:06,921 vemos que, das consultas orgânicas, temos apenas algumas consultas federadas. 275 00:15:06,922 --> 00:15:12,801 E, na realidade, a federação é uma das vantagens chave de ter dados ligados. 276 00:15:12,802 --> 00:15:16,903 Por isso, talvez a comunidade ou as pessoas que usam a Wikidata 277 00:15:16,903 --> 00:15:18,898 também precisem de mais exemplos deste tipo. 278 00:15:18,898 --> 00:15:22,666 Se olharmos para a lista de parâmetros que estão a ser usados... 279 00:15:22,667 --> 00:15:25,401 Esta não é uma lista completa e temos muitos mais. 280 00:15:25,402 --> 00:15:30,479 Estes dados foram analisados a partir de consultas feitas até março de 2018, 281 00:15:30,480 --> 00:15:34,807 mas deviamos olhar para a lista de parâmetros federados que temos 282 00:15:34,808 --> 00:15:37,048 e ver se os estamos realmente a usar ou não. 283 00:15:37,813 --> 00:15:40,441 Por isso, duas questões que tenho para a audiência 284 00:15:40,442 --> 00:15:43,001 e que talvez possamos usar depois para a discussão, são: 285 00:15:43,001 --> 00:15:46,001 que problemas de qualidade de dados devem, na vossa opinião, ser abordados, 286 00:15:46,002 --> 00:15:47,412 devido às vossas necessidades. 287 00:15:47,412 --> 00:15:50,401 Mas também, onde é que é necessária mais automação 288 00:15:50,402 --> 00:15:53,043 para vos ajudar com as edições ou patrulhamentos. 289 00:15:53,866 --> 00:15:55,146 É tudo, muito obrigada. 290 00:15:55,779 --> 00:16:00,537 (aplausos) 291 00:16:06,030 --> 00:16:09,427 (Jose Emilio Labra) Vou falar-vos de algumas ferramentas 292 00:16:09,427 --> 00:16:14,715 que estamos a desenvolver, relacionadas com o Shape Expressions. 293 00:16:15,536 --> 00:16:19,371 É disto que quero falar... Sou o Jose Emilio Labra, 294 00:16:19,371 --> 00:16:23,215 mas há... Todas estas ferramentas foram construídas por pessoas diferentes, 295 00:16:23,920 --> 00:16:28,480 muitas relacionadas com o W3C ShEx, Shape Expressions Community Group. 296 00:16:28,481 --> 00:16:29,481 ShEx Community Group. 297 00:16:31,344 --> 00:16:36,081 A primeira ferramenta que quero mencionar é o *RDFShape*. Esta é uma ferramenta geral 298 00:16:36,082 --> 00:16:40,681 porque o Shape Expressions não é só para a Wikidata. 299 00:16:40,682 --> 00:16:44,168 O Shape Expressions é uma linguagem para validar RDF em geral. 300 00:16:44,168 --> 00:16:47,568 Esta ferramenta foi desenvolvida principalmente por mim 301 00:16:47,568 --> 00:16:50,880 e é uma ferramenta para validar RDF no geral. 302 00:16:50,881 --> 00:16:55,139 Se quiserem aprender acerca de RDF ou se quiserem validar parâmetros RDF 303 00:16:55,140 --> 00:16:58,621 ou SPARQL, não só na Wikidata, 304 00:16:58,622 --> 00:17:00,891 o meu conselho é que podem usar esta ferramenta. 305 00:17:00,891 --> 00:17:03,255 Também para ensinar. 306 00:17:03,255 --> 00:17:05,640 Sou um professor universitário 307 00:17:05,641 --> 00:17:09,151 e uso-a no meu curso de web semântica para ensinar RDF. 308 00:17:09,161 --> 00:17:12,121 Por isso, se quiserem aprender RDF, penso que esta é uma boa ferramenta. 309 00:17:13,033 --> 00:17:17,855 Por exemplo, esta é só uma visualização de um gráfico RDF com essa ferramenta. 310 00:17:19,157 --> 00:17:22,643 Mas, antes de vir cá, no último mês, 311 00:17:22,643 --> 00:17:27,293 comecei um *fork* de *rdfshape* especificamente para a Wikidata, 312 00:17:27,293 --> 00:17:28,443 porque pensei... 313 00:17:28,443 --> 00:17:33,082 Chama-se *WikiShape* e, ontem, apresentei-a como presente à Wikidata. 314 00:17:33,082 --> 00:17:34,441 Então, eu peguei... 315 00:17:34,442 --> 00:17:39,898 O que eu fiz foi remover tudo o que não tivesse relação com a Wikidata 316 00:17:39,898 --> 00:17:42,603 e acrescentar várias coisas, com codificação permanentemente, 317 00:17:42,603 --> 00:17:44,802 como, por exemplo, o parâmetro Wikidata SPARQL. 318 00:17:44,802 --> 00:17:49,041 Agora, foi-me pedido que fizesse isso também para a Wikibase. 319 00:17:49,042 --> 00:17:52,000 E é muito fácil fazê-lo também para a Wikibase. 320 00:17:52,760 --> 00:17:56,280 Então, esta ferramenta, a *WikiShape*, é muito recente. 321 00:17:57,015 --> 00:17:59,843 Penso que funciona, a maioria das funcionalidades, 322 00:17:59,844 --> 00:18:02,468 mas há algumas funcionalidades que podem não funcionar. 323 00:18:02,469 --> 00:18:06,281 Se experimentarem e quiserem melhorá-la, digam-me, por favor. 324 00:18:06,281 --> 00:18:11,048 Isto é uma captura de ecrã, mas penso que posso experimentar. 325 00:18:11,558 --> 00:18:13,488 Por isso, vamos experimentar. 326 00:18:14,256 --> 00:18:15,366 (risos) 327 00:18:15,385 --> 00:18:16,945 Vamos ver se funciona. 328 00:18:16,953 --> 00:18:20,070 Primeiro, tenho de sair do... 329 00:18:22,453 --> 00:18:23,453 Aqui. 330 00:18:25,436 --> 00:18:28,244 Esta é a ferramenta, aqui. 331 00:18:28,244 --> 00:18:29,844 Coisas que podem fazer com a ferramenta: 332 00:18:29,845 --> 00:18:35,275 por exemplo, podem verificar esquemas, esquemas de entidades. 333 00:18:35,276 --> 00:18:38,611 Sabem que há um novo *namespace* que é "E" qualquer coisa". 334 00:18:38,612 --> 00:18:44,805 Então, se começaram, por exemplo, a escrever "humano", 335 00:18:44,806 --> 00:18:48,812 à medida que escrevem, o autocompletamento permite-vos verificar 336 00:18:48,812 --> 00:18:52,001 que isto é o Shape Expressions de um humano 337 00:18:52,790 --> 00:18:55,937 e que isto é o Shape Expressions, aqui. 338 00:18:55,938 --> 00:18:59,841 Como podem ver, este editor tem realce de sintaxe. 339 00:18:59,842 --> 00:19:04,559 Isto é... Bem, talvez seja muito pequeno, o ecrã. 340 00:19:05,676 --> 00:19:07,590 Posso tentar aumentá-lo. 341 00:19:09,194 --> 00:19:10,973 Talvez o vejam melhor, agora. 342 00:19:10,973 --> 00:19:14,241 Então, este é o editor, com realce de sintaxe, e também tem... 343 00:19:14,241 --> 00:19:17,851 Quero dizer, este editor vem do mesmo código fonte 344 00:19:17,851 --> 00:19:19,641 do editor de consultas da Wikidata. 345 00:19:19,642 --> 00:19:23,960 Se pairarem com o rato aqui, 346 00:19:23,961 --> 00:19:27,961 vai mostrar-vos as etiquetas das diferentes propriedades. 347 00:19:27,962 --> 00:19:31,298 Penso que é muito útil porque, agora, 348 00:19:32,588 --> 00:19:36,152 o esquema de entidades que está na Wikidata 349 00:19:36,152 --> 00:19:38,602 é só uma ideia em texto simples. 350 00:19:38,602 --> 00:19:42,493 Penso que este editor é muito melhor porque tem autocompletamento 351 00:19:42,494 --> 00:19:43,743 também tem... 352 00:19:43,744 --> 00:19:48,241 Por exemplo, se quiserem adicionar uma restrição 353 00:19:48,241 --> 00:19:51,570 vão dizer: "wdt:". 354 00:19:51,570 --> 00:19:56,884 Começam a escrever "author" e depois clicam em *Ctrl+Espaço* 355 00:19:56,884 --> 00:19:58,922 e vai sugerir-vos várias coisas. 356 00:19:58,922 --> 00:20:02,388 Então, isto é semelhante ao serviço de consultas da Wikidata, 357 00:20:02,389 --> 00:20:06,445 mas para Shape Expressions, especificamente. 358 00:20:06,445 --> 00:20:11,377 Porque penso que, criar Shape Expressions 359 00:20:11,976 --> 00:20:15,841 não é mais difícil do que escrever consultas SPARQL. 360 00:20:16,492 --> 00:20:21,905 Algumas pessoas pensam que o nível de dificuldade é o mesmo. 361 00:20:22,278 --> 00:20:26,296 É provavelmente mais fácil porque o Shape Expressions era... 362 00:20:26,296 --> 00:20:31,241 Quando o concebemos, fizemo-lo para que fosse mais fácil trabalhar. 363 00:20:32,152 --> 00:20:37,371 Esta é uma das primeiras coisas que têm. Este editor para Shape Expressions. 364 00:20:37,371 --> 00:20:41,467 Depois, também têm a possibilidade de, por exemplo, visualizar. 365 00:20:41,468 --> 00:20:44,801 Se tiverem uma Shape Expression, usem, por exemplo... 366 00:20:44,802 --> 00:20:49,386 Penso que "trabalho escrito" é uma boa Shape Expression 367 00:20:49,386 --> 00:20:53,300 porque tem algumas relações entre diferentes coisas. 368 00:20:54,823 --> 00:20:58,160 E isto é a visualização UML do trabalho escrito. 369 00:20:58,161 --> 00:21:02,090 Numa UML, isto é fácil de ver, as diferentes propriedades. 370 00:21:02,790 --> 00:21:06,794 Quando fazem isto, apercebi-me que, quando o tentei com várias pessoas, 371 00:21:06,795 --> 00:21:09,216 encontram alguns erros nas suas Shape Expressions 372 00:21:09,217 --> 00:21:12,988 porque é fácil detetar quais são as propriedades em falta. 373 00:21:13,588 --> 00:21:17,261 Depois, temos aqui outra possibilidade que é a de poder também validar. 374 00:21:17,261 --> 00:21:19,520 Penso que a temos aqui, a validação. 375 00:21:20,496 --> 00:21:25,285 Pensava que a tinha nalguma etiqueta. Talvez a tenha fechado. 376 00:21:26,267 --> 00:21:30,988 Mas podem, por exemplo, clicar aqui: Validar entidades. 377 00:21:32,308 --> 00:21:34,232 Vocês, por exemplo, 378 00:21:35,404 --> 00:21:41,921 "q42" com "e42", que é o autor. 379 00:21:42,818 --> 00:21:46,180 Com "humano". Penso que o podemos fazer com "humano". 380 00:21:49,050 --> 00:21:50,050 E depois é... 381 00:21:50,688 --> 00:21:56,365 Está a demorar um pouco a fazê-lo porque está a realizar consultas SPARQL. 382 00:21:56,365 --> 00:21:59,134 E agora, por exemplo, está a falhar por causa da rede. Mas... 383 00:21:59,657 --> 00:22:01,580 Podem tentá-lo. 384 00:22:02,759 --> 00:22:07,026 Vamos continuar com a apresentação, com outras ferramentas. 385 00:22:07,026 --> 00:22:12,353 O meu conselho é, se o quiserem tentar e se quiserem qualquer *feedback*, digam-me. 386 00:22:13,133 --> 00:22:15,540 Então, para continuar com a apresentação... 387 00:22:18,923 --> 00:22:20,233 Isto é a *WikiShape*. 388 00:22:23,800 --> 00:22:26,509 Já o disse, 389 00:22:27,681 --> 00:22:34,157 o editor de Shape Expressions é um projeto independente no GitHub. 390 00:22:35,605 --> 00:22:37,472 Podem usá-lo no vosso próprio projeto. 391 00:22:37,472 --> 00:22:41,036 Se quiserem construir uma ferramenta de Shape Expressions, 392 00:22:41,036 --> 00:22:45,635 podem integrá-lo em qualquer outro projeto. 393 00:22:45,636 --> 00:22:48,235 Está no GitHub e podem usá-lo. 394 00:22:48,868 --> 00:22:51,970 O mesmo autor, é um dos meus estudantes. 395 00:22:52,684 --> 00:22:55,644 Ele também criou um editor para Shape Expressions, 396 00:22:55,644 --> 00:22:57,839 também inspirado pelo serviço de consultas do Wikidata, 397 00:22:57,839 --> 00:23:00,681 onde, numa coluna, 398 00:23:00,682 --> 00:23:05,103 têm este editor mais visual de consultas SPARQL 399 00:23:05,104 --> 00:23:07,135 onde podem introduzir este tipo de coisas. 400 00:23:07,136 --> 00:23:09,123 Esta é uma captura de ecrã. 401 00:23:09,123 --> 00:23:12,662 Podem ver que isto é Shape Expressions em texto, 402 00:23:12,662 --> 00:23:15,565 mas isto é Shape Expressions baseado em formas 403 00:23:15,565 --> 00:23:18,595 onde, provavelmente, demoraria um pouco mais, 404 00:23:18,595 --> 00:23:23,400 onde podem pôr as diferentes colunas nos diferentes campos. 405 00:23:24,480 --> 00:23:26,879 Depois há o *ShExEr*. 406 00:23:26,879 --> 00:23:31,882 Temos...Foi feito por um estudante de doutoramento da Universidade de Oviedo. 407 00:23:31,883 --> 00:23:34,080 E ele está cá, por isso pode apresentar o *ShExEr*. 408 00:23:38,147 --> 00:23:40,024 (Danny) Olá, eu sou o Danny Fernàndez. 409 00:23:40,025 --> 00:23:43,010 Sou um estudante de doutoramento na Universidade de Oviedo 410 00:23:43,010 --> 00:23:44,060 a trabalhar com o Labra. 411 00:23:44,060 --> 00:23:47,725 Já que estamos a ficar sem tempo, vamos fazer isto rapidamente. 412 00:23:47,726 --> 00:23:52,891 Não faremos uma demonstração, mas veremos algumas capturas de ecrã. 413 00:23:54,371 --> 00:23:56,897 A forma usual de trabalhar com Shape Expressions, 414 00:23:56,897 --> 00:23:59,507 ou com qualquer linguagem de formas, é ter um perito no domínio 415 00:23:59,522 --> 00:24:02,313 que define, *a priori*, como se deve parecer o gráfico, 416 00:24:02,314 --> 00:24:03,555 define algumas estruturas. 417 00:24:03,556 --> 00:24:06,983 Depois usam essas estruturas para comparar os dados e validá-los. 418 00:24:08,124 --> 00:24:11,641 Esta ferramenta, que é, tal como aquelas que o Labra esteve a apresentar, 419 00:24:11,642 --> 00:24:14,441 uma ferramenta polivalente para qualquer fonte RDF, 420 00:24:14,442 --> 00:24:17,375 está concebida para fazer o contrário. 421 00:24:17,376 --> 00:24:18,758 Já têm alguns dados, 422 00:24:18,759 --> 00:24:23,165 selecionam que nodos querem usar para formar a forma 423 00:24:23,165 --> 00:24:26,718 e depois extraem ou inferem a forma automaticamente. 424 00:24:26,719 --> 00:24:29,791 Então, mesmo sendo uma ferramenta polivalente, 425 00:24:29,791 --> 00:24:34,063 o que fizemos para este WikidataCon foi este botão catita. 426 00:24:34,884 --> 00:24:37,081 Se clicarem nele, o que acontece, essencialmente, 427 00:24:37,081 --> 00:24:42,079 é que, há tantos parâmetros de configuração, 428 00:24:42,080 --> 00:24:46,251 e ele configura-os para funcionar com os parâmetros da Wikidata. 429 00:24:46,251 --> 00:24:47,971 Vai acabar em breve, desculpem. 430 00:24:48,733 --> 00:24:52,883 Assim que pressionam este botão o que obtêm é essencialmente isto. 431 00:24:52,884 --> 00:24:55,126 Depois de selecionarem que tipo de nodos, 432 00:24:55,127 --> 00:24:59,360 que tipo de instâncias da nossa classe, ou seja o que for que estejam a procurar, 433 00:24:59,361 --> 00:25:01,321 obtêm um esquema automático. 434 00:25:02,319 --> 00:25:07,111 Todas as restrições são resolvidas por quantos nodos são conformantes. 435 00:25:07,112 --> 00:25:09,772 Podem filtrar os menos comuns, etc. 436 00:25:09,772 --> 00:25:12,126 Há um poster lá em baixo acerca disto. 437 00:25:12,127 --> 00:25:16,455 Eu estarei lá em baixo e cá em cima, em todo o lado o dia todo. 438 00:25:16,455 --> 00:25:19,081 Por isso, se tiverem interesse adicional nesta ferramenta 439 00:25:19,082 --> 00:25:21,476 falem comigo durante esta jornada. 440 00:25:21,477 --> 00:25:24,624 Vou devolver o microfone ao Labra. Obrigado. 441 00:25:24,625 --> 00:25:29,265 (aplausos) 442 00:25:29,812 --> 00:25:32,578 (Jose) Vamos continuar com as outras ferramentas. 443 00:25:32,579 --> 00:25:34,984 A outra ferramenta é o *ShapeDesigner*. 444 00:25:34,984 --> 00:25:37,241 Andra, queres falar do *ShapeDesigner* agora 445 00:25:37,242 --> 00:25:39,287 ou mais tarde, durante a workshop? 446 00:25:39,287 --> 00:25:40,603 Há uma workshop... 447 00:25:40,603 --> 00:25:44,437 Esta tarde, há uma workshop, especifica para Shape Expressions, e... 448 00:25:45,265 --> 00:25:47,939 A ideia é que vai ser mais na vertente prática 449 00:25:47,940 --> 00:25:52,324 e, se quiserem praticar ShEx, podem fazê-lo lá. 450 00:25:52,875 --> 00:25:55,720 Esta ferramenta é o *ShEx,js*. Lá está o Eric, ali. 451 00:25:55,721 --> 00:25:56,890 Podes apresentá-la. 452 00:25:57,969 --> 00:26:00,687 (Eric) Muito rapidamente, aquilo que quero dizer 453 00:26:00,687 --> 00:26:05,711 é que já viram, provavelmente, a interface de ShEx 454 00:26:05,711 --> 00:26:07,601 que foi concebida para a Wikidata. 455 00:26:07,602 --> 00:26:12,930 Ela foi simplificada e pensada especificamente para a Wikidata 456 00:26:12,930 --> 00:26:15,817 porque a versão genérica tem mais funcionalidades. 457 00:26:15,817 --> 00:26:19,014 Mas pensei em mencioná-la porque uma dessas funcionalidades 458 00:26:19,014 --> 00:26:23,201 é particularmente útil para depurar esquemas da Wikidata. 459 00:26:23,201 --> 00:26:29,224 A qual é, se selecionarem o modo *slurp*, 460 00:26:29,225 --> 00:26:31,444 o que faz é dizer, à medida que estou a validar, 461 00:26:31,445 --> 00:26:33,214 que quero puxar todos os triplos para baixo. 462 00:26:33,214 --> 00:26:36,274 E, isso significa que, se tiver um conjunto de falhas, 463 00:26:36,275 --> 00:26:39,586 posso verificá-las e começar a olhar para essas falhas e dizer 464 00:26:39,587 --> 00:26:41,800 quais são os triplos que estão aqui. 465 00:26:41,801 --> 00:26:44,120 Peço desculpas, os triplos estão aqui em baixo. 466 00:26:44,121 --> 00:26:45,647 Isto é só um registo do que aconteceu. 467 00:26:46,327 --> 00:26:49,180 Depois, podem limitar-se a remexer nisto em tempo real. 468 00:26:49,181 --> 00:26:51,033 Brincam com alguma coisa e muda. 469 00:26:51,033 --> 00:26:54,160 Então, é uma versão mais rápida para fazer todas essas coisas. 470 00:26:55,361 --> 00:26:56,481 Este é um formulário *ShExC*. 471 00:26:56,482 --> 00:26:59,455 É algo que o Joachim sugeriu. 472 00:27:00,035 --> 00:27:04,631 Pode ser útil para povoar documentos da Wikidata 473 00:27:04,631 --> 00:27:07,338 baseado numa Shape Expression para esse documento. 474 00:27:08,095 --> 00:27:11,681 Isto não foi feito à medida da Wikidata, 475 00:27:11,682 --> 00:27:14,081 mas é apenas para mostrar que podem ter um esquema 476 00:27:14,082 --> 00:27:15,891 e podem ter algumas anotações para especificar 477 00:27:15,891 --> 00:27:17,518 como quero apresentar o esquema. 478 00:27:17,519 --> 00:27:19,031 Depois, constrói um formulário 479 00:27:19,031 --> 00:27:21,191 e, se tiverem dados, pode até povoar o formulário. 480 00:27:24,517 --> 00:27:26,564 *PyShEx* [inaudível]. 481 00:27:26,564 --> 00:27:27,594 (risos) 482 00:27:28,025 --> 00:27:31,080 (Jose) Penso que este seja o último. 483 00:27:31,821 --> 00:27:34,080 Sim, o último é o *PyShEx*. 484 00:27:34,675 --> 00:27:38,151 O *PyShEx* é uma implementação de Shape Expressions em Python. 485 00:27:39,193 --> 00:27:41,680 Podem também experimentar o *Jupyter Notebooks* 486 00:27:41,680 --> 00:27:44,433 se quiserem esse tipo de coisas. É tudo, para isto. 487 00:27:44,433 --> 00:27:48,990 (aplausos) 488 00:27:52,916 --> 00:27:56,134 (Andra) Vou falar acerca de um projeto específico 489 00:27:56,134 --> 00:27:58,074 com o qual estou envolvido chamado Gene Wiki 490 00:27:58,075 --> 00:28:04,596 e onde também estamos a lidar com questões de qualidade. 491 00:28:04,597 --> 00:28:06,684 Mas, antes de falar da qualidade, 492 00:28:06,685 --> 00:28:09,229 talvez uma pequena apresentação acerca do que é o Gene Wiki. 493 00:28:09,855 --> 00:28:15,175 Acabámos de lançar uma pré-impressão de um artigo que escrevemos recentemente 494 00:28:15,175 --> 00:28:18,160 que explica os detalhes do projeto. 495 00:28:19,821 --> 00:28:21,760 Tiraram fotografias. 496 00:28:21,760 --> 00:28:23,846 Basicamente, o que o Gene Wiki faz 497 00:28:23,846 --> 00:28:28,027 é tentar inserir dados biomédicos, dados públicos, na Wikidata. 498 00:28:28,028 --> 00:28:32,200 Seguimos um padrão específico para inserir esses dados na Wikidata. 499 00:28:33,130 --> 00:28:36,809 Assim, quando temos um novo repositório, ou um novo conjunto de dados 500 00:28:36,810 --> 00:28:39,426 que é elegível para ser incluído na Wikidata, 501 00:28:39,426 --> 00:28:41,323 o primeiro passo é o envolvimento da comunidade. 502 00:28:41,323 --> 00:28:43,784 Não é dirigido, necessariamente a uma comunidade da Wikidata, 503 00:28:43,785 --> 00:28:46,120 mas a uma comunidade de pesquisa local. 504 00:28:46,121 --> 00:28:50,286 Encontramo-nos em pessoa, ou online, ou em qualquer plataforma 505 00:28:50,286 --> 00:28:52,881 e tentamos criar um modelo de dados 506 00:28:52,882 --> 00:28:56,197 que faça a ponte entre os seus dados e o modelo Wikidata. 507 00:28:56,197 --> 00:28:59,944 Aqui, tenho uma imagem de uma workshop que aconteceu aqui, no ano passado. 508 00:28:59,945 --> 00:29:02,663 Estava a tentar olhar para um conjunto de dados específico 509 00:29:02,663 --> 00:29:05,280 e, enfim, vêm muitas discussões, 510 00:29:05,281 --> 00:29:09,780 e depois alinhá-los com o schema.org e outras ontologias que por aí andam. 511 00:29:10,320 --> 00:29:15,508 Depois, no final do primeiro passo, temos um desenho do esquema 512 00:29:15,509 --> 00:29:17,336 que queremos implementar na Wikidata. 513 00:29:17,337 --> 00:29:20,440 O que vêm aqui, isto é apenas simples, 514 00:29:20,441 --> 00:29:21,766 temo-lo lá atrás, ali, 515 00:29:21,767 --> 00:29:25,240 e podemos fazer alguns esquemas dentro deste painel mesmo hoje. 516 00:29:26,560 --> 00:29:28,399 Assim que temos o esquema montado, 517 00:29:28,400 --> 00:29:31,320 o próximo passo é tentar fazer o esquema da máquina legível. 518 00:29:32,358 --> 00:29:35,280 Porque querem ter modelos acionáveis para fazer uma ponte 519 00:29:35,280 --> 00:29:38,613 com os dados que estão a inserir de qualquer base de dados biomédica 520 00:29:38,613 --> 00:29:40,393 no Wikidata. 521 00:29:41,682 --> 00:29:46,471 Aqui, estamos a aplicar Shape Expressions. 522 00:29:48,451 --> 00:29:52,518 Usámo-lo porque permite-vos testar 523 00:29:52,518 --> 00:29:57,040 se o conjunto de dados é, na realidade... Não. A ver, em primeiro lugar, 524 00:29:57,041 --> 00:30:01,782 se os dados que já existem na Wikidata seguem o mesmo modelo de dados 525 00:30:01,783 --> 00:30:04,718 que foi conseguido no processo anterior. 526 00:30:04,719 --> 00:30:06,641 Depois, com a Shape Expression podemos verificar: 527 00:30:06,642 --> 00:30:10,926 os dados deste tópico na Wikidata, será que precisam de uma limpeza 528 00:30:10,926 --> 00:30:15,013 ou precisamos de adaptar o nosso modelo ao modelo da Wikidata, ou vice-versa? 529 00:30:15,937 --> 00:30:19,867 Quando isso estiver definido e começarmos a programar *bots* 530 00:30:20,670 --> 00:30:23,801 e os *bots* estão a passar a informação 531 00:30:23,802 --> 00:30:27,308 que está nas fontes primárias para a Wikidata. 532 00:30:27,846 --> 00:30:29,303 Quando os *bots* estão prontos... 533 00:30:29,304 --> 00:30:33,001 Programamos estes *bots* com uma plataforma chamada... 534 00:30:33,002 --> 00:30:36,201 com uma biblioteca de Python chamada Wikidata Integrator 535 00:30:36,202 --> 00:30:38,167 que foi criada pelo nosso projeto. 536 00:30:38,698 --> 00:30:42,921 Uma vez que tenhamos os nossos *bots*, usamos uma plataforma chamada Jenkins 537 00:30:42,921 --> 00:30:44,540 para integração contínua. 538 00:30:44,540 --> 00:30:45,762 Com o Jenkins, 539 00:30:45,762 --> 00:30:51,160 atualizamos constantemente as fontes primárias com a Wikidata. 540 00:30:52,178 --> 00:30:55,889 Este é um diagrama para o artigo que mencionei anteriormente. 541 00:30:55,890 --> 00:30:57,241 Esta é a nossa paisagem atual. 542 00:30:57,242 --> 00:31:02,059 Cada caixa laranja é um recurso primário para drogas, 543 00:31:02,060 --> 00:31:07,827 proteínas, genes, doenças compostos químicos com interação. 544 00:31:07,827 --> 00:31:10,870 Este modelo é muito pequeno para ser lido agora, 545 00:31:10,870 --> 00:31:17,472 mas esta é a base de dados, as fontes, que gerimos na Wikidata 546 00:31:17,473 --> 00:31:20,560 e que fazem ponte com as fontes primárias. 547 00:31:20,561 --> 00:31:22,355 Aqui está um desses fluxos de trablaho. 548 00:31:22,870 --> 00:31:25,312 Um dos nossos parceiros é a Disease Ontology. 549 00:31:25,312 --> 00:31:27,672 A Disease Ontology é uma ontologia CC0 550 00:31:28,945 --> 00:31:32,756 e a ontologia CC0 tem o seu próprio ciclo de curadoria. 551 00:31:32,756 --> 00:31:35,736 Eles atualizam continuamente a Disease Ontology 552 00:31:35,737 --> 00:31:39,687 para refletir o espaço de doenças ou a interpretação de doenças. 553 00:31:40,336 --> 00:31:44,361 Há também o ciclo de curadoria da Wikidata acerca de doenças 554 00:31:44,362 --> 00:31:48,418 onde a comunidade Wikidata monitoriza constantemente 555 00:31:48,418 --> 00:31:50,406 o que se está a passar na Wikidata. 556 00:31:50,406 --> 00:31:51,601 Depois, temos duas funções 557 00:31:51,602 --> 00:31:55,477 às quais chamamos, coloquialmente, curadores guardiões. 558 00:31:57,039 --> 00:31:59,561 Isto sou eu e um colega há cinco anos atrás. 559 00:31:59,562 --> 00:32:03,414 Ficamos ao computador e monitorizamos a Wikipedia e a Wikidata 560 00:32:03,415 --> 00:32:08,601 e, se houver alguma questão reportada à comunidade primária, 561 00:32:08,602 --> 00:32:11,765 aos recursos primários, eles olhavam para a implementação e decidiam: 562 00:32:11,765 --> 00:32:14,240 "Confiamos nas entradas da Wikidata?" 563 00:32:14,850 --> 00:32:18,555 Se sim, é considerada, entra no ciclo 564 00:32:18,555 --> 00:32:22,686 e na próxima iteração faz parte da Disease Ontology 565 00:32:22,687 --> 00:32:25,411 e é fornecida à Wikidata. 566 00:32:27,419 --> 00:32:31,480 Estamos a fazer o mesmo com a WikiPathways. 567 00:32:31,481 --> 00:32:34,755 A WikiPathways é um percurso inspirado na *wiki* 568 00:32:34,755 --> 00:32:36,602 e um repositório de percursos. 569 00:32:36,602 --> 00:32:40,901 É a mesma história, já há diferentes recursos de percursos na Wikidata. 570 00:32:41,463 --> 00:32:44,713 Podem haver conflitos entre esses recursos de percursos 571 00:32:44,722 --> 00:32:46,701 e esses conflitos são comunicados de volta 572 00:32:46,702 --> 00:32:49,521 pelos curadores guardiões a essa comunidade 573 00:32:49,522 --> 00:32:53,715 mantendo-se os ciclos individuais de curadoria. 574 00:32:53,715 --> 00:32:57,068 Mas, se se lembrarem do ciclo anterior, 575 00:32:57,069 --> 00:33:03,041 mencionei aqui apenas dois ciclos, dois recursos. 576 00:33:03,566 --> 00:33:06,300 Temos de fazer isto para cada recurso individual que temos 577 00:33:06,300 --> 00:33:09,185 e temos de gerir o que se passa porque, quando falo em curadoria, 578 00:33:09,185 --> 00:33:11,377 quero dizer ir às páginas de topo da Wikipedia, 579 00:33:11,377 --> 00:33:14,544 às páginas de topo da Wikidata, e tentar fazer isso. 580 00:33:14,545 --> 00:33:19,316 Isso é muito para os dois curadores guardiões que tínhamos. 581 00:33:19,660 --> 00:33:22,777 Por isso, quando estive numa conferência em 2016, 582 00:33:22,778 --> 00:33:26,933 onde o Eric fez uma apresentação sobre Shape Expressions, 583 00:33:26,934 --> 00:33:29,277 aderi à onda e disse: "Está bem. 584 00:33:29,278 --> 00:33:34,240 o Shape Expressions pode ajudar-nos a detetar as diferenças na Wikidata 585 00:33:34,240 --> 00:33:38,389 e isso permite que os guardiões tenham 586 00:33:38,389 --> 00:33:42,217 relatórios mais eficientes para comunicar." 587 00:33:42,275 --> 00:33:46,019 Então, este ano, fiquei deliciado com a entidade de esquemas 588 00:33:46,020 --> 00:33:50,765 porque, agora, podemos guardar esses esquemas de entidades na Wikidata, 589 00:33:50,765 --> 00:33:53,523 mesmo na Wikidata, enquanto, antes, estavam no GitHub, 590 00:33:53,860 --> 00:33:56,815 e isto está em sintonia com a interface da Wikidata. 591 00:33:56,816 --> 00:33:59,350 Então, têm coisas como discussões de documentos 592 00:33:59,350 --> 00:34:00,762 mas também têm revisões. 593 00:34:00,763 --> 00:34:05,261 Assim, podem impulsionar as páginas de topo e as revisões na Wikidata 594 00:34:05,262 --> 00:34:12,255 para usar isso para debater acerca do que está na Wikidata 595 00:34:12,255 --> 00:34:14,060 e o que está nos recursos primários. 596 00:34:14,966 --> 00:34:19,686 Isto, que o Eric acabou de apresentar, já é um grande benefício. 597 00:34:19,686 --> 00:34:24,335 Aqui, fizemos uma Shape Expression para o gene humano 598 00:34:24,336 --> 00:34:30,225 e, depois, passámos-la através de uma ShEx simples e, como podem ver, 599 00:34:30,225 --> 00:34:32,428 já temos no... 600 00:34:32,429 --> 00:34:34,641 Existe uma questão que precisa de ser monitorizada, 601 00:34:34,642 --> 00:34:37,316 onde há um item que não encaixa naquele esquema 602 00:34:37,316 --> 00:34:43,139 e, depois, podem já criar relatórios de curadoria de entidades de esquemas 603 00:34:43,140 --> 00:34:46,240 baseados em... e enviar isto para os diferentes relatórios de curadoria. 604 00:34:48,058 --> 00:34:52,788 Mas, o *ShEx.js* é uma interface construída 605 00:34:52,788 --> 00:34:55,860 e, se puder mostrar cá atrás, faço apenas dez, 606 00:34:55,860 --> 00:35:00,362 mas temos dezenas de milhares e, por isso, não é escalável. 607 00:35:00,362 --> 00:35:04,654 Agora, o *Wikidata Integrator* também suporta ShEx 608 00:35:05,168 --> 00:35:07,431 e podemos repetir iterações de itens 609 00:35:07,431 --> 00:35:11,494 onde dizemos "sim, não", "sim, não" "verdadeiro, falso", "verdadeiro, falso". 610 00:35:11,495 --> 00:35:12,495 Então, 611 00:35:13,065 --> 00:35:16,514 aumentar um pouco a eficiência ao lidar com os relatórios. 612 00:35:17,256 --> 00:35:22,662 Mas, agora, isso dificulta o *Wikidata Query Service* 613 00:35:23,181 --> 00:35:24,998 e, recentemente, tivemos estrangulamentos. 614 00:35:24,999 --> 00:35:26,560 Por isso, novamente, não é escalável. 615 00:35:26,561 --> 00:35:31,391 É ainda um processo em curso, o como lidar com modelos na Wikidata. 616 00:35:32,202 --> 00:35:36,682 E, ShEx é, não só intimidante, 617 00:35:36,683 --> 00:35:40,356 como a escala é demasiado grande para lidarmos com ela. 618 00:35:41,068 --> 00:35:44,781 Então, eu comecei a trabalhar. Esta é a minha primeira validação do conceito, 619 00:35:44,781 --> 00:35:47,680 ou exercício, onde usei uma ferramenta chamada *yED*. 620 00:35:48,184 --> 00:35:52,590 Comecei a desenhar aquelas Shape Expressions e, porque... 621 00:35:52,591 --> 00:35:58,098 E depois, regenerei este esquema 622 00:35:58,099 --> 00:36:01,279 no seu formato adjacente de Shape Expressions. 623 00:36:01,280 --> 00:36:04,520 Isto iria abrir-se à audiência 624 00:36:04,521 --> 00:36:07,432 que está intimidada pelas linguagens Shape Expressions. 625 00:36:07,961 --> 00:36:12,308 Mas, há um problema com essas descrições visuais 626 00:36:12,309 --> 00:36:18,229 porque isto também é um esquema que foi desenhado em *yEd* por alguém. 627 00:36:18,230 --> 00:36:23,838 E aqui está outro, que é belíssimo. 628 00:36:23,838 --> 00:36:29,516 Adorava ter isto na minha parede, mas continua a não ser interoperável. 629 00:36:30,281 --> 00:36:32,131 Quero acabar a minha palestra com... 630 00:36:32,131 --> 00:36:35,732 É a primeira vez que... Tenho roubado e usado este slide. 631 00:36:35,732 --> 00:36:37,594 É uma honra tê-lo na audiência. 632 00:36:37,595 --> 00:36:39,423 Gosto realmente disto: 633 00:36:39,424 --> 00:36:42,362 "As pessoas acham que RDF é chato porque é complicado. 634 00:36:42,362 --> 00:36:43,985 A verdade á ainda pior. É tão simples 635 00:36:45,581 --> 00:36:48,133 porque temos de trabalhar com problemas do mundo real 636 00:36:48,134 --> 00:36:50,031 que são horrivelmente complicados. 637 00:36:50,031 --> 00:36:51,451 Embora possam evitar o RDF, 638 00:36:51,451 --> 00:36:55,760 é mais difícil evitar dados complicados e problemas computacionais complicados." 639 00:36:55,761 --> 00:36:59,535 Isto é acerca de RDF, mas penso que também pode ser aplicado à modelação. 640 00:37:00,112 --> 00:37:02,769 Então, o meu argumento é, devemos realmente... 641 00:37:03,387 --> 00:37:05,882 Como é que avançamos com a modelação? 642 00:37:05,882 --> 00:37:10,826 Devemos discutir ShEx ou modelos visuais, ou... 643 00:37:11,426 --> 00:37:13,271 Como é que continuamos? 644 00:37:13,474 --> 00:37:14,840 Muito obrigado pelo vosso tempo. 645 00:37:15,102 --> 00:37:19,737 (aplausos) 646 00:37:20,001 --> 00:37:21,188 (Lydia) Muito obrigada. 647 00:37:21,692 --> 00:37:24,001 Venham para a frente 648 00:37:24,002 --> 00:37:27,741 para podermos abrir as questões da audiência. 649 00:37:28,610 --> 00:37:30,203 Existem questões? 650 00:37:31,507 --> 00:37:32,507 Sim. 651 00:37:34,253 --> 00:37:36,890 E, penso... Para a câmara, precisamos de... 652 00:37:38,835 --> 00:37:40,968 (Lydia a rir) Sim. 653 00:37:43,094 --> 00:37:46,273 (Interveniente 1) Uma questão para a Cristina, penso eu. 654 00:37:47,366 --> 00:37:51,641 Mencionou, exatamente, o termo "ganho de informação" 655 00:37:51,642 --> 00:37:53,689 devido à ligação com outros sistemas. 656 00:37:53,690 --> 00:37:55,459 Existe uma medida teórica de informação 657 00:37:55,459 --> 00:37:58,101 que usa estatística e probabilidade e se chama ganho de informação. 658 00:37:58,101 --> 00:37:59,541 Tem o mesmo... 659 00:37:59,542 --> 00:38:01,736 Quero dizer, estava a falar exatamente dessa medida, 660 00:38:01,736 --> 00:38:04,173 do ganho de informação da teoria de probabilidade, 661 00:38:04,174 --> 00:38:07,020 da teoria de informação, ou apenas a usar esta entidade conceptual 662 00:38:07,020 --> 00:38:09,024 para medir o ganho de informação de alguma forma? 663 00:38:09,215 --> 00:38:13,276 (Cristina) Não. Nós definimos e implementamos medidas 664 00:38:13,695 --> 00:38:20,161 que estão a usar a entropia de Shannon, por isso, é isso que significa. 665 00:38:20,162 --> 00:38:22,696 Não queria entrar em detalhes acerca das fórmulas concretas... 666 00:38:22,697 --> 00:38:24,977 (Interveniente 1) Não, claro. Daí a pergunta. 667 00:38:24,978 --> 00:38:27,128 - (Cristina) Mas sim... - (Interveniente 1) Obrigado. 668 00:38:32,681 --> 00:38:35,047 (Interveniente 2) Faço um comentário, mais que uma questão. 669 00:38:35,048 --> 00:38:36,241 (Lydia) Força. 670 00:38:36,242 --> 00:38:39,840 (Interveniente 2) Tem havido muito ênfase ao nível do item, 671 00:38:39,840 --> 00:38:42,547 acerca de qualidade e integridade. 672 00:38:42,547 --> 00:38:44,313 Uma das coisas que me preocupa é 673 00:38:44,313 --> 00:38:48,784 não estarmos a aplicar o mesmo às hierarquias e penso que temos a questão 674 00:38:48,784 --> 00:38:51,480 das nossas hierarquias não serem boas, com frequência. 675 00:38:51,481 --> 00:38:53,463 Estamos a ver que isto vai ser um problema real 676 00:38:53,464 --> 00:38:55,774 com a pesquisa de *Commons* e outras coisas. 677 00:38:56,771 --> 00:39:00,601 Uma das coisas que conseguimos fazer é importar externa... 678 00:39:00,602 --> 00:39:04,842 Da forma como os thesaurus externos estruturam as suas hierarquias, 679 00:39:04,842 --> 00:39:10,291 usando o qualificador de conceitos mais geral P4900. 680 00:39:11,037 --> 00:39:16,167 Mas, o que penso que seria realmente útil, seriam melhores ferramentas para o fazer 681 00:39:16,168 --> 00:39:21,212 para que possamos importar uma hierarquia de thesaurus externa, 682 00:39:21,212 --> 00:39:24,111 mapeá-la nos nossos itens da Wikidata. 683 00:39:24,111 --> 00:39:28,199 Uma vez implementada com esses qualificadores P4900, 684 00:39:28,200 --> 00:39:31,494 podemos fazer ótimas consultas através de SPARQL 685 00:39:32,490 --> 00:39:37,534 para ver onde é que a nossa hierarquia diverge dessa hierarquia externa. 686 00:39:37,534 --> 00:39:41,346 Por exemplo, como podem saber, Paula Morma, o utilizador PKM 687 00:39:41,346 --> 00:39:43,533 faz muito trabalho em moda. 688 00:39:43,533 --> 00:39:46,704 Por isso, usamos isso para puxar 689 00:39:46,704 --> 00:39:50,524 a hierarquia do Thesaurus Europeana Fashion 690 00:39:50,524 --> 00:39:53,812 e a hierarquia do thesauros de moda Getty AAT. 691 00:39:53,812 --> 00:39:57,957 Depois, vemos onde as lacunas estavam nos nossos itens de alto nível, 692 00:39:57,957 --> 00:40:00,511 que são um problema real para nós porque, com frequência, 693 00:40:00,511 --> 00:40:04,355 estas são coisas que só existem como páginas de desambiguação na Wikipedia 694 00:40:04,356 --> 00:40:06,991 e, por isso, temos muitos itens de alto nível 695 00:40:06,991 --> 00:40:09,271 a faltar nas nossas hierarquias. 696 00:40:09,271 --> 00:40:14,480 Isto é algo que precisamos de abordar em termos de qualidade e de integridade. 697 00:40:14,480 --> 00:40:15,971 O que realmente ajudaria 698 00:40:16,643 --> 00:40:20,871 seriam melhores ferramentas que a selva de *scripts* que escrevi. 699 00:40:20,872 --> 00:40:26,010 Se alguém pudesse pôr isso num bloco de notas PAWS em Python, 700 00:40:26,561 --> 00:40:31,972 ser capaz de receber um thesaurus externo, pegar na sua hierarquia, 701 00:40:31,973 --> 00:40:35,025 a qual pode muito bem estar disponível como dados ligados, ou pode não estar, 702 00:40:35,379 --> 00:40:37,837 para depois transferi-lo para declarações rápidas 703 00:40:37,837 --> 00:40:41,165 para pôr em valores P4900. 704 00:40:41,165 --> 00:40:42,165 E, mais tarde, 705 00:40:42,166 --> 00:40:47,007 quando a nossa representação ficar mais completa, atualizar os P4900s. 706 00:40:47,007 --> 00:40:51,101 Porque, à medida que a nossa representação fica ultrapassada, fica mais densa. 707 00:40:51,590 --> 00:40:55,377 Os valores desses qualificadores precisam de mudar 708 00:40:56,230 --> 00:40:59,526 para representar que temos mais da sua hierarquia no nosso sistema. 709 00:40:59,526 --> 00:41:03,728 Se alguém pudesse fazer isso, penso que seria muito útil. 710 00:41:04,068 --> 00:41:07,121 Também precisamos de olhar para outras estratégias 711 00:41:07,122 --> 00:41:10,762 para aumentar a qualidade e a integridade ao nível da hierarquia, 712 00:41:10,763 --> 00:41:12,378 não só ao nível do item. 713 00:41:13,308 --> 00:41:14,840 (Andra) Posso acrescentar algo? 714 00:41:16,362 --> 00:41:19,901 Sim. E, na realidade, fazemos isso. 715 00:41:19,911 --> 00:41:23,551 Posso recomendar olhar para a Shape Expression que o Finn fez 716 00:41:23,552 --> 00:41:27,330 com os dados léxicos onde ele cria Shape Expressions 717 00:41:27,330 --> 00:41:29,640 e depois desenvolve sobre outras Shape Expressions. 718 00:41:29,641 --> 00:41:32,528 Têm este conceito de Shape Expressions ligadas na Wikidata 719 00:41:32,529 --> 00:41:35,005 e, especificamente, o caso de uso, se entendi bem, 720 00:41:35,006 --> 00:41:37,183 é exatamente o que estamos a fazer na Gene Wiki. 721 00:41:37,184 --> 00:41:40,841 Têm a Disease Ontology que é posta na Wikidata 722 00:41:40,842 --> 00:41:44,681 e, depois, dados de doenças entram e aplicamos Shape Expressions 723 00:41:44,682 --> 00:41:47,247 para ver se encaixam com este thesaurus. 724 00:41:47,248 --> 00:41:50,719 Existem outros thesaurus, ou outras ontologias, para vocabulários controlados 725 00:41:50,719 --> 00:41:52,619 que ainda precisam de ser inseridos na Wikidata. 726 00:41:52,619 --> 00:41:55,401 E é exatamente por isso que o Shape Expressions é tão interessante. 727 00:41:55,402 --> 00:41:57,963 Porque podemos ter uma Shape Expression para a Disease Ontology, 728 00:41:57,964 --> 00:41:59,644 uma Shape Expression para o MeSH. 729 00:41:59,645 --> 00:42:01,761 Pode dizer: "Agora quero verificar a qualidade." 730 00:42:01,762 --> 00:42:04,059 Porque também tem, na Wikidata, o contexto 731 00:42:04,060 --> 00:42:06,246 de quando tem um vocabulário controlado. 732 00:42:06,756 --> 00:42:09,568 Diz que a qualidade está de acordo com isto 733 00:42:09,568 --> 00:42:11,636 mas pode ter uma comunidade discordante. 734 00:42:11,636 --> 00:42:13,720 Por isso, as ferramentas já estão implementadas, 735 00:42:13,720 --> 00:42:16,082 mas, agora, precisamos de criar esses modelos 736 00:42:16,082 --> 00:42:18,144 e aplicá-los aos diferentes casos de uso. 737 00:42:18,811 --> 00:42:20,921 (Interveniente 2) Uma Shape Expression é muito útil 738 00:42:20,922 --> 00:42:25,928 logo que tenha a ontologia externa mapeada na Wikidata. 739 00:42:25,929 --> 00:42:29,474 Mas, o meu problema é que está a chegar aquele ponto. 740 00:42:29,475 --> 00:42:34,881 Que é perceber quanto da ontologia externa não está ainda na Wikidata 741 00:42:34,882 --> 00:42:36,256 e onde estão as lacunas. 742 00:42:36,257 --> 00:42:40,660 É aí que penso que ter ferramentas mais robustas 743 00:42:40,660 --> 00:42:44,286 para ver o que está em falta de ontologias externas 744 00:42:44,286 --> 00:42:45,537 seria muito útil. 745 00:42:47,348 --> 00:42:49,062 (Andra) O maior problema aqui 746 00:42:49,062 --> 00:42:51,201 é, não tanto as ferramentas, mas mais o licenciamento. 747 00:42:51,803 --> 00:42:55,249 Pôr as ontologias na Wikidata é, na realidade, muito fácil. 748 00:42:55,250 --> 00:42:59,295 Mas, a maioria das ontologias têm, como é que o posso dizer educadamente, 749 00:42:59,965 --> 00:43:03,256 licenciamento restritivo e, por isso, não são compatíveis com a Wikidata. 750 00:43:03,778 --> 00:43:06,678 (Interveniente 2) Existe um enorme número de thesaurus do setor público 751 00:43:06,678 --> 00:43:08,129 em setores culturais. 752 00:43:08,129 --> 00:43:10,911 - (Andra) Então precisamos de falar. - (Interveniente 2) Sem problema. 753 00:43:10,911 --> 00:43:12,384 (Andra) Então, precisamos de falar. 754 00:43:13,624 --> 00:43:16,362 (Interveniente 3) O comentário que quero fazer 755 00:43:16,362 --> 00:43:19,192 é uma resposta para o James. 756 00:43:19,822 --> 00:43:22,401 O que acontece é que hierarquias fazem gráficos 757 00:43:22,374 --> 00:43:24,041 e quando queremos... 758 00:43:24,429 --> 00:43:28,888 Quero falar acerca de um problema comum em hierarquias, 759 00:43:28,889 --> 00:43:30,820 que são hierarquias circulares. 760 00:43:30,821 --> 00:43:33,796 Elas voltam umas às outras quando há um problema. 761 00:43:33,796 --> 00:43:35,920 Não devíamos ter isso com hierarquias. 762 00:43:37,022 --> 00:43:41,295 É engraçado que isto acontece muito em categorias na Wikipedia. 763 00:43:41,295 --> 00:43:42,990 Temos muitos círculos em categorias. 764 00:43:43,898 --> 00:43:46,612 Mas, a boa notícia é que... 765 00:43:47,713 --> 00:43:51,582 Tecnicamente, é um problema completo PMP, por isso não o conseguimos encontrar, 766 00:43:51,583 --> 00:43:53,804 e facilmente, se construirmos um gráfico a partir disso, 767 00:43:54,473 --> 00:43:57,046 mas há muitas formas que foram desenvolvidas 768 00:43:57,047 --> 00:44:00,624 para encontrar problemas nestes gráficos de hierarquia. 769 00:44:00,625 --> 00:44:04,860 Existe um artigo chamado *Finding Cycles*... 770 00:44:04,861 --> 00:44:07,955 *Breaking Cycles in Noisy Hierachies*. 771 00:44:07,956 --> 00:44:12,671 Tem sido usado para ajudar na classificação da Wikipedia inglesa. 772 00:44:12,672 --> 00:44:17,141 Podemos pegar nisto e aplicar estas hierarquias na Wikidata 773 00:44:17,142 --> 00:44:19,540 e, depois, podemos encontrar coisas que são problemáticas 774 00:44:19,541 --> 00:44:22,481 e remover as que estão a causar problemas. 775 00:44:22,482 --> 00:44:24,593 E encontrar os problemas, na realidade. 776 00:44:25,594 --> 00:44:27,960 Isto é só uma ideia, para que... 777 00:44:28,660 --> 00:44:31,380 (Interveniente 2) Está tudo muito bem, mas acho que está a subestimar 778 00:44:31,380 --> 00:44:35,403 o número de más relações de subclasse que nós temos. 779 00:44:35,403 --> 00:44:39,680 É como ter uma cidade que está completamente no país errado. 780 00:44:40,250 --> 00:44:44,884 Existem ferramentas para geografia, para identificar isso. 781 00:44:45,375 --> 00:44:49,202 Precisamos de ter muito melhores ferramentas em hierarquias 782 00:44:49,202 --> 00:44:53,477 para identificar onde o equivalente do item para o país 783 00:44:53,478 --> 00:44:57,673 esteja a faltar completamente ou se foi subclassificado 784 00:44:57,674 --> 00:45:01,804 como algo que não signifique algo completamente diferente. 785 00:45:02,804 --> 00:45:07,165 (Lydia) Sim, penso que está a chegar a algo 786 00:45:07,166 --> 00:45:12,024 que eu e a minha equipa ouvimos sempre de pessoas que reutilizam os nossos dados. 787 00:45:12,025 --> 00:45:13,991 Com frequência, também. 788 00:45:15,002 --> 00:45:16,638 Dados pontuais podem ser ótimos, 789 00:45:16,639 --> 00:45:20,163 mas, se temos de olhar para a ontologia, etc, 790 00:45:20,164 --> 00:45:21,857 torna-se muito... 791 00:45:22,388 --> 00:45:26,437 Penso que um dos grandes problems que causa isto 792 00:45:26,437 --> 00:45:30,736 é que muita da edição na Wikidata 793 00:45:30,740 --> 00:45:34,545 acontece baseada num item individual, não é? 794 00:45:34,545 --> 00:45:36,201 Fazemos uma edição nesse item 795 00:45:37,653 --> 00:45:42,075 sem nos darmos conta que isto pode ter consequências globais 796 00:45:42,075 --> 00:45:44,245 no resto do gráfico, por exemplo. 797 00:45:44,245 --> 00:45:50,040 E, se as pessoas têm ideias sobre como tornar isto mais visível, 798 00:45:50,041 --> 00:45:53,185 as consequências de uma edição local individual, 799 00:45:54,005 --> 00:45:56,537 penso que seria útil explorá-lo. 800 00:45:57,550 --> 00:46:01,583 Para melhor mostrar às pessoas as consequências das suas edições, 801 00:46:01,584 --> 00:46:03,434 que elas podem estar a fazer de boa fé, 802 00:46:04,481 --> 00:46:05,481 quais são elas. 803 00:46:07,619 --> 00:46:12,237 (Risos) Muito bem. Vamos começar consigo, depois você, depois você e depois você. 804 00:46:12,237 --> 00:46:13,921 (Interveniente 3) Bem, depois do debate, 805 00:46:13,922 --> 00:46:18,262 só para exprimir a minha concordância com o que o James estava a dizer. 806 00:46:18,263 --> 00:46:22,417 Essencialmente, parece que a coisa mais perigosa é a hierarquia. 807 00:46:22,417 --> 00:46:23,950 Não a hierarquia, mas, de forma geral, 808 00:46:23,950 --> 00:46:28,022 a semântica das relações de subclasse vistas na Wikidata, certo? 809 00:46:28,022 --> 00:46:32,561 Estive a estudar linguagens recentemente, apenas para esta conferência 810 00:46:32,562 --> 00:46:35,257 e, por exemplo, encontram-se muitos casos 811 00:46:35,257 --> 00:46:39,463 onde a linguagem é parte de e uma subclasse da mesma coisa. 812 00:46:39,923 --> 00:46:43,577 Podemos dizer que temos uma ontologia flexível. 813 00:46:43,577 --> 00:46:46,256 A Wikidata dá-nos a liberdade de exprimir isso, por vezes. 814 00:46:46,256 --> 00:46:47,257 Porque, por exemplo 815 00:46:47,258 --> 00:46:50,721 essa ontologia de linguagens é também politicamente complicada, certo? 816 00:46:50,722 --> 00:46:55,038 É bom estar numa posição que nos permita expressar um nível de incerteza. 817 00:46:55,038 --> 00:46:57,983 Mas imaginem alguém a querer fazer leitura ótica a partir disso. 818 00:46:57,984 --> 00:46:59,468 É mesmo problemático. 819 00:46:59,468 --> 00:47:00,468 E, depois, 820 00:47:00,469 --> 00:47:03,686 não penso que a ontologia seja algo que foi importada de algures, 821 00:47:03,687 --> 00:47:05,490 é algo que é originalmente nosso. 822 00:47:05,491 --> 00:47:08,321 Diria que foi colhida da Wikipedia mesmo no início. 823 00:47:08,322 --> 00:47:11,324 Por isso pergunto-me... Esta coisa do Shape Expressions é ótima, 824 00:47:11,325 --> 00:47:15,575 e também validadora e reparadora. A ontologia da Wikidata 825 00:47:15,576 --> 00:47:18,191 a partir de recursos externos é uma bela ideia. 826 00:47:18,886 --> 00:47:19,906 No final, 827 00:47:19,906 --> 00:47:25,440 acabaremos por refletir as ontologias externas na Wikidata? 828 00:47:25,441 --> 00:47:28,651 E também, o que fazemos com a parte central da nossa ontologia 829 00:47:28,652 --> 00:47:30,642 que nunca é colhida a partir de recursos externos. 830 00:47:30,643 --> 00:47:31,978 Como é que solucionamos isso? 831 00:47:31,979 --> 00:47:35,276 Penso, realmente, que isso será um problema por si só. 832 00:47:35,277 --> 00:47:39,010 Teremos de nos focar nisso independentemente da ideia 833 00:47:39,010 --> 00:47:41,191 de validar a ontologia com algo externo. 834 00:47:42,642 --> 00:47:44,722 (Lydia aponta para a audiência) 835 00:47:49,353 --> 00:47:53,379 (Interveniente 4) Restrições e formas são muito impressionantes, 836 00:47:53,380 --> 00:47:55,185 aquilo que podemos fazer com elas, 837 00:47:55,205 --> 00:47:58,481 mas o ponto principal não está claro. 838 00:47:58,482 --> 00:48:03,229 Porque agora podemos tornar mais explícito o que esperamos dos dados. 839 00:48:03,229 --> 00:48:06,893 Antes, cada um tinha de escrever as suas próprias ferramentas e *scripts*. 840 00:48:06,894 --> 00:48:10,601 Por isso, é mais visível e podemos discuti-lo. 841 00:48:10,602 --> 00:48:13,641 Mas porque não é sobre o que está errado ou certo, 842 00:48:13,642 --> 00:48:15,870 é acerca de uma expectativa. 843 00:48:15,870 --> 00:48:18,105 Vocês terão diferentes expectativas e debates 844 00:48:18,106 --> 00:48:20,737 acerca de como queremos modelar as coisas na Wikidata 845 00:48:21,246 --> 00:48:23,095 e isto... 846 00:48:23,096 --> 00:48:26,280 O estado atual é apenas um passo na direção 847 00:48:26,281 --> 00:48:28,041 porque agora precisamos 848 00:48:28,042 --> 00:48:31,041 de muito conhecimento especializado para lidarmos com isto. 849 00:48:31,042 --> 00:48:35,721 Precisamos de formas melhores de visualizar esta restrição, 850 00:48:35,722 --> 00:48:38,259 para a transformar, porventura em linguagem natural, 851 00:48:38,259 --> 00:48:40,939 para que as pessoas melhor a possam entender. 852 00:48:40,939 --> 00:48:43,768 Mas não é tanto acerca do errado ou do certo. 853 00:48:44,925 --> 00:48:45,925 (Lydia) Sim. 854 00:48:50,986 --> 00:48:53,893 (Interveniente 5) Para questões de qualidade, só quero fazer eco... 855 00:48:53,894 --> 00:48:57,010 Definitivamente, encontrei muitos dos problemas. Encontrei... 856 00:48:58,838 --> 00:49:02,330 diferenças de opinião entre "instâncias de" versus "subclasse". 857 00:49:02,331 --> 00:49:05,963 Diria, erros, nestas situações. 858 00:49:05,963 --> 00:49:11,521 E tentar encontrá-los tem sido um processo moroso. 859 00:49:11,522 --> 00:49:14,840 O que encontrei foi: "Se eu encontrar itens de grande impressão 860 00:49:14,840 --> 00:49:16,051 que são algo... 861 00:49:16,052 --> 00:49:18,762 e depois usar todas as instâncias das subclasses 862 00:49:18,762 --> 00:49:21,628 para encontrar todas as declarações derivadas disto." 863 00:49:21,628 --> 00:49:26,215 Esta é uma forma muito útil de olhar para estes erros. 864 00:49:26,215 --> 00:49:28,567 Mas eu estava curioso para saber se o Shape Expressions... 865 00:49:29,841 --> 00:49:31,582 se há... 866 00:49:31,583 --> 00:49:35,355 Se isto pode ser usado como ferramenta para ajudar a resolver estas questões. 867 00:49:35,355 --> 00:49:37,074 Mas sim... 868 00:49:40,514 --> 00:49:42,925 (Interveniente 6) Se tem uma pegada estrutural... 869 00:49:45,910 --> 00:49:49,310 Se tem uma pegada estrutural que podemos... que seja falsificável. 870 00:49:49,310 --> 00:49:51,191 Podemos olhar para isso e dizer: "Está errado." 871 00:49:51,192 --> 00:49:52,670 Então sim, podemos fazer isso. 872 00:49:52,671 --> 00:49:56,921 Mas se for só tentar mapeá-lo para objetos do mundo real 873 00:49:56,922 --> 00:49:59,082 então vai precisar de muitos cérebros. 874 00:50:05,768 --> 00:50:08,631 (Interveniente 7) Olá. Pablo Mendes do Siri Knowledge da Apple. 875 00:50:09,154 --> 00:50:12,770 Estamos aqui para descobrir como ajudar o projeto e a comunidade, 876 00:50:12,770 --> 00:50:15,645 mas a Cristina cometeu o erro de perguntar o que queríamos. 877 00:50:16,471 --> 00:50:20,052 (risos) Por isso, penso que uma das coisas que gostaria de ver 878 00:50:20,958 --> 00:50:23,521 gira à volta da verificabilidade, 879 00:50:23,522 --> 00:50:26,372 que é um dos princípios chave do projeto na comunidade. 880 00:50:27,062 --> 00:50:28,590 E confiabilidade. 881 00:50:28,590 --> 00:50:32,412 Nem todas as declarações são iguais, algumas são fortemente disputadas, 882 00:50:32,413 --> 00:50:33,653 outras são fáceis de adivinhar. 883 00:50:33,654 --> 00:50:35,924 A data de nascimento de alguém pode ser verificada, 884 00:50:35,924 --> 00:50:39,082 como viram hoje na *Keynote*, questões de género são mais complicadas. 885 00:50:40,205 --> 00:50:42,130 Podem discutir um pouco do que sabem 886 00:50:42,131 --> 00:50:47,271 nesta área de qualidade de dados, acerca de confiabilidade e de verificabilidade? 887 00:50:51,186 --> 00:50:52,936 (risos) 888 00:50:55,442 --> 00:50:58,138 Se não há muito, gostaria de ver muito mais. (risos) 889 00:51:00,646 --> 00:51:01,646 (Lydia) Sim. 890 00:51:03,734 --> 00:51:06,968 Aparentemente, não temos muito a dizer acerca disso. (risos) 891 00:51:08,754 --> 00:51:12,299 (Andra) Penso que podemos fazer muito, mas tive uma discussão consigo ontem. 892 00:51:12,300 --> 00:51:15,774 O meu exemplo preferido que, soube ontem, foi descontinuado, 893 00:51:15,774 --> 00:51:20,281 é, se forem ao Q2, que é Terra, 894 00:51:20,282 --> 00:51:23,343 existe uma declaração que reivindica que a Terra é plana. 895 00:51:24,183 --> 00:51:26,055 Adoro esse exemplo 896 00:51:26,056 --> 00:51:28,391 porque há uma comunidade por aí que afirma isso 897 00:51:28,392 --> 00:51:30,417 e eles têm recursos verificáveis. 898 00:51:30,418 --> 00:51:32,254 Por isso, penso que seja um caso genuíno. 899 00:51:32,255 --> 00:51:34,641 Não deve ser descontinuado, deve estar na Wikidata. 900 00:51:34,642 --> 00:51:40,385 E penso que o Shape Expressions pode ser fundamental aqui, 901 00:51:40,386 --> 00:51:41,832 porque podem dizer: 902 00:51:41,833 --> 00:51:44,856 "Sim, estou mesmo interessado neste caso de uso", 903 00:51:44,857 --> 00:51:47,129 ou que este é um caso de uso com o qual não concordam. 904 00:51:47,130 --> 00:51:51,059 Mas também pode haver um caso de uso onde dizem: "Estou interessado." 905 00:51:51,059 --> 00:51:53,449 Há este exemplo. Dizem: "Tenho glucose." 906 00:51:53,449 --> 00:51:55,841 E a glucose, se forem um biólogo, 907 00:51:55,842 --> 00:52:00,176 As restrições químicas da molécula de glucose não vos interessam, 908 00:52:00,177 --> 00:52:03,201 apenas... tudo o que seja glucose é o mesmo. 909 00:52:03,202 --> 00:52:05,973 Mas, se forem um químico, arrepiam-se ao ouvir isso. 910 00:52:05,973 --> 00:52:08,191 Têm 200 e tal... 911 00:52:08,191 --> 00:52:10,443 Depois, podem ter Shape Expressions múltiplas. 912 00:52:10,443 --> 00:52:12,721 Vou entrar com... Estou no ponto de vista de um químico, 913 00:52:12,722 --> 00:52:13,887 vou aplicar isso. 914 00:52:13,887 --> 00:52:16,691 E depois, dizem, "sou um caso de uso de um biólogo", 915 00:52:16,691 --> 00:52:18,524 e aplicam essa Shape Expression. 916 00:52:18,524 --> 00:52:20,358 E, quando quiserem colaborar, 917 00:52:20,358 --> 00:52:22,784 deviam falar com o Eric acerca dos mapas ShEx. 918 00:52:24,930 --> 00:52:28,873 Esta jornada está apenas a começar. 919 00:52:28,873 --> 00:52:32,238 Mas acredito que seja muito instrumental nessa área. 920 00:52:34,292 --> 00:52:35,535 (Lydia) Ali. 921 00:52:37,949 --> 00:52:39,168 (risos) 922 00:52:40,597 --> 00:52:46,035 (Interveniente 8) Tive várias ideias para alguns pontos na discussão, 923 00:52:46,035 --> 00:52:50,902 por isso, vou tentar não perder... Tive três ideias, por isso... 924 00:52:52,394 --> 00:52:55,201 Baseado no que o James disse há pouco, 925 00:52:55,202 --> 00:52:59,001 temos um grande problema na Wikidata desde o início 926 00:52:59,002 --> 00:53:01,574 para a ontologia superior. 927 00:53:02,363 --> 00:53:05,339 Falámos acerca disso há dois anos na WikidataCon 928 00:53:05,340 --> 00:53:07,432 e falámos acerca disso na Wikimania. 929 00:53:07,432 --> 00:53:09,818 Sempre que temos um encontro da Wikidata 930 00:53:09,818 --> 00:53:11,656 estamos a falar sobre isso. 931 00:53:11,656 --> 00:53:15,782 Porque é um grande problema que está muito visível: 932 00:53:15,783 --> 00:53:23,118 que entidade é, com que trabalho é, que género é, arte, 933 00:53:23,118 --> 00:53:25,461 são realmente o maior conceito. 934 00:53:26,195 --> 00:53:33,117 E isso é um ponto muito fraco na ontologia global 935 00:53:33,118 --> 00:53:37,453 porque as pessoas tentam fazer limpezas regularmente 936 00:53:38,017 --> 00:53:41,047 e quebram tudo o que está a montante. 937 00:53:42,516 --> 00:53:48,649 Penso que alguns de vocês se devem lembrar do tipo que, em boa-fé, 938 00:53:48,649 --> 00:53:51,785 quebrou todas as cidades do mundo. 939 00:53:51,785 --> 00:53:57,537 Já não eram itens geográficos. Por isso, violações de restrições por todo o lado. 940 00:53:58,720 --> 00:54:00,278 E foi feito em boa fé, 941 00:54:00,278 --> 00:54:03,623 porque ele estava a corrigir um erro num item, 942 00:54:04,170 --> 00:54:05,732 mas quebrou tudo. 943 00:54:06,349 --> 00:54:09,373 Não tenho a certeza de como podemos resolver isso 944 00:54:10,216 --> 00:54:15,709 porque não há, atualmente, nenhuma instituição externa que possamos copiar 945 00:54:15,710 --> 00:54:18,490 porque toda a gente está a trabalhar em... 946 00:54:19,154 --> 00:54:22,041 Se eu for base de dados de artes performativas 947 00:54:22,042 --> 00:54:24,601 limito-me a ir à etiqueta de artes performativas 948 00:54:24,601 --> 00:54:29,361 ou não irei ao conceito filosófico do que é aquela entidade 949 00:54:29,362 --> 00:54:31,201 e isso é, na realidade... 950 00:54:31,202 --> 00:54:34,561 Não conheço nenhuma base de dados que esteja a trabalhar a este nível, 951 00:54:34,562 --> 00:54:36,827 mas esse é o ponto mais fraco da Wikidata. 952 00:54:37,936 --> 00:54:40,812 E, provavelmente, quando falamos de qualidade de dados, 953 00:54:40,812 --> 00:54:44,034 isso é uma grande parte, por isso... 954 00:54:44,034 --> 00:54:48,569 Penso que é o mesmo que afirmamos em... 955 00:54:48,569 --> 00:54:50,452 Desculpem, estou a mudar de assunto, 956 00:54:51,401 --> 00:54:55,774 mas afirmámos, em diferentes sessões acerca de qualidade, 957 00:54:55,774 --> 00:54:59,398 que alguns de nós estão a fazer um bom trabalho de modelação, 958 00:54:59,399 --> 00:55:01,580 estamos a fazer ShEx, estamos a fazer coisas como essa. 959 00:55:01,580 --> 00:55:07,655 As pessoas não o veem na Wikidata, não veem o ShEx, 960 00:55:07,655 --> 00:55:10,392 não veem o WikiProject na página de discussão 961 00:55:10,393 --> 00:55:14,958 e, por vezes, nem veem a página de topo das propriedades 962 00:55:14,958 --> 00:55:19,628 que diz, explicitamente: a) Esta propriedade é usada para isto. 963 00:55:19,628 --> 00:55:23,887 Como na semana passada. Eu adicionei restrições a uma propriedade. 964 00:55:23,888 --> 00:55:28,690 A restrição estava escrita explicitamente na discussão da criação da propriedade. 965 00:55:28,690 --> 00:55:34,548 Eu criei apenas a parte técnica de adicionar a restrição, e alguém: 966 00:55:34,548 --> 00:55:37,182 "O quê? Quebraste todas as minhas edições!" 967 00:55:37,183 --> 00:55:41,542 Ele esteve a usar a propriedade erradamente nos útlimos dois anos. 968 00:55:41,542 --> 00:55:46,868 A propriedade era bastante clara, mas não havia avisos. 969 00:55:46,869 --> 00:55:48,872 É o mesmo no Pink Pony. 970 00:55:48,872 --> 00:55:52,082 Dissemos, na Wikimedia que deviamos tornar o WikiProject mais visível 971 00:55:52,082 --> 00:55:54,719 ou tornar o ShEx mais visível, mas... 972 00:55:54,719 --> 00:55:56,917 E isso foi o que a Cristina disse. 973 00:55:56,917 --> 00:56:02,368 Temos um problema de visibilidade, do que são as soluções. 974 00:56:02,368 --> 00:56:04,242 E, nesta sessão, 975 00:56:04,242 --> 00:56:06,862 estamos todos a falar acerca de como criar mais ShEx, 976 00:56:06,863 --> 00:56:10,727 ou de facilitar o trabalho das pessoas que estão a fazer a limpeza. 977 00:56:11,605 --> 00:56:15,835 Mas, estamos a limpar desde o primeiro dia da Wikidata 978 00:56:15,836 --> 00:56:18,223 e, globalmente, estamos a perder. 979 00:56:19,123 --> 00:56:22,960 Estamos a perder porque, se eu sei que os nomes são complicados, 980 00:56:22,961 --> 00:56:26,162 mas eu sou a única a fazer o trabalho de limpeza... 981 00:56:26,662 --> 00:56:29,671 A pessoa que adicionou nome de *script* em Latim 982 00:56:29,672 --> 00:56:31,584 a todos os investigadores chineses. 983 00:56:32,088 --> 00:56:35,616 Vou demorar meses a limpar isso e não o posso fazer sozinha. 984 00:56:35,616 --> 00:56:38,777 E ele fez um lote maciço. 985 00:56:38,777 --> 00:56:40,241 Por isso, precisamos realmente... 986 00:56:40,242 --> 00:56:44,158 Temos um problema de visibilidade mais do que um problema de ferramentas, 987 00:56:44,158 --> 00:56:45,733 porque temos muitas ferramentas. 988 00:56:45,733 --> 00:56:50,255 (Lydia) Bem, infelizmente mostraram-me um sinal. (risos) 989 00:56:50,256 --> 00:56:52,001 Por isso, precisamos de terminar. 990 00:56:52,001 --> 00:56:53,603 Muito obrigada pelos vossos comentários. 991 00:56:53,603 --> 00:56:56,611 Espero que continuem a debater durante o resto do dia. 992 00:56:56,611 --> 00:56:58,020 Obrigada pelo vosso contributo. 993 00:56:58,359 --> 00:57:03,444 (aplausos)