1 00:00:00,000 --> 00:00:02,310 Качество данных Панельная дискуссия 2 00:00:02,310 --> 00:00:03,945 Клаудиа Мюллер-Бирн, Лукас Веркмейстер, 3 00:00:03,945 --> 00:00:05,945 Хосе Эмилио Лабра Гайо, Кристина Сарасуа, Андра 4 00:00:05,945 --> 00:00:09,476 Приветствую всех на панельной дискуссии, посвящённой качеству данных. 5 00:00:10,288 --> 00:00:13,671 Качество данных имеет большое значение, ведь всё больше и больше людей 6 00:00:13,672 --> 00:00:16,779 полагаются на хорошее качество данных, 7 00:00:16,779 --> 00:00:19,323 о чём мы сегодня и поговорим. 8 00:00:21,229 --> 00:00:26,960 Будет четыре докладчика, которые выступят с небольшими презентациями на темы, 9 00:00:26,960 --> 00:00:29,539 связанные с качеством данных, а далее будут вопросы и ответы. 10 00:00:30,130 --> 00:00:32,234 Начнём с Лукаса. 11 00:00:34,385 --> 00:00:35,385 Спасибо. 12 00:00:35,901 --> 00:00:39,899 Привет, я Лукас, и я начну с краткого обзора 13 00:00:39,899 --> 00:00:43,806 инструментов качества данных, которые уже имеются в Викиданных, 14 00:00:43,807 --> 00:00:46,109 и тех, которые скоро появятся. 15 00:00:46,932 --> 00:00:50,623 Я выделил несколько общих тем: 16 00:00:50,623 --> 00:00:53,761 визуализация ошибок, решаемость проблем, 17 00:00:53,762 --> 00:00:56,322 больше внимания данным с целью выявления проблем, 18 00:00:56,945 --> 00:01:00,206 исправление общих источников ошибок, 19 00:01:00,206 --> 00:01:02,616 обеспечение качества существующих данных, 20 00:01:02,616 --> 00:01:03,966 а также курирование. 21 00:01:05,063 --> 00:01:07,868 Что у нас есть сейчас? 22 00:01:07,868 --> 00:01:09,948 Начнём с ограничения свойств. 23 00:01:10,318 --> 00:01:12,541 Вы наверняка видели это, когда заходили на Викиданные. 24 00:01:12,541 --> 00:01:14,029 Иногда можно видеть эти иконки, 25 00:01:14,530 --> 00:01:17,241 которые проверяют внутреннюю согласованность данных. 26 00:01:17,242 --> 00:01:20,800 Например, если одно событие следует за другим, 27 00:01:20,801 --> 00:01:23,760 то за другим должно последовать и это событие, 28 00:01:23,761 --> 00:01:27,161 элемент WikidataCon, который, похоже, отсутствует. 29 00:01:27,162 --> 00:01:29,740 Это появилось пару дней назад. 30 00:01:30,040 --> 00:01:34,681 Если этого для вас недостаточно, 31 00:01:34,682 --> 00:01:38,080 вы можете ввести любой запрос, используя сервис запросов, 32 00:01:38,081 --> 00:01:39,842 который, конечно, полезен для многих вещей, 33 00:01:39,843 --> 00:01:44,543 но также его можно использовать для поиска ошибок. 34 00:01:44,544 --> 00:01:46,974 Например, если вы заметили какую-то ошибку, 35 00:01:46,975 --> 00:01:49,709 вы можете проверить, есть ли ещё места, 36 00:01:49,710 --> 00:01:51,658 где люди допустили похожие ошибки, 37 00:01:51,658 --> 00:01:53,438 и найти их с помощью сервиса запросов. 38 00:01:53,439 --> 00:01:55,199 Также можно совместить эти два инструмента 39 00:01:55,199 --> 00:01:57,874 и искать нарушения ограничений, 40 00:01:57,875 --> 00:02:01,240 например, нарушения в какой-то области 41 00:02:01,241 --> 00:02:03,762 или нужном вам Вики-проекте, 42 00:02:03,762 --> 00:02:06,828 хотя результаты пока неполные, к сожалению. 43 00:02:08,422 --> 00:02:09,877 Оценивание правок. 44 00:02:10,690 --> 00:02:12,666 Я думаю, это из последних изменений. 45 00:02:12,667 --> 00:02:16,217 Также можете добавить в свой список наблюдения автоматическую оценку: 46 00:02:16,217 --> 00:02:20,249 сделана ли правка с добрыми намерениями или нет, 47 00:02:20,250 --> 00:02:22,312 нанесёт ли она ущерб или нет. 48 00:02:22,313 --> 00:02:24,205 Думаю, здесь два направления. 49 00:02:24,206 --> 00:02:25,686 Если хотите, вы можете 50 00:02:25,687 --> 00:02:28,458 сосредоточиться на поиске правок с добрыми намерениями, 51 00:02:28,458 --> 00:02:29,828 наносящих ущерб. 52 00:02:29,899 --> 00:02:32,523 Если вы дружелюбны и вежливы, 53 00:02:32,524 --> 00:02:37,121 можете написать этим редакторам: «Спасибо за ваш вклад, 54 00:02:37,122 --> 00:02:40,560 вот, как это следует делать, но всё равно спасибо». 55 00:02:40,561 --> 00:02:42,186 Если вы не хотите так делать, 56 00:02:42,187 --> 00:02:44,132 можно найти правки с недобрыми намерениями, 57 00:02:44,132 --> 00:02:45,132 наносящие ущерб, 58 00:02:45,132 --> 00:02:46,293 и откатить их назад. 59 00:02:47,544 --> 00:02:49,761 Подобно этому есть рейтинг сущностей. 60 00:02:49,762 --> 00:02:52,590 Вместо оценивания правки, последующего за ней изменения, 61 00:02:52,591 --> 00:02:53,904 вы оцениваете ревизию в целом. 62 00:02:53,904 --> 00:02:56,483 Я думаю, это такой же инструмент измерения качества, 63 00:02:56,483 --> 00:02:59,863 о котором говорила Лидия в начале конференции. 64 00:03:00,372 --> 00:03:04,569 Вот здесь скрипт, который ставит оценку от одного до пяти. 65 00:03:04,570 --> 00:03:08,176 Он оценивает качество текущего элемента. 66 00:03:10,043 --> 00:03:12,538 Инструмент проверки первичных источников предназначен 67 00:03:12,538 --> 00:03:14,857 для любой базы данных, которую вы хотите импортировать, 68 00:03:14,857 --> 00:03:18,374 но качество её данных не настолько высоко, чтобы напрямую добавлять её в Викиданные, 69 00:03:18,374 --> 00:03:20,335 поэтому вы добавляете базу в этот инструмент, 70 00:03:20,336 --> 00:03:22,956 после чего люди могут решить, 71 00:03:22,956 --> 00:03:26,024 добавлять или не добавлять отдельные утверждения. 72 00:03:28,595 --> 00:03:30,363 Отображение координат в виде карт -- 73 00:03:30,363 --> 00:03:31,901 в основном, функция для удобства, 74 00:03:31,901 --> 00:03:33,588 но она также полезна для контроля качества. 75 00:03:33,588 --> 00:03:36,937 Например, если вы видите, что здесь должен быть офис Викимедиа Германии, 76 00:03:36,938 --> 00:03:39,400 а координаты где-то в Индийском океане, 77 00:03:39,401 --> 00:03:41,529 то вы понимаете, что это неверный адрес, 78 00:03:41,530 --> 00:03:44,790 и вам легче это заметить, чем если бы у вас были только цифры. 79 00:03:46,382 --> 00:03:49,576 Этот инструмент -- индикатор относительной полноты. 80 00:03:49,577 --> 00:03:52,480 Вот эта маленькая иконка здесь, 81 00:03:53,007 --> 00:03:55,652 которая сообщает, насколько полно описан конкретный элемент, 82 00:03:55,652 --> 00:03:57,613 и каких свойств не хватает. 83 00:03:57,614 --> 00:03:59,769 Это очень полезно, если вы редактируете элемент 84 00:03:59,769 --> 00:04:03,172 и не очень ориентируетесь в данной сфере 85 00:04:03,172 --> 00:04:05,661 и не знаете, какие свойства нужно указывать, 86 00:04:05,662 --> 00:04:08,230 тогда этот инструмент будет очень полезен. 87 00:04:09,604 --> 00:04:11,602 Также мы используем инструмент Shape Expressions. 88 00:04:11,602 --> 00:04:15,624 Думаю, Андра или Хосе расскажут об этом больше, 89 00:04:15,624 --> 00:04:20,508 но, по сути, это очень мощный способ сравнения имеющихся данных со схемой, 90 00:04:20,508 --> 00:04:22,058 например, какое утверждение 91 00:04:22,058 --> 00:04:23,470 должны иметь определённые сущности, 92 00:04:23,470 --> 00:04:25,229 с какими сущностями они должны быть связаны 93 00:04:25,229 --> 00:04:26,229 и как должны выглядеть. 94 00:04:26,229 --> 00:04:29,374 Таким образом вы сможете находить проблемы. 95 00:04:30,366 --> 00:04:32,361 Я думаю... Нет, ещё не всё. 96 00:04:32,362 --> 00:04:34,321 Integraality, или панель свойств. 97 00:04:34,322 --> 00:04:36,773 На ней видны данные, которые у вас уже есть. 98 00:04:36,774 --> 00:04:39,147 Например, эти данные из Вики-проекта о красных пандах, 99 00:04:39,657 --> 00:04:41,181 и вы видите, 100 00:04:41,181 --> 00:04:43,561 что у большинства красных панд известен пол, 101 00:04:43,561 --> 00:04:46,854 дата рождения зависит от зоопарка, 102 00:04:46,854 --> 00:04:50,255 и у нас почти нет погибших панд, что замечательно, 103 00:04:50,346 --> 00:04:51,346 (смех) 104 00:04:51,437 --> 00:04:52,600 потому что они такие милые. 105 00:04:53,699 --> 00:04:55,654 Так что это тоже полезно. 106 00:04:56,377 --> 00:04:59,185 Теперь о том, что ожидается. 107 00:04:59,889 --> 00:05:03,784 Wikidata Bridge, ранее известный как client editing 108 00:05:03,785 --> 00:05:07,076 для редактирования Викиданных прямо из карточек Википедии. 109 00:05:07,675 --> 00:05:11,395 Это, с одной стороны, позволит лучше контролировать данные, 110 00:05:11,395 --> 00:05:13,441 так как их сможет увидеть большее число людей, 111 00:05:13,441 --> 00:05:15,851 и, мы надеемся, будет способствовать 112 00:05:15,851 --> 00:05:18,795 более частому использованию Викиданных в Википедии, 113 00:05:18,841 --> 00:05:20,920 и это значит, большее число людей сможет заметить, 114 00:05:20,921 --> 00:05:23,547 что, например, некоторые данные устарели и должны быть обновлены, 115 00:05:23,547 --> 00:05:27,000 чем если бы они видели эти данные только в Викиданных. 116 00:05:28,630 --> 00:05:30,656 Также есть испорченные ссылки. 117 00:05:30,657 --> 00:05:33,959 Идея в том, что если вы редактируете значение утверждения, 118 00:05:34,683 --> 00:05:37,279 вы также можете обновить и ссылки, 119 00:05:37,280 --> 00:05:39,373 если это не просто опечатка или что-то ещё. 120 00:05:39,897 --> 00:05:43,662 Эти испорченные ссылки сигнализируют редакторам 121 00:05:43,663 --> 00:05:49,756 и дают возможность увидеть, какие другие правки были сделаны, 122 00:05:49,756 --> 00:05:52,641 где отредактировали значение утверждения, но не обновили ссылку, 123 00:05:52,641 --> 00:05:55,147 и вы можете всё подредактировать 124 00:05:55,147 --> 00:05:59,566 и решить, следует ли ещё что-то делать, 125 00:05:59,566 --> 00:06:02,796 или всё в порядке, и ссылку обновлять не нужно. 126 00:06:03,543 --> 00:06:05,756 Перейдём к подписанным утверждениям. 127 00:06:05,756 --> 00:06:09,336 Я думаю, это связано с тем опасением, 128 00:06:09,336 --> 00:06:12,355 что некоторые источники данных... 129 00:06:13,881 --> 00:06:16,462 Есть утверждение, на которое ссылаются, например, через ЮНЕСКО 130 00:06:16,462 --> 00:06:17,792 или какое-то другое учреждение, 131 00:06:17,792 --> 00:06:20,382 а потом кто-то неожиданно вносит вандальные правки, 132 00:06:20,382 --> 00:06:22,306 и они переживают, что это будет выглядеть, 133 00:06:22,827 --> 00:06:26,992 как будто организация, например, ЮНЕСКО, принимает эти правки. 134 00:06:26,993 --> 00:06:28,706 В случае с подписанными утверждениями, 135 00:06:28,706 --> 00:06:31,488 они могут криптографически подписать эту ссылку, 136 00:06:31,488 --> 00:06:33,562 и это не помешает её редактированию, 137 00:06:34,169 --> 00:06:37,284 но если кто-то внесёт в утверждение вандальные правки 138 00:06:37,284 --> 00:06:40,255 или любые другие, подпись будет недействительна, 139 00:06:40,255 --> 00:06:43,401 и это уже не совсем то, что утверждает организация. 140 00:06:43,402 --> 00:06:45,035 Возможно, это хорошая правка, 141 00:06:45,035 --> 00:06:47,065 и нужно просто переподписать новое утверждение, 142 00:06:47,065 --> 00:06:49,851 но, возможно, правку следует отменить. 143 00:06:51,203 --> 00:06:54,166 Думаю, это будет увлекательно. 144 00:06:54,166 --> 00:06:56,846 Citoid -- удивительная система, которая есть в Википедии, 145 00:06:57,379 --> 00:07:01,340 где вы можете вставить URL, идентификатор или ISBN 146 00:07:01,340 --> 00:07:04,759 или идентификатор Викиданных, в общем, что угодно в визуальный редактор, 147 00:07:05,260 --> 00:07:08,241 и это трансформируется в красиво отформатированную ссылку, 148 00:07:08,242 --> 00:07:11,269 которая содержит все нужные вам данные, и ей легко пользоваться. 149 00:07:11,269 --> 00:07:14,337 Для сравнения, если я хочу добавить ссылку в Викиданных, 150 00:07:14,338 --> 00:07:18,801 я обычно должен добавить URL ссылки, название, строку с именем автора, 151 00:07:18,802 --> 00:07:20,449 место и дату публикации, 152 00:07:20,450 --> 00:07:24,141 даты получения -- по крайней мере, всё это -- 153 00:07:24,141 --> 00:07:25,141 и это очень утомительно, 154 00:07:25,141 --> 00:07:29,261 а интеграция Citoid в Викибазу должна помочь в этом. 155 00:07:30,245 --> 00:07:33,604 Думаю, у меня всё. 156 00:07:33,604 --> 00:07:36,400 Сейчас передаю слово Кристине. 157 00:07:37,510 --> 00:07:40,581 (аплодисменты) 158 00:07:40,581 --> 00:07:43,326 Как можно улучшить управление качеством данных? 159 00:07:43,711 --> 00:07:45,471 Привет, я Кристина. 160 00:07:45,472 --> 00:07:47,672 Я научный сотрудник Цюрихского университета 161 00:07:47,673 --> 00:07:51,417 и активный член швейцарского Вики-сообщества. 162 00:07:52,698 --> 00:07:57,901 Когда мы вместе с Клаудией Мюллер-Бирн отправляли наш доклад на WikidataCon, 163 00:07:57,902 --> 00:08:00,410 мы хотели продолжить обсуждение, 164 00:08:00,411 --> 00:08:02,424 начатое в этом году 165 00:08:02,424 --> 00:08:07,442 на семинаре по качеству данных, а также на нескольких сессиях Викимании. 166 00:08:07,442 --> 00:08:10,535 В своём выступлении мы, в основном, поделимся некоторыми соображениями 167 00:08:10,536 --> 00:08:14,432 как сообщества, так и нашими, 168 00:08:14,432 --> 00:08:16,560 и продолжим обсуждение. 169 00:08:16,561 --> 00:08:20,065 Нам хотелось бы и дальше активно общаться с вами. 170 00:08:21,557 --> 00:08:23,371 Мы считаем, что очень важно 171 00:08:23,372 --> 00:08:27,580 постоянно спрашивать всех пользователей сообщества 172 00:08:27,581 --> 00:08:32,240 о том, что им действительно нужно, какие у них проблемы с качеством данных, 173 00:08:32,240 --> 00:08:35,000 не только редакторов но и людей, которые пишут код, 174 00:08:35,000 --> 00:08:36,241 либо пользуются данными, 175 00:08:36,242 --> 00:08:38,434 а также исследователей, которые фактически используют 176 00:08:38,434 --> 00:08:40,800 всю историю редактирования для анализа происходящего. 177 00:08:42,367 --> 00:08:46,101 Мы сделали обзор примерно 80-ти инструментов, 178 00:08:46,101 --> 00:08:48,386 существующих в Викиданных, 179 00:08:48,431 --> 00:08:52,380 и привели их в соответствие с разными показателями качества данных. 180 00:08:52,380 --> 00:08:54,360 Мы увидели, что на самом деле 181 00:08:54,361 --> 00:08:57,681 многие инструменты отслеживают полноту, 182 00:08:57,681 --> 00:09:02,820 а также некоторые из них поддерживают взаимосвязи между данными. 183 00:09:02,820 --> 00:09:08,442 Есть потребность в инструментах, оценивающих разнообразие данных -- 184 00:09:08,443 --> 00:09:12,824 то, что мы можем иметь в Викиданных, 185 00:09:12,824 --> 00:09:15,958 в особенности, этот принцип разработки Викиданных, 186 00:09:15,959 --> 00:09:17,901 в котором мы можем иметь множественность -- 187 00:09:17,902 --> 00:09:20,308 разные утверждения с разными значениями 188 00:09:20,784 --> 00:09:22,236 из разных источников. 189 00:09:22,236 --> 00:09:24,921 Поскольку это вторичный источник, у нас нет инструментов, 190 00:09:24,922 --> 00:09:27,750 сообщающих, сколько существует множественных утверждений, 191 00:09:27,751 --> 00:09:30,889 сколько из них мы можем улучшить и каким образом, 192 00:09:30,890 --> 00:09:32,833 и мы также точно не знаем, 193 00:09:32,833 --> 00:09:35,538 в чём причина этой множественности. 194 00:09:36,491 --> 00:09:39,201 На этих собраниях сообщества 195 00:09:39,201 --> 00:09:43,084 мы обсуждали проблемы, всё ещё требующие внимания. 196 00:09:43,084 --> 00:09:46,499 Например, краудсорсинговые сообщества -- 197 00:09:46,499 --> 00:09:49,293 это очень хорошо, потому что разные люди работают 198 00:09:49,293 --> 00:09:51,833 с разными частями данных или графа, 199 00:09:51,834 --> 00:09:54,615 у всех людей разные фундаментальные знания. 200 00:09:54,616 --> 00:09:59,161 Но на самом деле очень трудно достичь однородности, 201 00:09:59,162 --> 00:10:04,920 потому что люди используют разные свойства по-разному, 202 00:10:04,920 --> 00:10:08,401 и у них разные ожидания от описаний сущностей. 203 00:10:09,003 --> 00:10:12,721 Люди также сказали, что им нужно больше инструментов, 204 00:10:12,722 --> 00:10:16,000 которые дают лучший обзор глобального статуса сущностей, 205 00:10:16,000 --> 00:10:20,733 показывают, каких сущностей не хватает с точки зрения полноты, 206 00:10:20,733 --> 00:10:26,121 а также над чем сейчас работают люди. 207 00:10:26,121 --> 00:10:30,516 Они также многократно упоминают более тесное сотрудничество 208 00:10:30,517 --> 00:10:33,311 не только между разными языками, но и Вики-проектами 209 00:10:33,311 --> 00:10:35,571 и различным платформами Викимедии. 210 00:10:35,571 --> 00:10:40,029 Мы опубликовали все комментарии, которые услышали во время этих обсуждений. 211 00:10:40,029 --> 00:10:42,959 Вы можете посмотреть их, пройдя по ссылкам в Etherpad, 212 00:10:42,959 --> 00:10:46,162 а также на странице Викимании. 213 00:10:46,162 --> 00:10:48,481 Некоторые новые решения 214 00:10:48,481 --> 00:10:53,001 заключались в обмене лучшими практиками, 215 00:10:53,001 --> 00:10:55,762 которые реализуются в разных Вики-проектах, 216 00:10:55,762 --> 00:11:01,238 но также людям нужны инструменты, помогающие организовать работу в командах 217 00:11:01,239 --> 00:11:03,845 или, по крайней мере, понять, кто над этим работает. 218 00:11:03,845 --> 00:11:07,815 Также люди упоминали, что они хотят больше примеров 219 00:11:07,816 --> 00:11:12,019 и шаблонов, которые помогут в работе. 220 00:11:12,946 --> 00:11:14,163 У нас есть контакты 221 00:11:14,163 --> 00:11:18,721 с организациями открытых государственных данных 222 00:11:18,722 --> 00:11:20,068 и, в частности, 223 00:11:20,068 --> 00:11:23,102 я поддерживаю контакты с кантоном и городом Цюрих. 224 00:11:23,102 --> 00:11:26,207 Они очень заинтересованы в Викиданных, 225 00:11:26,207 --> 00:11:29,896 потому что хотят, чтобы их данные были доступны для всех 226 00:11:29,897 --> 00:11:33,681 в таком месте, где люди могут ознакомиться c этими данными. 227 00:11:33,682 --> 00:11:36,550 Для них было бы действительно интересно 228 00:11:36,551 --> 00:11:38,600 иметь какие-то качественные показатели 229 00:11:38,600 --> 00:11:41,082 как в Вики, они уже есть, 230 00:11:41,082 --> 00:11:42,801 но и в результатах SPARQL, 231 00:11:42,802 --> 00:11:46,066 чтобы знать, доверять ли данным, полученным от сообщества. 232 00:11:46,067 --> 00:11:48,230 Они также хотят знать, 233 00:11:48,230 --> 00:11:51,417 какие из их наборов данных полезны для Викиданных, 234 00:11:51,418 --> 00:11:53,091 и чтобы был такой инструмент, 235 00:11:53,091 --> 00:11:56,041 который поможет им оценивать это автоматически. 236 00:11:56,041 --> 00:11:59,066 Им также нужна какая-то методология или инструмент, 237 00:11:59,067 --> 00:12:01,404 который бы помог им решить, 238 00:12:01,404 --> 00:12:03,644 импортировать свои данные или связывать их с Викиданными, 239 00:12:03,644 --> 00:12:05,994 поскольку в некоторых случаях у них есть свои наборы 240 00:12:05,994 --> 00:12:07,137 связанных открытых данных, 241 00:12:07,138 --> 00:12:09,746 поэтому они не знают, публиковать эти данные 242 00:12:09,746 --> 00:12:13,424 или создавать в наборах данных ссылки на Викиданные 243 00:12:13,425 --> 00:12:14,425 и наоборот. 244 00:12:14,950 --> 00:12:20,044 Они также хотят знать, какие элементы Викиданных ссылаются на их сайты. 245 00:12:20,044 --> 00:12:22,790 Когда они делают такой запрос, 246 00:12:22,790 --> 00:12:24,848 он остаётся без ответа с истёкшим временем ожидания, 247 00:12:24,849 --> 00:12:28,181 поэтому, возможно, нам действительно стоит создавать больше инструментов, 248 00:12:28,181 --> 00:12:32,240 которые помогут им получить ответы на их вопросы. 249 00:12:33,148 --> 00:12:36,208 Кроме того, 250 00:12:36,208 --> 00:12:38,491 нам, вики-исследователям, 251 00:12:38,491 --> 00:12:42,023 тоже иногда не хватает информации в описаниях изменений. 252 00:12:42,024 --> 00:12:44,953 Я помню, что когда мы делали какую-то работу, 253 00:12:44,954 --> 00:12:47,479 чтобы понять различное поведение 254 00:12:47,479 --> 00:12:50,319 редакторов, ботов или анонимных пользователей 255 00:12:50,319 --> 00:12:53,403 с помощью инструментов, 256 00:12:53,403 --> 00:12:56,154 нам действительно не хватало, например, 257 00:12:56,154 --> 00:13:01,112 стандартного способа отслеживания использования этих инструментов. 258 00:13:01,113 --> 00:13:03,224 Есть несколько инструментов, которые уже делают это, 259 00:13:03,224 --> 00:13:05,230 например, PetScan и многие другие, 260 00:13:05,230 --> 00:13:08,860 но, возможно, в сообществе мы должны больше обсуждать, 261 00:13:08,860 --> 00:13:13,611 как фиксировать более точное происхождение данных. 262 00:13:14,169 --> 00:13:16,111 Далее, мы полагаем, 263 00:13:16,111 --> 00:13:20,801 что нужно подумать о более конкретных показателях качества данных, 264 00:13:20,802 --> 00:13:24,961 относящихся к связанным данным, а не ко всем типам данных, 265 00:13:24,962 --> 00:13:28,602 поэтому мы разрабатываем комплекс мер 266 00:13:28,602 --> 00:13:31,752 для получения доступа к приросту информации по ссылкам, 267 00:13:31,752 --> 00:13:33,881 подразумевая то, 268 00:13:33,882 --> 00:13:36,681 что когда мы связываем Викиданные с другими наборами данных, 269 00:13:36,682 --> 00:13:38,201 мы также должны думать о том, 270 00:13:38,202 --> 00:13:41,921 сколько сущностей получается в классификации, 271 00:13:41,922 --> 00:13:45,601 описании и в словарях, которыми они пользуются. 272 00:13:45,602 --> 00:13:51,041 Просто для примера, что я имею в виду: 273 00:13:51,042 --> 00:13:54,269 в нашем случае это будут Викиданные 274 00:13:54,270 --> 00:13:57,771 или внешний набор данных, который ссылается на Викиданные. 275 00:13:57,772 --> 00:14:00,487 У нас есть сущность для человека по имени Наташа Ной, 276 00:14:00,487 --> 00:14:02,601 у нас есть принадлежность и другие вещи, 277 00:14:02,602 --> 00:14:05,239 а затем мы ссылаемся на внешний источник, 278 00:14:05,240 --> 00:14:08,919 и эта сущность с таким же именем, но значение одно и то же. 279 00:14:08,920 --> 00:14:12,889 Лучше сослаться на сущность с другим действительным именем, 280 00:14:12,889 --> 00:14:16,881 потому что имя этого человека может быть написано двумя способами, 281 00:14:16,882 --> 00:14:19,714 а также на другую информацию, отсутствующую в Викиданных 282 00:14:19,715 --> 00:14:21,760 или других наборах данных. 283 00:14:22,390 --> 00:14:24,652 Лучше даже то, 284 00:14:24,653 --> 00:14:27,770 что мы рассматриваем целевой набор данных, 285 00:14:27,770 --> 00:14:31,392 что также существуют новые способы классификации информации. 286 00:14:31,393 --> 00:14:35,354 Не только то, что это человек, но в другом наборе данных 287 00:14:35,355 --> 00:14:38,061 сообщается, что это женщина, или другая информация, 288 00:14:38,061 --> 00:14:39,526 с которой классифицируется сущность. 289 00:14:39,526 --> 00:14:43,401 В другом наборе данных используются другие словари, 290 00:14:43,402 --> 00:14:46,588 и это помогает при поиске информации. 291 00:14:48,291 --> 00:14:51,233 Мы также считаем, 292 00:14:51,234 --> 00:14:55,809 что можем более наглядно представлять федеративные запросы, 293 00:14:55,810 --> 00:15:00,448 потому что по журналу запросов, предоставленному Малышевым и др., 294 00:15:01,285 --> 00:15:04,301 мы видим, что на самом деле среди органических запросов 295 00:15:04,302 --> 00:15:06,921 число федеративных запросов очень небольшое. 296 00:15:06,922 --> 00:15:09,151 На самом деле, федерация является 297 00:15:09,151 --> 00:15:12,776 одним из ключевых преимуществ наличия связанных данных, 298 00:15:12,802 --> 00:15:16,903 так что, возможно, сообществу или людям, которые пользуются Викиданными, 299 00:15:16,903 --> 00:15:18,898 тоже нужно больше примеров. 300 00:15:18,898 --> 00:15:22,666 Если мы посмотрим на список используемых точек доступа, 301 00:15:22,667 --> 00:15:25,401 он будет неполным, у нас есть намного больше. 302 00:15:25,402 --> 00:15:30,479 Эти данные были проанализированы по запросам до марта 2018 года, 303 00:15:30,480 --> 00:15:34,807 но мы должны проверить список имеющихся объединённых точек доступа 304 00:15:34,808 --> 00:15:37,048 и посмотреть, действительно ли мы их используем. 305 00:15:37,813 --> 00:15:40,361 У меня есть два вопроса к зрителям, 306 00:15:40,361 --> 00:15:43,081 которые, возможно, мы впоследствии можем использовать для обсуждения: 307 00:15:43,081 --> 00:15:46,001 какие, на ваш взгляд, проблемы с качеством данных нужно рассмотреть, 308 00:15:46,002 --> 00:15:47,412 учитывая ваши потребности, 309 00:15:47,412 --> 00:15:50,401 а также, где вам нужно больше автоматизации -- 310 00:15:50,402 --> 00:15:52,943 при редактировании или патрулировании? 311 00:15:53,866 --> 00:15:55,146 Это всё, большое спасибо. 312 00:15:55,779 --> 00:15:57,527 (аплодисменты) 313 00:16:04,091 --> 00:16:05,538 WikidataCon 2019 Викиданные и языки 314 00:16:05,538 --> 00:16:07,603 Визуализация схемы сущности и авторские инструменты 315 00:16:07,603 --> 00:16:10,105 (Хосе Эмилио Лабра) Я расскажу о некоторых инструментах, 316 00:16:10,105 --> 00:16:12,606 которые мы разработали, 317 00:16:12,606 --> 00:16:15,536 связанных с Shape Expressions. 318 00:16:15,536 --> 00:16:19,371 Об этом я буду говорить. Меня зовут Хосе Эмилио Лабра. 319 00:16:19,371 --> 00:16:23,215 Все эти инструменты были разработаны разными людьми, 320 00:16:23,920 --> 00:16:26,780 в основном все они связаны с сообществом W3C ShEx, 321 00:16:26,780 --> 00:16:29,481 или сообществом Shape Expressions. 322 00:16:30,144 --> 00:16:36,081 Первый инструмент -- RDFShape, это общий инструмент, 323 00:16:36,082 --> 00:16:40,681 потому что Shape Expressions используется не только для Викиданных, 324 00:16:40,682 --> 00:16:44,168 это язык для проверки RDF в целом. 325 00:16:44,168 --> 00:16:47,568 Этот инструмент был разработан в основном мной, 326 00:16:47,568 --> 00:16:50,880 и это инструмент для проверки RDF. 327 00:16:50,881 --> 00:16:55,139 Если вы хотите узнать о RDF или проверить RDF 328 00:16:55,140 --> 00:16:58,621 или точки доступа SPARQL не только в Викиданных, 329 00:16:58,622 --> 00:17:00,891 я советую вам пользоваться этим инструментом. 330 00:17:00,891 --> 00:17:03,255 В том числе и для обучения. 331 00:17:03,255 --> 00:17:05,640 Я преподаю в университете 332 00:17:05,641 --> 00:17:09,151 и пользуюсь им для обучения RDF в своём веб-курсе по семантике. 333 00:17:09,161 --> 00:17:12,121 Если хотите изучать RDF, это хороший инструмент. 334 00:17:13,033 --> 00:17:17,598 Например, это визуализация RDF-графа с помощью этого инструмента. 335 00:17:18,587 --> 00:17:22,643 Но прежде чем приехать сюда, в прошлом месяце 336 00:17:22,643 --> 00:17:28,441 я специально начал использовать RDFShape для работы с Викиданными. 337 00:17:28,443 --> 00:17:33,082 Инструмент называется WikiShape, и вчера я подарил его Викиданным. 338 00:17:33,082 --> 00:17:34,441 Что я сделал? 339 00:17:34,442 --> 00:17:39,228 Я удалил всё, что не связано с Викиданными, 340 00:17:39,228 --> 00:17:42,912 добавил кое-что жёстко закодированное, 341 00:17:42,912 --> 00:17:44,802 например, точку доступа SPARQL. 342 00:17:44,802 --> 00:17:49,041 Но теперь меня попросили сделать это и для Викибазы. 343 00:17:49,042 --> 00:17:52,000 Это очень легко. 344 00:17:52,760 --> 00:17:56,280 Этот инструмент WikiShape достаточно новый. 345 00:17:57,015 --> 00:17:59,843 Я думаю, что многие его функции работают, 346 00:17:59,844 --> 00:18:02,468 но некоторые, возможно, не работают, 347 00:18:02,469 --> 00:18:04,581 и если вы попробуете его и захотите что-то улучшить, 348 00:18:04,581 --> 00:18:06,281 пожалуйста, сообщите мне. 349 00:18:06,281 --> 00:18:12,680 Здесь у нас скриншоты [неразборчиво], но давайте попробуем. 350 00:18:15,385 --> 00:18:17,003 Давайте посмотрим, работает ли он. 351 00:18:17,003 --> 00:18:20,070 Во-первых, я должен выйти из... 352 00:18:22,453 --> 00:18:23,453 Здесь. 353 00:18:24,226 --> 00:18:28,324 Хорошо. Вот этот инструмент. 354 00:18:28,324 --> 00:18:29,844 С помощью него вы можете, 355 00:18:29,845 --> 00:18:35,275 например, проверить схемы сущностей. 356 00:18:35,276 --> 00:18:38,611 Например, существует новое пространство имён, начинающееся с «Е», 357 00:18:38,612 --> 00:18:44,805 и здесь, если вы начнёте писать, например, «человек»... 358 00:18:44,806 --> 00:18:48,812 Когда вы пишете, автозаполнение позволяет проверить, 359 00:18:48,812 --> 00:18:52,001 например, существуют ли выражения формы для людей, 360 00:18:52,790 --> 00:18:55,937 и вот здесь появляются выражения формы. 361 00:18:55,938 --> 00:18:59,841 Как видите, в этом редакторе есть подсветка синтаксиса. 362 00:18:59,842 --> 00:19:04,559 Возможно, экран очень маленький. 363 00:19:05,676 --> 00:19:07,590 Попробую увеличить. 364 00:19:09,194 --> 00:19:10,973 Может, сейчас лучше видно. 365 00:19:10,973 --> 00:19:14,241 Это редактор с подсветкой синтаксиса. 366 00:19:14,241 --> 00:19:17,851 Для редактора используется тот же исходный код, 367 00:19:17,851 --> 00:19:19,641 что и для службы запросов Викиданных. 368 00:19:19,642 --> 00:19:23,960 Так, например, если вы наведёте мышкой сюда, 369 00:19:23,961 --> 00:19:27,961 он покажет вам метки разных свойств. 370 00:19:27,962 --> 00:19:31,298 Я думаю, это очень полезно, потому что сейчас, 371 00:19:32,588 --> 00:19:38,602 схемы сущностей в Викиданных -- это просто текст, 372 00:19:38,602 --> 00:19:42,493 и я думаю, этот редактор намного лучше, потому что у него есть автозаполнение, 373 00:19:42,494 --> 00:19:43,743 и он также имеет... 374 00:19:43,744 --> 00:19:48,241 Если вы, например, хотите добавить ограничение, 375 00:19:48,241 --> 00:19:51,570 вы пишете *wdt:*, 376 00:19:51,570 --> 00:19:56,884 а затем начинаете писать *auth*, нажимаете *Ctrl+Space*, 377 00:19:56,884 --> 00:19:58,922 и он предлагает разные варианты. 378 00:19:58,922 --> 00:20:02,388 Это похоже на службу запросов Викиданных, 379 00:20:02,389 --> 00:20:06,445 но специально для выражений формы. 380 00:20:06,445 --> 00:20:11,975 Так как я думаю, что создание выражений формы 381 00:20:11,976 --> 00:20:15,841 не сложнее, чем написание SPARQL-запросов. 382 00:20:15,842 --> 00:20:21,255 Хотя некоторые думают, что это примерно одинаково по сложности. 383 00:20:22,278 --> 00:20:26,296 Я думаю, это проще, потому что Shape Expressions 384 00:20:26,296 --> 00:20:31,241 был создан с целью облегчить работу. 385 00:20:31,242 --> 00:20:35,001 Первое, что у вас есть -- это редактор 386 00:20:35,001 --> 00:20:36,620 для выражений формы. 387 00:20:37,371 --> 00:20:41,467 Здесь есть возможность, например, визуализации. 388 00:20:41,468 --> 00:20:44,801 Если у вас есть какое-то выражение формы, например... 389 00:20:44,802 --> 00:20:49,386 Думаю, *written work* -- хороший пример, 390 00:20:49,386 --> 00:20:53,300 поскольку в нём есть взаимосвязь между разными сущностями. 391 00:20:54,823 --> 00:20:58,160 Вот UML-визуализация для *written work*. 392 00:20:58,161 --> 00:21:02,090 Здесь легко увидеть разные свойства. 393 00:21:02,790 --> 00:21:06,794 Когда вы делаете это совместно с несколькими людьми, 394 00:21:06,795 --> 00:21:09,216 они находят ошибки в своих выражениях формы, 395 00:21:09,217 --> 00:21:12,988 потому что так можно легко найти недостающие свойства. 396 00:21:13,588 --> 00:21:15,771 Есть ещё одна возможность проверки, 397 00:21:15,772 --> 00:21:19,520 кажется, у меня она вот здесь. 398 00:21:20,496 --> 00:21:25,285 Это было на какой-то вкладке, возможно, я закрыл её. 399 00:21:26,267 --> 00:21:30,988 Но вы можете, например, нажать *Validate entities*. 400 00:21:32,308 --> 00:21:34,232 Например, 401 00:21:35,404 --> 00:21:41,921 Q42 сравнить с E42, схемой для авторов. 402 00:21:42,818 --> 00:21:46,180 Думаю, можно попробовать со схемой для людей. 403 00:21:49,050 --> 00:21:50,050 А потом... 404 00:21:50,688 --> 00:21:56,365 Это SPARQL-запрос, и он занимает какое-то время, 405 00:21:56,365 --> 00:21:59,134 например, сейчас сбой в сети, но... 406 00:21:59,657 --> 00:22:01,580 Вы можете попробовать. 407 00:22:02,759 --> 00:22:07,026 Давайте расскажем о других инструментах. 408 00:22:07,026 --> 00:22:12,353 Если хотите попробовать и у вас есть предложения, дайте мне знать. 409 00:22:13,133 --> 00:22:15,540 Продолжим презентацию. 410 00:22:18,923 --> 00:22:20,233 Это WikiShape. 411 00:22:23,800 --> 00:22:26,509 Как я уже говорил, 412 00:22:27,681 --> 00:22:34,157 Редактор Shape Expressions -- независимый проект на GitHub. 413 00:22:35,605 --> 00:22:37,472 Вы можете использовать его в своём проекте. 414 00:22:37,472 --> 00:22:41,036 Если хотите использовать инструмент Shape Expressions, 415 00:22:41,036 --> 00:22:45,635 вы можете просто встроить его в любой другой проект, 416 00:22:45,636 --> 00:22:48,235 его можно найти на GitHub, и им можно пользоваться. 417 00:22:48,868 --> 00:22:51,970 Тот же автор, один из моих учеников, 418 00:22:52,684 --> 00:22:55,704 также создал редактор для Shape Expressions, 419 00:22:55,704 --> 00:22:57,799 вдохновившись службой запросов Викиданных. 420 00:23:00,682 --> 00:23:05,103 Этот редактор более наглядный для SPARQL-запросов, 421 00:23:05,104 --> 00:23:07,135 куда вы можете загрузить подобные вещи. 422 00:23:07,136 --> 00:23:09,123 Это снимок экрана. 423 00:23:09,123 --> 00:23:12,662 Как видите, выражения формы здесь в виде текста. 424 00:23:12,662 --> 00:23:17,822 Но здесь они на базе форм, и, вероятно, потребуется больше времени, 425 00:23:18,595 --> 00:23:23,400 но вы можете вставлять разные строки в разные поля. 426 00:23:23,401 --> 00:23:25,800 Это ShExEr. 427 00:23:26,879 --> 00:23:31,882 Его сделал аспирант Университета Овьедо, 428 00:23:31,883 --> 00:23:34,080 он сегодня здесь, и расскажет вам о ShExEr. 429 00:23:38,147 --> 00:23:40,024 (Данни) Привет, я Данни Фернандес, 430 00:23:40,025 --> 00:23:44,099 аспирант Университета Овьедо, работаю с Лаброй. 431 00:23:44,710 --> 00:23:47,725 У нас заканчивается время, поэтому давайте ускоримся. 432 00:23:47,726 --> 00:23:52,641 Я покажу несколько скриншотов вместо всей презентации. 433 00:23:52,642 --> 00:23:57,897 Обычный способ работы с Shape Expressions или любым подобным языком: 434 00:23:57,897 --> 00:23:59,521 есть специалист, 435 00:23:59,522 --> 00:24:02,313 который определяет, как должен выглядеть граф, 436 00:24:02,314 --> 00:24:03,555 определяет структуры, 437 00:24:03,556 --> 00:24:06,983 а затем вы используете эти структуры для проверки фактических данных. 438 00:24:08,124 --> 00:24:11,641 Инструмент, о котором рассказал Лабра, -- 439 00:24:11,642 --> 00:24:14,441 общего назначения для любого RDF-источника, 440 00:24:14,442 --> 00:24:17,375 и он может работать в обратном направлении. 441 00:24:17,376 --> 00:24:18,758 У вас уже есть некоторые данные, 442 00:24:18,759 --> 00:24:23,165 вы выбираете узлы, форму которых хотите получить, 443 00:24:23,165 --> 00:24:26,718 а затем автоматически извлекаете или выводите форму. 444 00:24:26,719 --> 00:24:29,791 Несмотря на то, что это инструмент общего назначения, 445 00:24:29,791 --> 00:24:34,063 мы сделали волшебную кнопку для этой конференции, 446 00:24:34,884 --> 00:24:37,081 и если вы нажмёте на неё, 447 00:24:37,081 --> 00:24:42,079 появятся параметры конфигурации, 448 00:24:42,080 --> 00:24:46,251 и он настроит работу с точкой доступа Викиданных, 449 00:24:46,251 --> 00:24:47,971 простите, он скоро закончит. 450 00:24:48,733 --> 00:24:52,883 После нажатия этой кнопки вы, по сути, получаете это. 451 00:24:52,884 --> 00:24:55,126 Выбрав необходимые вам узлы 452 00:24:55,127 --> 00:24:57,431 или экземпляры класса, 453 00:24:57,431 --> 00:24:59,361 что бы вы ни искали, 454 00:24:59,361 --> 00:25:01,321 вы получите автоматическую схему. 455 00:25:02,319 --> 00:25:07,111 Все ограничения отсортированы по количеству узлов, 456 00:25:07,112 --> 00:25:09,772 можно отфильтровать наименее распространённые и так далее. 457 00:25:09,772 --> 00:25:12,126 Внизу есть плакат об этом материале, 458 00:25:12,127 --> 00:25:14,595 я буду на нижнем и верхнем этажах, 459 00:25:14,596 --> 00:25:16,454 а также в других местах, 460 00:25:16,455 --> 00:25:19,081 поэтому если у вас будет интерес к этому инструменту, 461 00:25:19,082 --> 00:25:21,476 просто обращайтесь ко мне. 462 00:25:21,477 --> 00:25:24,624 Отдаю микрофон Лабре, спасибо. 463 00:25:24,625 --> 00:25:29,265 (аплодисменты) 464 00:25:29,812 --> 00:25:32,578 (Хосе) Давайте обсудим другие инструменты. 465 00:25:32,579 --> 00:25:34,984 ShapeDesigner -- ещё один инструмент. 466 00:25:34,984 --> 00:25:37,241 Андра, хочешь рассказать о ShapeDesigner 467 00:25:37,242 --> 00:25:39,957 или позже на семинаре? 468 00:25:40,173 --> 00:25:44,437 Сегодня будет семинар, посвящённый Shape Expressions, 469 00:25:45,265 --> 00:25:47,939 мы попробуем его на практике, 470 00:25:47,940 --> 00:25:52,324 так что если хотите попрактиковаться с ShEx, то вам сюда. 471 00:25:52,875 --> 00:25:55,300 Это инструмент ShEx.js, 472 00:25:55,300 --> 00:25:56,890 и Эрик может рассказать о нём. 473 00:25:57,969 --> 00:26:00,687 (Эрик) Расскажу очень быстро. 474 00:26:00,687 --> 00:26:05,711 Вы, вероятно, уже видели интерфейс ShEx, 475 00:26:05,711 --> 00:26:07,601 заточенный под Викиданные. 476 00:26:07,602 --> 00:26:12,930 Его сократили и адаптировали специально под Викиданные 477 00:26:12,930 --> 00:26:15,567 потому что в нём больше возможностей, 478 00:26:15,567 --> 00:26:17,937 но я, кажется, говорил об этом, 479 00:26:17,937 --> 00:26:19,977 потому что одна из этих функций особенно полезна 480 00:26:19,978 --> 00:26:23,201 для отладки схем Викиданных. 481 00:26:23,201 --> 00:26:29,224 Если вы выбираете полный режим, 482 00:26:29,225 --> 00:26:31,444 то пока я буду проводить проверку 483 00:26:31,445 --> 00:26:34,694 всех этих триплетов, 484 00:26:34,695 --> 00:26:36,274 и если я получу множество ошибок, 485 00:26:36,275 --> 00:26:40,396 я могу пройтись по этим ошибкам 486 00:26:40,396 --> 00:26:44,120 и посмотреть, какие триплеты здесь, внизу. 487 00:26:44,121 --> 00:26:45,967 Это просто журнал того, как всё происходило. 488 00:26:46,327 --> 00:26:49,180 Затем можете поиграть с этим, 489 00:26:49,181 --> 00:26:51,033 чтобы поменять что-либо. 490 00:26:51,033 --> 00:26:54,160 Это более быстрая версия того, как это сделать. 491 00:26:55,361 --> 00:26:56,481 Это форма ShExC -- 492 00:26:56,482 --> 00:26:59,455 то, что предлагал Йохим, 493 00:27:00,035 --> 00:27:04,631 что может быть полезно для заполнения документов Викиданных 494 00:27:04,631 --> 00:27:07,338 на основе выражения формы для этого документа. 495 00:27:08,095 --> 00:27:11,681 Она не адаптирована под Викиданные. 496 00:27:11,682 --> 00:27:14,081 Я просто показываю, что можно взять схему, 497 00:27:14,082 --> 00:27:15,402 сделать аннотации, 498 00:27:15,403 --> 00:27:17,518 чтобы конкретно указать, какую схему вы хотите, 499 00:27:17,519 --> 00:27:19,031 потом просто создать форму 500 00:27:19,031 --> 00:27:21,191 и, если у вас есть данные, можно заполнить форму. 501 00:27:24,517 --> 00:27:26,164 PyShEx [неразборчиво]. 502 00:27:28,025 --> 00:27:31,080 (Хосе) Думаю, это последний инструмент. 503 00:27:31,821 --> 00:27:34,080 Да, это PyShEx. 504 00:27:34,675 --> 00:27:38,151 PyShEx -- это Shape Expressions, реализованный на Python, 505 00:27:39,193 --> 00:27:42,680 он совместим с Jupyter Notebooks. 506 00:27:42,680 --> 00:27:44,432 Итак, это всё. 507 00:27:44,433 --> 00:27:47,170 (аплодисменты) 508 00:27:52,916 --> 00:27:56,088 (Андра) Итак, я расскажу о конкретном проекте, 509 00:27:56,088 --> 00:27:58,074 в котором участвую -- Gene Wiki, 510 00:27:58,865 --> 00:28:04,366 и в котором мы тоже занимаемся вопросами качества. 511 00:28:04,597 --> 00:28:06,684 Прежде чем говорить о качестве, 512 00:28:06,685 --> 00:28:09,229 я кратко расскажу вам о Gene Wiki. 513 00:28:09,855 --> 00:28:15,175 Мы только что выпустили предварительную версию статьи, 514 00:28:15,175 --> 00:28:18,160 в которой описаны детали проекта. 515 00:28:19,821 --> 00:28:22,066 Я вижу, люди фотографируют... 516 00:28:22,066 --> 00:28:25,076 Gene Wiki публикует в Викиданных 517 00:28:25,076 --> 00:28:28,027 общедоступные биомедицинские данные, 518 00:28:28,028 --> 00:28:32,200 используя для этого определённый шаблон. 519 00:28:33,130 --> 00:28:36,809 Если у нас появляется новое хранилище или набор данных, 520 00:28:36,810 --> 00:28:39,600 который можно включить Викиданные, 521 00:28:39,601 --> 00:28:41,293 первый шаг -- вовлечение сообщества. 522 00:28:41,294 --> 00:28:43,784 Необязательно сообщества Викиданных, 523 00:28:43,785 --> 00:28:46,120 но местного исследовательского сообщества. 524 00:28:46,121 --> 00:28:50,286 Мы встречаемся лично, онлайн или на любой платформе 525 00:28:50,286 --> 00:28:52,881 и пробуем придумать модель данных, 526 00:28:52,882 --> 00:28:56,197 которая соединит их данные с моделью Викиданных. 527 00:28:56,197 --> 00:28:59,944 Вот фотография прошлогоднего семинара, 528 00:28:59,945 --> 00:29:02,663 на котором мы анализировали определённый набор данных, 529 00:29:02,663 --> 00:29:05,280 и как видите, было много обсуждений, 530 00:29:05,281 --> 00:29:07,960 затем приведение его в соответствие с schema.org 531 00:29:07,960 --> 00:29:10,320 и другими существующими онтологиями. 532 00:29:10,320 --> 00:29:15,508 В конце первого шага у нас на доске появился чертёж схемы, 533 00:29:15,509 --> 00:29:17,336 которую мы хотим добавить в Викиданные. 534 00:29:17,337 --> 00:29:20,440 Вы видите, она несложная, 535 00:29:20,441 --> 00:29:22,116 на заднем плане, 536 00:29:22,116 --> 00:29:26,270 и мы можем построить какие-то схемы даже здесь, в рамках этой дискуссии. 537 00:29:26,560 --> 00:29:28,399 Если у нас есть схема, 538 00:29:28,400 --> 00:29:31,320 следующий шаг -- попытаться сделать эта схему машиночитаемой, 539 00:29:32,358 --> 00:29:36,841 чтобы иметь работающие модели для переноса внешних данных 540 00:29:36,842 --> 00:29:39,690 из любой медико-биологической базы данных в Викиданные. 541 00:29:40,393 --> 00:29:45,182 Здесь мы применяем инструмент Shape Expressions, 542 00:29:46,471 --> 00:29:52,518 поскольку он позволяет проверить, 543 00:29:52,518 --> 00:29:57,040 является ли набор данных... Сначала увидеть, 544 00:29:57,040 --> 00:30:01,782 что уже существующие данные в Викиданных следуют той же модели данных, 545 00:30:01,783 --> 00:30:04,718 которая была получена в предыдущих процессах. 546 00:30:04,719 --> 00:30:06,641 С помощью Shape Expressions мы можем проверить, 547 00:30:06,642 --> 00:30:10,926 требуется ли корректировка данных по этой теме в Викиданных, 548 00:30:10,926 --> 00:30:15,013 нужно ли адаптировать нашу модель к модели Викиданных или наоборот. 549 00:30:15,937 --> 00:30:19,867 Как только всё на месте, мы начинаем писать ботов, 550 00:30:20,670 --> 00:30:23,801 а боты загружают информацию 551 00:30:23,802 --> 00:30:27,308 из первоисточников в Викиданные. 552 00:30:27,846 --> 00:30:29,303 Когда боты готовы, 553 00:30:29,304 --> 00:30:33,851 а мы пишем их на платформе WikidataIntegrator, 554 00:30:33,851 --> 00:30:36,201 используя библиотеку Python, 555 00:30:36,202 --> 00:30:38,167 которая появилась в результате нашего проекта. 556 00:30:38,698 --> 00:30:42,921 Когда боты написаны, мы используем платформу Jenkins 557 00:30:42,921 --> 00:30:44,540 для непрерывной интеграции. 558 00:30:44,540 --> 00:30:45,762 С помощью Jenkins 559 00:30:45,762 --> 00:30:51,160 мы постоянно обновляем первоначальные источники с Викиданными. 560 00:30:52,178 --> 00:30:55,889 Вот диаграмма, о которой я говорил ранее. 561 00:30:55,890 --> 00:30:57,241 Это её текущий вид. 562 00:30:57,242 --> 00:31:02,059 Оранжевые прямоугольники -- первоисточники медикаментов, 563 00:31:02,060 --> 00:31:07,827 белков, генов, заболеваний, химических соединений, со взаимосвязями, 564 00:31:07,827 --> 00:31:10,870 но её невозможно прочитать сейчас, поскольку она слишком маленькая, 565 00:31:10,870 --> 00:31:17,472 но это база данных, источниками которых мы управляем в Викиданных 566 00:31:17,473 --> 00:31:20,560 и соединяем с первоисточниками. 567 00:31:20,561 --> 00:31:22,355 Так выглядит наш рабочий процесс. 568 00:31:22,870 --> 00:31:25,312 Один из наших партнёров -- онтология заболеваний. 569 00:31:25,312 --> 00:31:28,289 Онтология заболеваний имеет лицензию CC0, 570 00:31:28,289 --> 00:31:31,990 и такая онтология имеет свой цикл курирования. 571 00:31:32,756 --> 00:31:35,736 Онтология заболеваний постоянно обновляется, 572 00:31:35,737 --> 00:31:39,687 чтобы отразить базу заболеваний или их объяснение. 573 00:31:40,336 --> 00:31:44,361 Здесь изображён цикл курирования Викиданных по заболеваниям, 574 00:31:44,362 --> 00:31:49,844 где сообщество постоянно следит за тем, что происходит с Викиданными. 575 00:31:50,406 --> 00:31:51,601 Есть две роли. 576 00:31:51,602 --> 00:31:55,477 Мы упрощённо называем их хранитель-куратор, 577 00:31:56,009 --> 00:31:59,561 и это были я и мой коллега пять лет назад. 578 00:31:59,562 --> 00:32:03,414 Мы просто сидели за компьютерами и мониторили Википедию и Викиданные, 579 00:32:03,415 --> 00:32:08,601 и если была проблема, мы сообщали о ней первоначальному сообществу, 580 00:32:08,602 --> 00:32:11,765 первоначальным источникам, они смотрели на реализацию и решали, 581 00:32:11,765 --> 00:32:14,240 доверять ли данным, введённым в Викиданные. 582 00:32:14,850 --> 00:32:18,555 Если да, начинался цикл 583 00:32:18,555 --> 00:32:22,686 и следующий шаг -- часть онтологии заболеваний 584 00:32:22,687 --> 00:32:25,411 возвращалась в Викиданные. 585 00:32:27,419 --> 00:32:31,480 Для WikiPathways мы делаем то же самое. 586 00:32:31,481 --> 00:32:34,202 WikiPathways -- база данных биологических путей, 587 00:32:34,202 --> 00:32:36,602 вдохновлённая MediaWiki. 588 00:32:36,602 --> 00:32:40,901 В Викиданных уже существуют различные источники путей. 589 00:32:41,463 --> 00:32:44,713 Между ними могут возникать конфликты, 590 00:32:45,312 --> 00:32:49,521 и хранителям-кураторам сообщается об их возникновении, 591 00:32:49,522 --> 00:32:53,715 и вы управляете индивидуальными циклами курирования. 592 00:32:53,715 --> 00:32:57,068 Но если вы помните предыдущий цикл, 593 00:32:57,069 --> 00:33:03,041 где речь велась только о двух циклах, двух ресурсах, 594 00:33:03,566 --> 00:33:06,300 нам нужно делать это для каждого имеющегося ресурса 595 00:33:06,300 --> 00:33:08,061 и нужно управлять происходящим, 596 00:33:08,062 --> 00:33:09,775 потому что под курированием 597 00:33:09,775 --> 00:33:14,157 я подразумеваю постоянное отслеживание страниц Википедии и Викиданных. 598 00:33:14,545 --> 00:33:19,316 Такая работа явно не для двух хранителей-кураторов. 599 00:33:19,860 --> 00:33:22,777 На конференции в 2016 году, 600 00:33:22,778 --> 00:33:26,933 когда Эрик рассказывал о Shape Expressions, 601 00:33:26,934 --> 00:33:29,277 я присоединился, и подумал, 602 00:33:29,278 --> 00:33:34,240 что Shape Expressions может помочь выявить различия в Викиданных, 603 00:33:34,240 --> 00:33:41,159 которые помогут хранителям делать более подробные отчёты. 604 00:33:42,275 --> 00:33:46,019 В этом году я был в восторге от схемы сущности, 605 00:33:46,020 --> 00:33:50,765 потому что теперь мы можем хранить эти схемы в Викиданных, 606 00:33:50,765 --> 00:33:53,183 до этого мы хранили их на GitHub. 607 00:33:53,860 --> 00:33:56,815 Схема согласуется с интерфейсом Викиданных, 608 00:33:56,816 --> 00:33:59,350 здесь есть обсуждение документа, 609 00:33:59,350 --> 00:34:00,762 но также доступны правки. 610 00:34:00,763 --> 00:34:03,012 Вы можете пользоваться первыми страницами 611 00:34:03,012 --> 00:34:05,262 и правками в Викиданных, 612 00:34:05,262 --> 00:34:12,255 чтобы обсуждать то, что имеется в Викиданных 613 00:34:12,255 --> 00:34:14,060 и первоначальных источниках. 614 00:34:14,966 --> 00:34:19,686 Эрик уже об этом говорил, это очень помогает. 615 00:34:19,686 --> 00:34:24,335 Мы создали выражение формы для гена человека, 616 00:34:24,336 --> 00:34:30,225 потом пропустили его через ShEx, как вы видите, 617 00:34:30,225 --> 00:34:32,428 мы получили... 618 00:34:32,429 --> 00:34:34,641 Есть один элемент, за которым нужно следить, -- 619 00:34:34,642 --> 00:34:37,316 он не вписывается в эту схему, 620 00:34:37,316 --> 00:34:43,139 и затем вы можете создать сущности схемы, отчёты курирования, 621 00:34:43,140 --> 00:34:46,240 и отправить их в разные отчёты. 622 00:34:48,058 --> 00:34:52,788 Но ShEx -- это встроенный интерфейс, 623 00:34:52,788 --> 00:34:55,860 и здесь я смогу показать только десять, 624 00:34:55,860 --> 00:35:00,362 но у нас десятки тысяч, и они несоизмеримы. 625 00:35:00,362 --> 00:35:04,654 Интегратор Викиданных теперь поддерживает ShEx, 626 00:35:05,168 --> 00:35:07,431 и мы просто можем замкнуть петли элементов, 627 00:35:07,431 --> 00:35:11,494 указав «да-нет, да-нет, правда-ложь, правда-ложь». 628 00:35:11,495 --> 00:35:12,495 снова, 629 00:35:13,065 --> 00:35:16,514 повышая эффективность при составлении отчётов. 630 00:35:17,256 --> 00:35:22,662 Но с недавних пор он строится на сервисе запросов Викиданных, 631 00:35:23,181 --> 00:35:24,998 мы недавно регулировали количество запросов, 632 00:35:24,999 --> 00:35:26,560 и это тоже несоизмеримо. 633 00:35:26,561 --> 00:35:31,391 Работа с моделями на Викиданных -- непрерывный процесс. 634 00:35:32,202 --> 00:35:36,682 ShEx не только пугает, 635 00:35:36,683 --> 00:35:40,356 но он ещё и громоздкий. 636 00:35:41,068 --> 00:35:43,192 Я начал работать, 637 00:35:43,192 --> 00:35:46,082 это мой первый эксперимент или упражнение, 638 00:35:46,082 --> 00:35:48,184 где был использован инструмент yEd, 639 00:35:48,184 --> 00:35:52,591 и затем я начал отрисовывать эти выражения формы, 640 00:35:52,591 --> 00:35:58,098 и потом регенерировать эту схему 641 00:35:58,099 --> 00:36:01,279 в формат, близкий к Shape Expressions, 642 00:36:01,280 --> 00:36:04,520 понятный людям, 643 00:36:04,521 --> 00:36:07,432 которых слишком пугает язык Shape Expressions. 644 00:36:07,961 --> 00:36:12,308 Но есть проблема с визуальным описанием, 645 00:36:12,309 --> 00:36:18,229 потому что это также схема, кем-то нарисованная в yEd. 646 00:36:18,230 --> 00:36:23,838 Вот ещё одна, замечательная. 647 00:36:23,838 --> 00:36:26,601 Я бы такую себе на стену повесил, 648 00:36:27,271 --> 00:36:30,281 но она пока несовместима. 649 00:36:30,281 --> 00:36:33,371 Хочу завершить своё выступление слайдом, 650 00:36:33,371 --> 00:36:35,732 который я позаимствовал. 651 00:36:35,732 --> 00:36:37,594 Для меня честь показать его аудитории. 652 00:36:37,595 --> 00:36:39,423 Он мне очень нравится: 653 00:36:39,424 --> 00:36:42,362 «Люди думают, что RDF -- это боль из-за его сложности. 654 00:36:42,362 --> 00:36:43,745 Но на самом деле всё ещё хуже. 655 00:36:43,745 --> 00:36:48,133 RDF очень прост, но он позволяет работать с реальными данными 656 00:36:48,134 --> 00:36:50,031 и невероятно сложными проблемами. 657 00:36:50,031 --> 00:36:52,361 Можно избежать использования RDF, 658 00:36:52,361 --> 00:36:55,760 но вряд ли получится избежать сложных данных и компьютерных проблем». 659 00:36:55,761 --> 00:36:59,535 Речь об RDF, но, я думаю, подходит под моделирование в целом. 660 00:37:00,112 --> 00:37:02,769 Мой вопрос -- должны ли мы... 661 00:37:03,387 --> 00:37:05,882 Как мы будем моделировать? 662 00:37:05,882 --> 00:37:10,826 Поговорим о ShEx, или визуальных моделях, или... 663 00:37:11,426 --> 00:37:13,271 Как нам продолжить? 664 00:37:13,474 --> 00:37:14,840 Спасибо за уделённое время. 665 00:37:15,102 --> 00:37:17,787 (аплодисменты) 666 00:37:20,001 --> 00:37:21,188 (Лидия) Спасибо большое. 667 00:37:21,692 --> 00:37:24,001 Можете выйти вперёд, 668 00:37:24,002 --> 00:37:27,741 чтобы аудитория могла задать вопросы. 669 00:37:28,610 --> 00:37:30,203 Есть вопросы? 670 00:37:31,507 --> 00:37:32,507 Да. 671 00:37:34,253 --> 00:37:36,890 Думаю, для камеры нужно, чтобы... 672 00:37:38,835 --> 00:37:40,968 (Лидия смеётся) Да. 673 00:37:43,094 --> 00:37:46,273 (голос из зала 1) Вопрос Кристине, думаю. 674 00:37:47,366 --> 00:37:51,641 Вы упоминали термин «прирост информации» 675 00:37:51,642 --> 00:37:53,689 от объединения с другими системами. 676 00:37:53,690 --> 00:37:56,579 Существует информационно-теоретический показатель -- прирост информации, 677 00:37:56,579 --> 00:37:58,201 основанный на статистике и вероятности. 678 00:37:59,542 --> 00:38:01,736 Вы имели в виду именно этот показатель? 679 00:38:01,736 --> 00:38:04,173 Прирост информации на основе теории вероятности, 680 00:38:04,174 --> 00:38:05,240 теории информации, 681 00:38:05,241 --> 00:38:09,024 или просто такая концептуальная идея для измерения прироста информации? 682 00:38:09,025 --> 00:38:13,016 Нет, мы действительно определили и применили показатели, 683 00:38:13,695 --> 00:38:20,161 используя энтропию Шеннона, поэтому смысл именно такой. 684 00:38:20,162 --> 00:38:22,416 Не хочу вдаваться в детали конкретных формул... 685 00:38:22,416 --> 00:38:24,977 (голос из зала 1) Нет, конечно, поэтому и прозвучал вопрос. 686 00:38:24,978 --> 00:38:27,178 - (Кристина) Да. - (голос из зала 1) Спасибо. 687 00:38:33,091 --> 00:38:35,407 (голос из зала 2) Это больше комментарий, нежели вопрос. 688 00:38:35,407 --> 00:38:36,541 (Лидия) Да, конечно. 689 00:38:36,541 --> 00:38:39,840 (голос из зала 2) Акцент был на элементах, 690 00:38:39,840 --> 00:38:42,547 на их качестве и полноте, 691 00:38:42,547 --> 00:38:47,374 но меня беспокоит, что мы не применяем это к иерархиям, 692 00:38:47,374 --> 00:38:51,480 и наша частая проблема -- плохая иерархия. 693 00:38:51,481 --> 00:38:53,463 Мы видим, что это становится реальной проблемой 694 00:38:53,464 --> 00:38:55,774 при обычным поиске и других вещах. 695 00:38:56,771 --> 00:39:01,321 Мы можем импортировать способ, 696 00:39:01,321 --> 00:39:04,842 по которому внешние тезаурусы выстраивают свои иерархии, 697 00:39:04,842 --> 00:39:10,291 используя квалификатор P4900, более широкое понятие. 698 00:39:11,037 --> 00:39:16,167 Но я думаю, для этого есть более подходящие инструменты, 699 00:39:16,168 --> 00:39:21,212 и вы сможете импортировать иерархию внешнего тезауруса, 700 00:39:21,212 --> 00:39:24,111 отобразить её на элементы Викиданных. 701 00:39:24,111 --> 00:39:28,199 И связав её с этими квалификаторами P4900, 702 00:39:28,200 --> 00:39:31,494 вы можете делать хорошие запросы через SPARQL, 703 00:39:32,490 --> 00:39:37,534 чтобы увидеть, где наша иерархия расходится с внешней. 704 00:39:37,534 --> 00:39:41,346 Например, вы можете знать [Паолу Морма], под псевдонимом PKM, 705 00:39:41,346 --> 00:39:43,533 этот пользователь создаёт много статей о моде. 706 00:39:43,533 --> 00:39:50,524 Мы включаем их в иерархию тезауруса европейской моды 707 00:39:50,524 --> 00:39:53,812 и в иерархию тезауруса искусства и архитектуры, 708 00:39:53,812 --> 00:39:57,957 а потом мы видим, какие пробелы были в элементах более высокого уровня. 709 00:39:57,957 --> 00:40:01,231 Для нас это реальная проблема, потому что часто попадаются вещи, 710 00:40:01,231 --> 00:40:04,355 которые существуют в Википедии только как страницы значений, 711 00:40:04,356 --> 00:40:09,270 многие элементы более высокого уровня отсутствуют в наших иерархиях, 712 00:40:09,271 --> 00:40:14,480 и мы должны рассмотреть это с точки зрения качества и полноты, 713 00:40:14,480 --> 00:40:18,773 но что действительно поможет, станет лучшим инструментом, 714 00:40:18,773 --> 00:40:20,871 чем те дебри скриптов, написанных мной, -- 715 00:40:20,872 --> 00:40:26,010 если бы кто-то поместил это в PAWS notebook на Python, 716 00:40:26,561 --> 00:40:31,972 чтобы можно было извлечь внешний тезаурус, взять его иерархию, 717 00:40:31,973 --> 00:40:34,595 которая может быть доступна как связанные данные или же нет, 718 00:40:35,169 --> 00:40:40,580 чтобы поместить это в QuickStatements, чтобы вставить значения P4900. 719 00:40:41,165 --> 00:40:42,165 Затем позже, 720 00:40:42,166 --> 00:40:44,527 когда наше представление станет более сложным, 721 00:40:44,528 --> 00:40:49,691 обновить эти значения P4900, потому что добавляются данные, 722 00:40:49,691 --> 00:40:51,590 представление становится более комплексным, 723 00:40:51,590 --> 00:40:55,377 значения этих квалификаторов нужно менять, 724 00:40:56,230 --> 00:40:59,526 чтобы показать, что в нашей системе всё больше их иерархии. 725 00:40:59,526 --> 00:41:03,728 Если бы кто-то мог сделать это, думаю, это было бы очень полезно, 726 00:41:03,728 --> 00:41:07,121 и мы должны рассмотреть и другие подходы 727 00:41:07,122 --> 00:41:10,762 для улучшения качества и полноты на уровне иерархии, 728 00:41:10,763 --> 00:41:12,378 а не только на уровне элемента. 729 00:41:13,308 --> 00:41:14,840 (Андра) Могу я кое-что добавить? 730 00:41:16,362 --> 00:41:19,901 Да, и мы это делаем, 731 00:41:19,911 --> 00:41:23,551 и я рекомендую посмотреть на выражение формы, которое сделал Финн 732 00:41:23,552 --> 00:41:25,530 с лексическими данными, 733 00:41:25,530 --> 00:41:27,330 где он создаёт выражения формы, 734 00:41:27,330 --> 00:41:29,640 а затем опирается на другие выражения формы, 735 00:41:29,641 --> 00:41:32,678 так получается концепция связанных выражений формы в Викиданных. 736 00:41:32,678 --> 00:41:35,235 В частности, пример использования, если я правильно понимаю -- 737 00:41:35,235 --> 00:41:37,183 это именно то, что мы делаем в Gene Wiki. 738 00:41:37,184 --> 00:41:40,841 Есть онтология заболеваний, которая помещена в Викиданные, 739 00:41:40,842 --> 00:41:44,681 а затем поступают данные о заболевании, и мы применяем Shape Expressions, 740 00:41:44,683 --> 00:41:47,248 чтобы посмотреть, соответствуют ли данные тезаурусу. 741 00:41:47,248 --> 00:41:50,919 Есть и другие тезаурусы или другие онтологии или контролируемые словари, 742 00:41:50,920 --> 00:41:52,559 которые ещё должны войти в Викиданные, 743 00:41:52,559 --> 00:41:55,351 и именно поэтому инструмент Shape Expressions так интересен -- 744 00:41:55,351 --> 00:41:57,963 вы можете применять его для онтологии заболеваний, 745 00:41:57,964 --> 00:41:59,644 для MeSH. 746 00:41:59,645 --> 00:42:01,851 Теперь вам нужно проверить качество. 747 00:42:01,851 --> 00:42:04,059 Потому что в Викиданных также есть контекст, 748 00:42:04,060 --> 00:42:09,567 когда у вас есть контролируемый словарь, вы считаете, что качество соответствует, 749 00:42:09,568 --> 00:42:11,636 но могут быть случаи, когда сообщество не согласно. 750 00:42:11,636 --> 00:42:16,081 Инструмент уже есть, но теперь нужно создать эти модели 751 00:42:16,082 --> 00:42:18,144 и применять их для разных случаев. 752 00:42:18,811 --> 00:42:20,921 (голос из зала 2) Shape Expressions очень полезен, 753 00:42:20,922 --> 00:42:25,928 если у вас уже есть внешняя онтология, которая отображается в Викиданных, 754 00:42:25,929 --> 00:42:29,474 но моя проблема в том, что всё доходит до той стадии, 755 00:42:29,475 --> 00:42:34,881 когда выясняется, какой части внешней онтологии ещё нет в Викиданных, 756 00:42:34,882 --> 00:42:36,256 и где есть пробелы, 757 00:42:36,257 --> 00:42:40,660 и, я думаю, в этом случае иметь более надёжные инструменты, 758 00:42:40,660 --> 00:42:44,286 чтобы увидеть, чего не хватает из внешних онтологий, 759 00:42:44,286 --> 00:42:45,537 было бы очень полезно. 760 00:42:47,678 --> 00:42:49,062 Самая большая проблема 761 00:42:49,062 --> 00:42:51,201 не в инструментах, а в лицензировании. 762 00:42:51,803 --> 00:42:55,249 Поместить онтологии в Викиданные на самом деле очень просто, 763 00:42:55,250 --> 00:42:59,295 но большинство онтологий имеют, как я это вежливо называю, 764 00:42:59,965 --> 00:43:03,256 ограниченное лицензирование, поэтому они не совместимы с Викиданными. 765 00:43:04,068 --> 00:43:06,998 (голос из зала 2) Есть множество тезаурусов из государственного сектора 766 00:43:06,998 --> 00:43:08,209 в сфере культуры. 767 00:43:08,210 --> 00:43:11,151 - (Андра) Тогда нам нужно поговорить. - (голос из зала 2) Это не проблема. 768 00:43:11,151 --> 00:43:12,494 (Андра) Тогда поговорим. 769 00:43:13,624 --> 00:43:19,192 (голос из зала 3) Мой комментарий -- на самом деле ответ Джеймсу. 770 00:43:19,192 --> 00:43:22,401 Дело в том, что из иерархий получаются графы, 771 00:43:22,374 --> 00:43:24,041 и когда ты хочешь... 772 00:43:24,579 --> 00:43:28,888 Я хочу в основном поговорить об общей проблеме в иерархиях -- 773 00:43:28,889 --> 00:43:30,820 о циклических иерархиях, 774 00:43:30,821 --> 00:43:33,796 они возвращаются друг к другу, когда есть проблема, 775 00:43:33,796 --> 00:43:35,920 которой в иерархиях не должно быть. 776 00:43:37,022 --> 00:43:41,295 Это, как ни странно, часто встречается в категориях Википедии 777 00:43:41,295 --> 00:43:42,990 у нас много циклов в категориях, 778 00:43:43,898 --> 00:43:46,612 но хорошая новость в том, что это... 779 00:43:47,713 --> 00:43:50,393 Технически, это NP-полная задача, 780 00:43:50,393 --> 00:43:51,583 и вы не можете найти её, 781 00:43:51,583 --> 00:43:53,414 но легко найдёте, построив граф. 782 00:43:54,473 --> 00:43:57,046 Но было разработано много способов 783 00:43:57,047 --> 00:44:00,624 для нахождения проблем в этих иерархических графах. 784 00:44:00,625 --> 00:44:04,860 Есть такая статья... 785 00:44:04,861 --> 00:44:07,955 о разрыве циклов в искажённых иерархиях, 786 00:44:07,956 --> 00:44:12,671 и перечисленные в ней методы помогли при категоризации английской Википедии. 787 00:44:12,672 --> 00:44:17,141 Вы можете просто применять эти иерархии в Викиданных, 788 00:44:17,142 --> 00:44:19,540 а затем найти 789 00:44:19,541 --> 00:44:22,481 и просто удалить то, что вызывает проблемы, 790 00:44:22,482 --> 00:44:24,593 и на самом деле найти проблемы. 791 00:44:24,594 --> 00:44:26,960 Это просто идея. 792 00:44:28,780 --> 00:44:30,533 (голос из зала 2) Это всё очень хорошо, 793 00:44:30,533 --> 00:44:34,402 но я думаю, вы недооцениваете количество плохих связей между подклассами, 794 00:44:34,402 --> 00:44:35,402 которые у нас имеются. 795 00:44:35,403 --> 00:44:39,680 Это как город, который находится совершенно не в той стране, 796 00:44:40,250 --> 00:44:43,245 при том, что существуют географические инструменты 797 00:44:43,245 --> 00:44:44,875 для определения этой проблемы. 798 00:44:44,875 --> 00:44:49,201 Нам в иерархиях нужны более эффективные инструменты, 799 00:44:49,202 --> 00:44:53,477 которые смогут определить, где эквивалент элемента для страны 800 00:44:53,478 --> 00:44:57,673 полностью отсутствует, или где он является подклассом чего-то, 801 00:44:57,674 --> 00:45:01,804 не имеющего к нему отношения. 802 00:45:02,804 --> 00:45:07,165 (Лидия) Я думаю, вы подобрались к тому, 803 00:45:07,166 --> 00:45:10,894 что мы с моей командой постоянно слышим от людей, 804 00:45:10,894 --> 00:45:13,991 которые многократно используют наши данные. 805 00:45:15,002 --> 00:45:16,638 Отдельная точка данных -- это отлично, 806 00:45:16,639 --> 00:45:20,163 но если вам нужно посмотреть на онтологию и так далее, 807 00:45:20,164 --> 00:45:21,857 то становится очень... 808 00:45:22,388 --> 00:45:26,437 Я думаю, одна из больших проблем, почему это происходит -- 809 00:45:26,437 --> 00:45:30,736 множество правок в Викиданных 810 00:45:30,736 --> 00:45:34,544 касаются отдельного элемента, 811 00:45:34,545 --> 00:45:36,201 вы редактируете этот элемент, 812 00:45:37,653 --> 00:45:42,075 не понимая, что это может привести к глобальным последствиям 813 00:45:42,075 --> 00:45:44,245 для остальной части графа, например. 814 00:45:45,356 --> 00:45:50,041 Если у людей есть идеи, как сделать более заметными 815 00:45:50,041 --> 00:45:53,185 последствия таких индивидуальных локальных правок, 816 00:45:54,005 --> 00:45:56,537 думаю, что их стоит изучить, 817 00:45:57,550 --> 00:46:01,583 чтобы лучше показать людям последствия их правок, 818 00:46:01,584 --> 00:46:03,434 сделанных с добрыми намерениями, 819 00:46:04,481 --> 00:46:05,481 какие они. 820 00:46:06,939 --> 00:46:12,237 Ого! Хорошо, давайте начнём с вас, потом вы, потом вы, затем вы. 821 00:46:12,237 --> 00:46:13,921 (голос из зала 4) После обсуждения, 822 00:46:13,922 --> 00:46:18,262 просто чтобы выразить своё согласие с тем, что говорил Джеймс. 823 00:46:18,263 --> 00:46:22,467 По сути, кажется, что самая опасная вещь -- иерархия, 824 00:46:22,468 --> 00:46:23,910 не иерархия, но в целом 825 00:46:23,911 --> 00:46:28,022 семантика связей между подклассами в Викиданных. 826 00:46:28,022 --> 00:46:32,561 Я недавно изучал языки, только для этой конференции, 827 00:46:32,562 --> 00:46:35,257 и, например, я нашёл много случаев, 828 00:46:35,257 --> 00:46:39,463 когда язык является одновременно и частью и подклассом одного и того же. 829 00:46:39,463 --> 00:46:43,577 Можно сказать, что у нас гибкая онтология. 830 00:46:43,577 --> 00:46:46,256 Викиданные дают свободу выражения. 831 00:46:46,256 --> 00:46:47,257 Потому что, например, 832 00:46:47,258 --> 00:46:50,721 эта онтология языков сложна с политической точки зрения. 833 00:46:50,722 --> 00:46:55,038 Даже хорошо иметь возможность выразить уровень неопределённости. 834 00:46:55,038 --> 00:46:57,913 Но представьте, как к этому применить машинное чтение. 835 00:46:57,913 --> 00:46:59,468 Действительно проблематично. 836 00:46:59,468 --> 00:47:00,468 И опять же, 837 00:47:00,469 --> 00:47:03,686 я не думаю, что онтология была импортирована откуда-либо. 838 00:47:03,687 --> 00:47:05,490 Она изначально наша. 839 00:47:05,491 --> 00:47:08,321 Она с самого начала собрана из Википедии. 840 00:47:08,322 --> 00:47:11,324 Так что мне интересно... Shape Expressions -- отличный инструмент, 841 00:47:11,325 --> 00:47:15,575 который проверяет и исправляет онтологию Википедии 842 00:47:15,576 --> 00:47:18,191 с помощью внешних ресурсов, прекрасная идея. 843 00:47:19,026 --> 00:47:20,026 В конце концов, 844 00:47:20,027 --> 00:47:25,440 получится ли у нас отразить внешние онтологии в Викиданных? 845 00:47:25,441 --> 00:47:28,651 А также, что мы делаем с основной частью нашей онтологии 846 00:47:28,652 --> 00:47:30,642 которая никогда не собирается из внешних ресурсов, 847 00:47:30,643 --> 00:47:31,978 как нам исправить её? 848 00:47:31,979 --> 00:47:35,276 Я действительно думаю, что это само по себе будет проблемой. 849 00:47:35,277 --> 00:47:40,080 Мы должны сосредоточиться на этом независимо от идеи проверки онтологии 850 00:47:40,080 --> 00:47:41,916 с помощью внешнего ресурса. 851 00:47:49,353 --> 00:47:53,379 (голос из зала 5) Ограничения и формы очень впечатляют, 852 00:47:53,380 --> 00:47:55,055 то, что мы можем сделать с ними, 853 00:47:55,205 --> 00:47:58,481 но главный момент до сих пор не совсем понятен -- 854 00:47:58,482 --> 00:48:03,229 поскольку теперь мы можем более чётко сформулировать, чего ожидаем от данных. 855 00:48:03,229 --> 00:48:06,893 Сначала каждый должен написать свои инструменты и скрипты, 856 00:48:06,894 --> 00:48:10,601 сделать их более наглядными, и мы сможем обсудить это. 857 00:48:10,602 --> 00:48:13,641 Но речь не о том, что верно, а что нет, 858 00:48:13,642 --> 00:48:15,870 а об ожиданиях, 859 00:48:15,870 --> 00:48:18,105 и у вас будут разные ожидания и обсуждения 860 00:48:18,106 --> 00:48:20,737 того, как моделировать в Викиданных. 861 00:48:22,836 --> 00:48:26,280 Текущее состояние -- лишь один шаг в этом направлении, 862 00:48:26,281 --> 00:48:28,041 потому что теперь нужно 863 00:48:28,042 --> 00:48:31,041 привлечь много технических знаний, 864 00:48:31,042 --> 00:48:35,721 и нам нужны лучшие способы визуализации этого ограничения, 865 00:48:35,722 --> 00:48:39,995 возможно, преобразование его в более понятный людям язык, 866 00:48:40,939 --> 00:48:43,768 но в меньшей степени здесь речь о том, что верно, а что нет. 867 00:48:44,925 --> 00:48:45,925 (Лидия) Да. 868 00:48:50,986 --> 00:48:53,893 (голос из зала 6) По поводу качества, хочу уточнить... 869 00:48:53,894 --> 00:48:57,010 Я часто сталкивался с разногласиями, 870 00:48:58,838 --> 00:49:02,330 связанными с разницей между экземпляром и подклассом. 871 00:49:02,331 --> 00:49:05,963 Я бы сказал, ошибки в таких ситуациях 872 00:49:05,963 --> 00:49:11,521 и попытки найти их были очень трудоёмким процессом. 873 00:49:11,522 --> 00:49:12,655 То, к чему я пришёл: 874 00:49:12,655 --> 00:49:16,051 «Если найти впечатляющие элементы, важные, 875 00:49:16,051 --> 00:49:19,026 и затем использовать все экземпляры подкласса, 876 00:49:19,026 --> 00:49:21,896 чтобы найти все производные этого утверждения», -- 877 00:49:21,896 --> 00:49:26,215 это очень полезный способ поиска ошибок. 878 00:49:26,405 --> 00:49:28,897 Но мне было интересно, 879 00:49:28,897 --> 00:49:33,959 можно ли использовать Shape Expressions 880 00:49:33,959 --> 00:49:36,854 в качестве инструмента для решения таких проблем? 881 00:49:40,514 --> 00:49:42,555 (голос из зала 7) Имеет ли структурный след ... 882 00:49:45,910 --> 00:49:49,170 Если имеется структурный след, который может быть сфальсифицирован, 883 00:49:49,170 --> 00:49:51,191 можно решить, что это неправильно, 884 00:49:51,192 --> 00:49:52,670 а потом сделать это. 885 00:49:52,671 --> 00:49:56,921 Но если это просто попытка сопоставления с объектами реального мира, 886 00:49:56,922 --> 00:49:59,082 то вам потребуется очень много «мозгов». 887 00:50:05,768 --> 00:50:08,631 (голос из зала 8) Привет, я Пабло Мендес из Apple Siri Knowledge. 888 00:50:09,154 --> 00:50:12,770 Мы здесь, чтобы узнать, как помочь проекту и сообществу, 889 00:50:12,770 --> 00:50:15,645 но Кристина совершила ошибку, спросив, чего мы хотим. 890 00:50:16,471 --> 00:50:20,052 (смеётся) Думаю, одна вещь, которую хотелось бы увидеть, 891 00:50:20,958 --> 00:50:23,521 связана с возможностью проверки -- 892 00:50:23,522 --> 00:50:26,372 одним из основных принципов проекта в сообществе, 893 00:50:27,062 --> 00:50:28,590 а также с доверием. 894 00:50:28,590 --> 00:50:32,042 Не все утверждения одинаковы, некоторые из них серьёзно оспариваются, 895 00:50:32,042 --> 00:50:33,443 некоторые легко предположить, 896 00:50:33,443 --> 00:50:35,541 например, чью-либо дату рождения можно проверить, 897 00:50:36,071 --> 00:50:39,882 как вы видели сегодня в основном докладе, гендерные проблемы намного сложнее. 898 00:50:40,205 --> 00:50:42,560 Можете ли вы немного рассказать о том, что вы знаете 899 00:50:42,560 --> 00:50:47,271 о доверии и проверках -- этих аспектах качества данных? 900 00:50:55,442 --> 00:50:58,138 Если этого не много, хотелось бы намного больше. (смеётся) 901 00:51:00,646 --> 00:51:01,646 (Лидия) Да. 902 00:51:03,314 --> 00:51:06,548 Как выяснилось, нам нечего сказать. (смеётся) 903 00:51:08,024 --> 00:51:12,299 (Андра) Я думаю, мы можем сделать многое, но у нас с вами вчера была дискуссия. 904 00:51:12,300 --> 00:51:15,774 Мой любимый пример, как я выяснил вчера, уже устарел. 905 00:51:15,774 --> 00:51:20,281 Если вы зайдёте на страницу элемента Q2, это Земля, 906 00:51:20,282 --> 00:51:23,343 там есть утверждение, что Земля плоская. 907 00:51:24,183 --> 00:51:26,055 Я люблю этот пример, 908 00:51:26,056 --> 00:51:28,391 потому что есть сообщество, которое это утверждает, 909 00:51:28,392 --> 00:51:30,417 и у них есть достоверные источники. 910 00:51:30,418 --> 00:51:32,254 Так что я думаю, это реальный случай, 911 00:51:32,255 --> 00:51:34,641 его не нужно оспаривать, он должен быть в Викиданных. 912 00:51:34,642 --> 00:51:40,385 Я думаю, здесь Shape Expressions может быть действительно полезен, 913 00:51:40,386 --> 00:51:44,857 потому что вам действительно может быть интересен этот прецедент, 914 00:51:44,857 --> 00:51:47,129 или этот вариант использования, с которым вы не согласны, 915 00:51:47,130 --> 00:51:49,799 но может быть и такой случай применения, 916 00:51:49,799 --> 00:51:51,059 который вас заинтересует. 917 00:51:51,059 --> 00:51:53,449 Например, глюкоза. 918 00:51:53,449 --> 00:51:56,841 Биологу не интересно 919 00:51:56,841 --> 00:52:00,177 строение молекулы глюкозы, 920 00:52:00,177 --> 00:52:03,201 для него вся глюкоза одинаковая. 921 00:52:03,202 --> 00:52:05,973 Но химика подобное покоробит, 922 00:52:05,973 --> 00:52:08,191 существует 200 с лишним... 923 00:52:08,191 --> 00:52:10,443 Когда у вас есть разные выражения формы, 924 00:52:10,443 --> 00:52:13,887 я могу их применить с точки зрения химика. 925 00:52:13,887 --> 00:52:16,691 А с точки зрения биолога 926 00:52:16,691 --> 00:52:18,524 я применяю другое выражение формы. 927 00:52:18,524 --> 00:52:20,358 А если вы хотите сотрудничать, 928 00:52:20,358 --> 00:52:22,784 вы должны сказать Эрику о картах ShEx. 929 00:52:25,510 --> 00:52:28,873 Но это только начало пути. 930 00:52:28,873 --> 00:52:32,238 Но я лично верю, что это весьма полезно для этой области. 931 00:52:34,292 --> 00:52:35,535 (Лидия) Вон там. 932 00:52:37,949 --> 00:52:39,168 (смех) 933 00:52:40,597 --> 00:52:46,035 (голос из зала 9) У меня несколько идей по некоторым моментам обсуждения, 934 00:52:46,035 --> 00:52:50,902 постараюсь озвучить все. Было три идеи, так что... 935 00:52:52,394 --> 00:52:55,201 Основываясь на том, что Джеймс сказал некоторое время назад, 936 00:52:55,202 --> 00:52:59,001 у Викиданных с самого начала была очень большая проблема 937 00:52:59,002 --> 00:53:01,574 в онтологии вышестоящего уровня. 938 00:53:02,363 --> 00:53:05,339 Мы говорили об этом два года назад на WikidataCon, 939 00:53:05,340 --> 00:53:07,432 и мы говорили об этом на Викимании. 940 00:53:07,432 --> 00:53:09,818 На всех встречах по Викиданным 941 00:53:09,818 --> 00:53:11,656 мы говорим об этом, 942 00:53:11,656 --> 00:53:15,782 потому что это очень большая проблема на очень высоком уровне -- 943 00:53:15,783 --> 00:53:22,418 что такое сущность, работа, что такое жанр, искусство, -- 944 00:53:23,118 --> 00:53:25,461 все эти понятия очень важны. 945 00:53:27,215 --> 00:53:33,117 И на самом деле это слабое место глобальной онтологии, 946 00:53:33,118 --> 00:53:37,453 потому что люди регулярно наводят порядок 947 00:53:38,017 --> 00:53:41,047 и тем самым всё ломают. 948 00:53:42,516 --> 00:53:48,649 Некоторые из вас помнят парня, который из добрых намерений 949 00:53:48,649 --> 00:53:51,785 «сломал» все города мира. 950 00:53:51,785 --> 00:53:57,537 Элементы стали не географическими, везде были нарушения ограничений. 951 00:53:58,720 --> 00:54:00,278 Это было сделано из добрых побуждений, 952 00:54:00,278 --> 00:54:03,623 ведь он действительно исправлял ошибку в элементе, 953 00:54:04,170 --> 00:54:05,732 но всё сломалось. 954 00:54:06,349 --> 00:54:09,373 Я не уверена, как мы можем решить это, 955 00:54:10,216 --> 00:54:13,390 поскольку нет ни одного внешнего учреждения, 956 00:54:13,390 --> 00:54:15,710 у которого мы могли бы скопировать, 957 00:54:15,710 --> 00:54:19,030 потому что все работают... 958 00:54:19,154 --> 00:54:22,041 Если я работаю с базой данных исполнительского искусства, 959 00:54:22,042 --> 00:54:24,601 я просто перейду на уровень исполнительского искусства, 960 00:54:24,601 --> 00:54:29,361 я не буду переходить к философской концепции сущности, 961 00:54:29,362 --> 00:54:31,201 и это, на самом деле... 962 00:54:31,202 --> 00:54:34,561 Я не знаю ни одной базы данных, работающей на этом уровне, 963 00:54:34,562 --> 00:54:36,827 но это самое слабое место Викиданных. 964 00:54:37,936 --> 00:54:40,812 Вероятно, когда мы говорим о качестве данных, 965 00:54:40,812 --> 00:54:44,034 это является важным аспектом. 966 00:54:44,034 --> 00:54:48,569 Я думаю, это то же самое, что мы заявили... 967 00:54:48,569 --> 00:54:50,452 Простите, я меняю тему, 968 00:54:51,401 --> 00:54:55,774 но на разных сессиях мы говорили о качестве. 969 00:54:55,774 --> 00:54:59,398 На самом деле некоторые из нас могут хорошо моделировать, 970 00:54:59,399 --> 00:55:01,240 работают с ShEx и так далее. 971 00:55:01,967 --> 00:55:07,655 Люди не видят этого в Викиданных, они не видят ShEx, 972 00:55:07,655 --> 00:55:10,392 они не видят Вики-проект на странице обсуждения, 973 00:55:10,393 --> 00:55:11,393 и иногда 974 00:55:11,394 --> 00:55:14,958 они даже не видят страницы обсуждения свойств, 975 00:55:14,958 --> 00:55:19,628 которые чётко заявляют, для чего используется конкретное свойство. 976 00:55:19,628 --> 00:55:23,887 Например, на прошлой неделе, я добавила ограничение для свойства. 977 00:55:23,888 --> 00:55:26,324 Ограничение было чётко прописано 978 00:55:26,325 --> 00:55:28,690 в обсуждении создания свойства. 979 00:55:28,690 --> 00:55:34,548 Я просто добавила ограничение, а кто-то возмутился: 980 00:55:34,548 --> 00:55:37,182 «Что? Ты сломала все мои правки!» 981 00:55:37,183 --> 00:55:41,542 Последние два года человек использовал это свойство неправильно. 982 00:55:41,542 --> 00:55:46,868 Свойство было очень чёткое, но не было никаких предупреждений, 983 00:55:46,869 --> 00:55:48,715 как и в Pink Pony, 984 00:55:48,715 --> 00:55:52,172 мы также сказали на Викимании, что хотим делать Вики-проекты 985 00:55:52,172 --> 00:55:54,719 более наглядными, делать ShEx более наглядным, но... 986 00:55:54,719 --> 00:55:56,917 Это то, что сказала Кристина. 987 00:55:56,917 --> 00:56:02,368 У нас проблема с визуализацией существующих решений. 988 00:56:02,368 --> 00:56:04,242 На этой сессии 989 00:56:04,242 --> 00:56:06,862 мы все говорим о том, как создать больше выражений формы, 990 00:56:06,863 --> 00:56:10,727 или облегчить работу редакторов. 991 00:56:11,605 --> 00:56:15,835 Но мы наводим порядок с первого дня существования Викиданных, 992 00:56:15,836 --> 00:56:20,921 и, на глобальном уровне, мы проигрываем, 993 00:56:20,922 --> 00:56:22,960 поскольку, насколько я знаю, имена сложные, 994 00:56:22,961 --> 00:56:26,162 но я единственная, кто их редактирует. 995 00:56:26,662 --> 00:56:29,671 Кто-то добавил имя на латинице 996 00:56:29,672 --> 00:56:31,584 всем китайским исследователям -- 997 00:56:32,088 --> 00:56:35,616 мне понадобятся месяцы, чтобы убрать это, и сама я не справлюсь, 998 00:56:35,616 --> 00:56:38,777 а он сделал массовую выгрузку. 999 00:56:39,462 --> 00:56:44,158 Проблем с визуализацией больше, чем с инструментами, я думаю, 1000 00:56:44,158 --> 00:56:45,733 поскольку у нас много инструментов. 1001 00:56:45,733 --> 00:56:50,255 (Лидия) К сожалению, мне дали знак, (смеётся), 1002 00:56:50,256 --> 00:56:52,121 поэтому нам нужно заканчивать. 1003 00:56:52,122 --> 00:56:53,563 Большое спасибо за ваши комментарии, 1004 00:56:53,563 --> 00:56:56,611 надеюсь, вы продолжите обсуждение позже, 1005 00:56:56,611 --> 00:56:57,840 и спасибо за ваш вклад. 1006 00:56:58,359 --> 00:56:59,944 (аплодисменты) 1007 00:57:04,108 --> 00:57:07,008 WikidataCon 2019 Викиданные и языки