1 00:00:00,230 --> 00:00:02,260 Основной доклад 2 00:00:02,260 --> 00:00:04,070 Бенджамин Янг (PanLex) 3 00:00:05,888 --> 00:00:09,312 В настоящее время на планете 4 00:00:09,312 --> 00:00:10,806 существует около 7 500 языков. 5 00:00:11,770 --> 00:00:13,808 По оценкам экспертов, 6 00:00:13,808 --> 00:00:18,466 около 70% из них могут исчезнуть 7 00:00:18,466 --> 00:00:20,355 к концу 21 века. 8 00:00:22,270 --> 00:00:24,266 Каждый раз, когда умирает язык, 9 00:00:24,711 --> 00:00:26,622 утрачивается связь, 10 00:00:26,622 --> 00:00:30,590 существовавшая сотни или тысячи лет, 11 00:00:30,590 --> 00:00:34,816 с культурой, историей, 12 00:00:35,320 --> 00:00:38,150 традициями и знаниями. 13 00:00:38,933 --> 00:00:42,250 Лингвист Кеннет Хейл как-то сказал, 14 00:00:42,250 --> 00:00:44,183 что смерть любого языка -- 15 00:00:44,183 --> 00:00:46,794 всё равно что бомба, сброшенная на Лувр. 16 00:00:49,377 --> 00:00:51,844 Вопрос в том, 17 00:00:52,730 --> 00:00:54,800 почему языки умирают? 18 00:00:56,244 --> 00:01:00,155 Наверное, самый простой ответ -- 19 00:01:00,162 --> 00:01:03,051 вы сразу представляете себе авторитарные режимы, 20 00:01:03,051 --> 00:01:05,311 которые не дают людям говорить на своих родных языках, 21 00:01:05,844 --> 00:01:09,630 наказывают детей, если они говорят на родном языке в школе. 22 00:01:09,866 --> 00:01:12,911 Или как правительства закрывают радиостанции, 23 00:01:12,923 --> 00:01:14,644 вещающие на миноритарном языке. 24 00:01:15,044 --> 00:01:16,977 Такое и правда происходило в прошлом, 25 00:01:16,977 --> 00:01:19,088 и, отчасти, происходит и сегодня. 26 00:01:19,616 --> 00:01:23,026 Но на самом деле 27 00:01:23,026 --> 00:01:26,666 львиную долю случаев исчезновения языков 28 00:01:27,296 --> 00:01:29,901 можно объяснить 29 00:01:30,916 --> 00:01:32,635 гораздо проще. 30 00:01:33,696 --> 00:01:36,222 Языки вымирают, 31 00:01:36,220 --> 00:01:37,888 потому что их не передают 32 00:01:37,888 --> 00:01:39,593 от одного поколения к другому. 33 00:01:42,280 --> 00:01:43,866 Каждый раз, когда у человека, 34 00:01:43,866 --> 00:01:46,088 владеющего миноритарным языком, рождается ребёнок, 35 00:01:46,752 --> 00:01:50,355 этот человек начинает думать. 36 00:01:51,360 --> 00:01:52,800 Он задаётся вопросом: 37 00:01:53,660 --> 00:01:56,408 «Стоит ли мне передавать мой язык моему ребёнку 38 00:01:56,770 --> 00:02:01,091 или же я лучше буду учить его только мажоритарному языку?» 39 00:02:01,311 --> 00:02:03,222 И так у них в голове 40 00:02:03,900 --> 00:02:05,844 возникают весы, 41 00:02:06,720 --> 00:02:08,425 куда они кладут камешек 42 00:02:09,530 --> 00:02:10,913 каждый раз, 43 00:02:10,913 --> 00:02:14,222 когда у них есть возможность использовать родной язык 44 00:02:14,866 --> 00:02:18,490 для общения, для обращения к традиционной культуре, 45 00:02:19,776 --> 00:02:21,748 и этот камешек кладётся на левую чашу весов. 46 00:02:22,228 --> 00:02:23,840 И каждый раз, когда так случается, 47 00:02:23,840 --> 00:02:25,755 что они не могут использовать родной язык, 48 00:02:25,770 --> 00:02:27,955 и вместо него должны прибегать к мажоритарному языку, 49 00:02:27,958 --> 00:02:30,066 они кладут камешек на правую чашу весов. 50 00:02:31,822 --> 00:02:34,800 Возможность говорить на родном языке даёт людям 51 00:02:34,800 --> 00:02:36,600 силу и гордость, 52 00:02:36,600 --> 00:02:38,720 и поэтому камешки на левой чаше обычно чуть тяжелее. 53 00:02:38,720 --> 00:02:42,128 Но если на правой чаше будет достаточно камешков, 54 00:02:42,560 --> 00:02:44,600 то в итоге весы склонятся в её сторону, 55 00:02:44,600 --> 00:02:47,111 и когда человек будет принимать решение 56 00:02:47,111 --> 00:02:49,160 передавать ли свой язык ребёнку или нет, 57 00:02:49,160 --> 00:02:50,622 он будет считать свой родной язык 58 00:02:50,622 --> 00:02:52,800 обузой, а не даром. 59 00:02:55,200 --> 00:02:58,676 Вопрос в том, как мы можем это изменить? 60 00:02:59,450 --> 00:03:01,777 Давайте сперва задумаемся над тем, 61 00:03:03,511 --> 00:03:04,968 что для каждого языка 62 00:03:04,970 --> 00:03:07,900 есть определённые сферы социальной жизни, где он применяется. 63 00:03:07,900 --> 00:03:08,976 Поэтому любой язык, 64 00:03:08,976 --> 00:03:10,800 который является для кого-то родным, 65 00:03:10,800 --> 00:03:12,990 может использоваться в кругу семьи. 66 00:03:13,790 --> 00:03:16,671 Небольшое число языков может использоваться внутри общины, 67 00:03:16,671 --> 00:03:18,660 ещё какое-то небольшое число -- в одном регионе, 68 00:03:19,288 --> 00:03:22,155 и небольшая группа языков может использоваться 69 00:03:22,511 --> 00:03:24,668 для международного общения. 70 00:03:25,824 --> 00:03:28,640 И даже в этих сферах 71 00:03:28,640 --> 00:03:31,712 встаёт вопрос, может ли человек использовать свой язык 72 00:03:31,712 --> 00:03:35,533 в сферах образования, торговли 73 00:03:35,911 --> 00:03:37,690 или в области технологии? 74 00:03:39,136 --> 00:03:41,952 Чтобы лучше объяснить, 75 00:03:43,200 --> 00:03:46,240 о чём я говорю, я расскажу анекдот. 76 00:03:48,400 --> 00:03:50,400 Допустим, вы отправляетесь 77 00:03:50,400 --> 00:03:52,280 в путешествие вашей мечты в Индию 78 00:03:53,155 --> 00:03:56,102 с восьмичасовой остановкой в Стамбуле. 79 00:03:57,312 --> 00:04:00,640 Вы, может, и не собирались посещать Турцию, 80 00:04:00,896 --> 00:04:04,266 но у вас пересадка, и ваш турецкий друг рассказывал 81 00:04:04,266 --> 00:04:05,933 о чудесном ресторанчике 82 00:04:05,933 --> 00:04:07,400 недалеко от аэропорта, 83 00:04:07,800 --> 00:04:10,600 и вы говорите себе: «Может, я загляну туда во время остановки». 84 00:04:11,022 --> 00:04:12,920 Вы выходите из аэропорта, 85 00:04:13,950 --> 00:04:15,480 добираетесь до ресторана, 86 00:04:15,480 --> 00:04:17,020 и вам подают меню -- 87 00:04:17,020 --> 00:04:18,886 а оно всё на турецком! 88 00:04:20,170 --> 00:04:22,911 Давайте договоримся, для чистоты эксперимента, 89 00:04:22,911 --> 00:04:24,377 что по-турецки вы не говорите. 90 00:04:25,210 --> 00:04:26,535 Что вы будете делать? 91 00:04:28,155 --> 00:04:29,744 Если вам повезёт, 92 00:04:29,744 --> 00:04:32,177 вы найдёте кого-то, кто владеет вашим родным языком: 93 00:04:32,383 --> 00:04:34,264 немецким, английским и так далее. 94 00:04:36,220 --> 00:04:38,000 Но, допустим, вам не повезло, 95 00:04:38,000 --> 00:04:41,066 и никто в ресторане не говорит ни по-немецки ни по-английски. 96 00:04:42,000 --> 00:04:43,377 Так что вы будете делать? 97 00:04:43,377 --> 00:04:45,995 Если вы рассуждаете как я -- а большинство так и сделает -- 98 00:04:45,995 --> 00:04:48,130 вы прибегнете к помощи технологий: 99 00:04:49,535 --> 00:04:52,351 к машинному переводу или электронному словарю. 100 00:04:52,607 --> 00:04:54,196 Будете отдельно искать каждое слово 101 00:04:54,399 --> 00:04:57,733 и в итоге закажете себе восхитительное турецкое блюдо. 102 00:04:59,970 --> 00:05:02,844 Но давайте вместо этого представим такой вариант, 103 00:05:03,610 --> 00:05:06,400 при котором вы носитель миноритарного языка. 104 00:05:07,455 --> 00:05:09,333 Например, нижнелужицкого языка. 105 00:05:09,333 --> 00:05:11,000 Нижнелужицкий язык -- это исчезающий язык, 106 00:05:11,000 --> 00:05:12,488 на котором говорят здесь, в Германии, 107 00:05:12,488 --> 00:05:16,888 примерно в 130 километрах к юго-востоку от этого места. 108 00:05:17,711 --> 00:05:20,667 На нём говорит только пара тысяч человек, преимущественно пожилых. 109 00:05:22,810 --> 00:05:25,111 Допустим, ваш родной язык -- нижнелужицкий. 110 00:05:25,370 --> 00:05:26,773 Вы очутились в ресторане. 111 00:05:26,773 --> 00:05:28,462 Вероятность найти в ресторане человека, 112 00:05:28,462 --> 00:05:31,277 владеющего вашим родным языком, -- крайне мала. 113 00:05:32,280 --> 00:05:36,412 Но, опять же, вы можете прибегнуть к помощи технологий. 114 00:05:36,890 --> 00:05:39,333 Однако, для вашего родного языка 115 00:05:39,333 --> 00:05:41,718 технических решений не существует. 116 00:05:42,010 --> 00:05:44,991 Вам придётся использовать немецкий или английский 117 00:05:44,991 --> 00:05:47,488 в качестве языка-посредника к турецкому. 118 00:05:48,920 --> 00:05:52,382 Конечно, вы в итоге всё равно получите восхитительное турецкое блюдо, 119 00:05:52,382 --> 00:05:54,860 но вы станете думать о том, как бы трудно на вашем месте 120 00:05:54,860 --> 00:05:57,170 пришлось вашему дедушке, который немецким не владел. 121 00:05:58,244 --> 00:05:59,840 Это всего один случай, 122 00:05:59,844 --> 00:06:04,787 но он станет камушком на правой чаше весов, 123 00:06:05,310 --> 00:06:07,053 и, может, потом вы будете размышлять: 124 00:06:07,053 --> 00:06:09,898 «Если у меня будут дети, или ещё один ребёнок, 125 00:06:10,943 --> 00:06:14,726 я не буду передавать им мой язык 126 00:06:14,726 --> 00:06:17,133 из-за всех трудностей, с которыми мне пришлось столкнуться». 127 00:06:19,391 --> 00:06:21,284 А теперь представьте себе 128 00:06:21,284 --> 00:06:26,177 гораздо более серьёзную ситуацию -- 129 00:06:26,177 --> 00:06:28,440 например, вы оказались в больнице. 130 00:06:31,133 --> 00:06:36,161 И вот здесь-то мы и можем помочь -- 131 00:06:36,790 --> 00:06:40,242 «мы» -- это я и вы в этом зале. 132 00:06:41,400 --> 00:06:43,585 У нас есть средства, которые могут помочь. 133 00:06:45,155 --> 00:06:47,355 Если технические средства станут доступны для носителей 134 00:06:47,355 --> 00:06:49,360 миноритарных или малоиспользуемых языков, 135 00:06:50,555 --> 00:06:54,022 то мы немного склоним в нашу сторону левую чашу весов. 136 00:06:54,022 --> 00:06:55,776 Люди не должны думать, 137 00:06:55,776 --> 00:06:57,680 что обязаны использовать миноритарный язык 138 00:06:57,680 --> 00:06:59,488 для общения с внешним миром, 139 00:07:02,341 --> 00:07:06,198 это просто расширяет сферы его применения. 140 00:07:07,910 --> 00:07:10,503 В идеале, 141 00:07:10,503 --> 00:07:13,022 хорошо бы было автоматически переводить на любой язык в мире. 142 00:07:13,022 --> 00:07:16,831 Но, к сожалению, это неосуществимо. 143 00:07:16,831 --> 00:07:19,800 Машинный перевод требует больших корпусов текста. 144 00:07:19,800 --> 00:07:21,088 А для многих языков, 145 00:07:21,088 --> 00:07:23,080 которые исчезают или мало используются, 146 00:07:23,391 --> 00:07:25,439 таких данных просто нет. 147 00:07:26,309 --> 00:07:28,279 Многие из них бесписьменные, 148 00:07:29,000 --> 00:07:32,825 а потому невозможно получить достаточно данных для создания 149 00:07:32,825 --> 00:07:34,390 системы машинного перевода. 150 00:07:34,390 --> 00:07:37,850 Но зато нам доступны лексические данные. 151 00:07:40,244 --> 00:07:43,444 Благодаря работе многих лингвистов 152 00:07:43,444 --> 00:07:45,440 за последние несколько сотен лет 153 00:07:47,777 --> 00:07:49,728 были составлены словари и грамматики 154 00:07:49,728 --> 00:07:51,680 большинства мировых языков. 155 00:07:53,920 --> 00:07:56,511 Но, к сожалению, многие из этих работ 156 00:07:56,511 --> 00:08:00,674 не доступны для мира 157 00:08:00,674 --> 00:08:03,533 и уж тем более для носителей этих миноритарных языков. 158 00:08:04,522 --> 00:08:07,910 Это выходит непреднамеренно, зачастую потому, 159 00:08:07,910 --> 00:08:10,785 что первоначальный тираж этих словарей был небольшим, 160 00:08:11,155 --> 00:08:12,543 и единственные экземпляры 161 00:08:12,543 --> 00:08:16,244 пылятся где-то в университетских библиотеках. 162 00:08:17,511 --> 00:08:21,333 Но у нас есть возможность извлечь эти данные 163 00:08:21,333 --> 00:08:23,330 и сделать их доступными для всего мира. 164 00:08:24,133 --> 00:08:28,377 Фонд Викимедиа -- это одна из лучших организаций, 165 00:08:28,377 --> 00:08:30,555 даже скажу -- ей лучше всех в мире 166 00:08:30,975 --> 00:08:33,396 удаётся делать данные доступными 167 00:08:33,396 --> 00:08:36,688 для большей части населения этой планеты. 168 00:08:38,533 --> 00:08:40,134 Давайте этим и займёмся. 169 00:08:41,000 --> 00:08:43,222 Чтобы немного рассказать о том, 170 00:08:43,224 --> 00:08:45,050 что мы делаем в этом направлении, 171 00:08:45,311 --> 00:08:48,127 я бы хотел представить вам мою организацию -- PanLex, 172 00:08:48,711 --> 00:08:51,888 которая пытается 173 00:08:51,888 --> 00:08:54,146 собрать лексические данные для этой цели. 174 00:08:54,780 --> 00:08:56,830 Она зародилась 12 лет назад 175 00:08:56,830 --> 00:08:59,600 как научно-исследовательский проект в Вашингтонском университете. 176 00:08:59,600 --> 00:09:01,088 Его задачей было показать, 177 00:09:01,088 --> 00:09:03,990 что переводы с языка на язык посредством другого языка 178 00:09:04,377 --> 00:09:07,125 могут служить действенным методом перевода, 179 00:09:07,125 --> 00:09:09,088 в особенности перевода слов. 180 00:09:09,088 --> 00:09:12,223 Вот пример из данных самого PanLex. 181 00:09:12,680 --> 00:09:14,057 Здесь показано, как мы переводим 182 00:09:14,066 --> 00:09:17,805 слово «ev» с турецкого языка, оно означает «дом», 183 00:09:17,805 --> 00:09:19,555 на нижнелужицкий язык, 184 00:09:19,555 --> 00:09:21,201 о котором я рассказывал ранее. 185 00:09:21,201 --> 00:09:23,190 Маловероятно, 186 00:09:24,333 --> 00:09:26,200 что где-то есть турецко-нижнелужицкий словарь, 187 00:09:26,200 --> 00:09:28,244 но если мы пропустим слово 188 00:09:28,244 --> 00:09:30,240 через много-много разных языков-посредников, 189 00:09:30,488 --> 00:09:32,600 то сможем получить его удачный перевод. 190 00:09:34,198 --> 00:09:36,911 Когда мы продемонстрировали это в нашем исследовательском проекте, 191 00:09:36,911 --> 00:09:39,631 основатель PanLex, доктор Джонатан Пул, 192 00:09:40,711 --> 00:09:43,606 решил: «Почему бы это и вправду не сделать?» 193 00:09:43,606 --> 00:09:45,470 Поэтому он основал некоммерческую организацию, 194 00:09:45,470 --> 00:09:48,522 чтобы собрать как можно больше лексических данных и сделать их открытыми. 195 00:09:48,911 --> 00:09:51,066 Этим мы и занимаемся уже 12 лет. 196 00:09:51,066 --> 00:09:54,516 За это время мы собрали тысячи словарей, 197 00:09:54,516 --> 00:09:56,479 извлекли из них лексические данные, 198 00:09:56,479 --> 00:09:58,310 и составили базу данных, 199 00:09:58,310 --> 00:10:01,180 которая позволяет осуществлять опосредованный перевод 200 00:10:01,340 --> 00:10:03,755 через любой из... 201 00:10:03,755 --> 00:10:05,866 Сейчас у нас есть около 5 500 202 00:10:05,860 --> 00:10:08,185 из 7 500 языков мира. 203 00:10:08,511 --> 00:10:10,685 И, конечно, 204 00:10:10,685 --> 00:10:12,221 мы пытаемся увеличить это число 205 00:10:12,221 --> 00:10:14,784 и увеличить число данных по каждому отдельному языку. 206 00:10:17,220 --> 00:10:21,111 И тогда возникает вопрос: 207 00:10:22,079 --> 00:10:25,663 что мы сможем сделать, чтобы объединить усилия? 208 00:10:26,680 --> 00:10:28,931 Мы в PanLex счастливы видеть, 209 00:10:28,931 --> 00:10:31,260 как происходит накопление лексических данных, 210 00:10:31,260 --> 00:10:34,175 которым недавно занялись Викиданные. 211 00:10:35,155 --> 00:10:37,548 Так увлекательно наблюдать за деятельностью организаций, 212 00:10:37,550 --> 00:10:39,476 работающих в одной области, 213 00:10:39,476 --> 00:10:41,253 но занимающихся разными направлениями. 214 00:10:41,535 --> 00:10:44,351 Мы так рады видеть, 215 00:10:44,733 --> 00:10:46,466 результаты этого в Викиданных. 216 00:10:46,466 --> 00:10:51,014 И мы надеемся на сотрудничество с Викиданными. 217 00:10:53,844 --> 00:10:56,271 Мне кажется, что опыт, 218 00:10:56,271 --> 00:10:58,022 который мы приобрели за эти 12 лет 219 00:10:58,022 --> 00:11:01,555 не только в сборе лексических данных, но и в проектировании баз данных, 220 00:11:01,557 --> 00:11:03,908 может пригодиться Викиданным. 221 00:11:03,910 --> 00:11:06,811 И, с другой стороны, я думаю... 222 00:11:08,415 --> 00:11:11,055 Я в особенности счастлив, что Викиданные могут использовать 223 00:11:11,743 --> 00:11:14,549 краудсорсинг для сбора данных. 224 00:11:15,129 --> 00:11:18,047 В данный момент PanLex использует только 225 00:11:18,399 --> 00:11:20,959 печатные словари или другие источники лексических данных, 226 00:11:21,170 --> 00:11:22,670 но мы не используем краудсорсинг. 227 00:11:22,670 --> 00:11:24,920 У нас просто нет для этого технических возможностей. 228 00:11:24,920 --> 00:11:26,931 И, конечно, Фонд Викимедиа -- 229 00:11:26,933 --> 00:11:29,080 это мировой эксперт в области краудсорсинга. 230 00:11:31,848 --> 00:11:33,728 И мне не терпится увидеть, 231 00:11:33,728 --> 00:11:35,680 как мы вместе сможем применить наш опыт. 232 00:11:38,533 --> 00:11:41,600 Но, в целом, мне кажется, задуматься надо вот о чём: 233 00:11:41,600 --> 00:11:43,457 когда мы начинали работать над этим, 234 00:11:43,461 --> 00:11:45,133 это казалось нам не особо важным. 235 00:11:45,133 --> 00:11:47,533 Мы просто сидим, изучая грамматические формы 236 00:11:47,533 --> 00:11:51,911 или пролистываем словари, древние словари, 237 00:11:51,911 --> 00:11:53,977 а иногда даже недавно опубликованные словари, 238 00:11:53,977 --> 00:11:57,466 и изучаем орфографию слов, 239 00:11:57,466 --> 00:11:59,994 и это кажется такой мелочью. 240 00:11:59,994 --> 00:12:02,556 Но изредка нам надо оглядываться на сделанное. 241 00:12:02,556 --> 00:12:04,951 Хоть порой то, что мы делаем, 242 00:12:06,231 --> 00:12:08,831 может показаться рутинным, 243 00:12:10,091 --> 00:12:12,007 мы занимаемся крайне важной работой. 244 00:12:13,010 --> 00:12:15,666 На мой взгляд, это самый лучший способ 245 00:12:15,666 --> 00:12:19,342 помочь исчезающим языкам и сделать всё, 246 00:12:19,342 --> 00:12:21,488 чтобы лингвистическое разнообразие нашей планеты 247 00:12:21,488 --> 00:12:25,460 сохранилось до конца этого века или даже дольше. 248 00:12:26,444 --> 00:12:29,644 Вполне вероятно, что работа, которой мы сегодня занимаемся, 249 00:12:29,644 --> 00:12:32,577 повлечёт за собой сохранение языков 250 00:12:32,577 --> 00:12:35,355 и их передачу следующим поколениям, 251 00:12:35,355 --> 00:12:36,955 и не даст им исчезнуть. 252 00:12:38,527 --> 00:12:40,605 Просто помните, 253 00:12:40,605 --> 00:12:43,207 что даже если вы просто сидите за компьютером 254 00:12:43,207 --> 00:12:44,540 и правите отдельную статью, 255 00:12:44,540 --> 00:12:49,707 и добавляете форму данных какого-то миноритарного языка 256 00:12:49,707 --> 00:12:51,796 для каждого существительного, 257 00:12:51,800 --> 00:12:54,577 даже то немногое, что вы делаете сейчас, 258 00:12:54,577 --> 00:12:57,528 может оказаться причиной того, 259 00:12:57,528 --> 00:12:59,155 что язык просуществует 260 00:12:59,155 --> 00:13:01,060 до конца этого века или даже дольше. 261 00:13:02,591 --> 00:13:03,703 Большое спасибо, 262 00:13:03,703 --> 00:13:05,597 и я готов ответить на ваши вопросы. 263 00:13:06,222 --> 00:13:08,373 (аплодисменты) 264 00:13:23,688 --> 00:13:24,977 (голос из зала 1) Спасибо! 265 00:13:24,977 --> 00:13:26,701 - Спасибо за ваш доклад. - Спасибо. 266 00:13:26,701 --> 00:13:28,777 (голос из зала 1) У меня есть вопрос насчёт словарей. 267 00:13:28,777 --> 00:13:30,977 Вы сказали, что работаете с печатными изданиями? 268 00:13:30,977 --> 00:13:32,312 - Да. - (голос из зала 1) Вопрос: 269 00:13:32,312 --> 00:13:34,511 какие данные вы берёте из этих словарей 270 00:13:34,511 --> 00:13:38,222 и как вы выходите из ситуации с авторскими правами? 271 00:13:38,222 --> 00:13:41,060 Так и думал, что меня первым делом об этом спросят. 272 00:13:41,060 --> 00:13:42,827 (смех) 273 00:13:42,827 --> 00:13:46,358 Начнём с того, что в PanLex 274 00:13:46,358 --> 00:13:50,244 мы проконсультировались у наших юристов: 275 00:13:52,734 --> 00:13:57,466 хотя составление и систематизация словаря охраняется авторским правом, 276 00:13:57,466 --> 00:14:03,260 сам перевод слов авторским правом не охраняется. 277 00:14:04,170 --> 00:14:05,808 Вот хороший тому пример: 278 00:14:05,808 --> 00:14:10,315 по законодательству США телефонный справочник охраняется 279 00:14:10,836 --> 00:14:11,965 авторским правом. 280 00:14:11,965 --> 00:14:16,800 Но само утверждение, что номер такого-то человека -- такое-то число, 281 00:14:16,800 --> 00:14:18,190 не охраняется. 282 00:14:21,666 --> 00:14:23,444 Как я уже сказал, 283 00:14:23,444 --> 00:14:25,311 вот так, согласно нашим правоведам, 284 00:14:25,311 --> 00:14:27,333 мы выходим из этой ситуации. 285 00:14:27,333 --> 00:14:30,666 Но если и этот правовой аргумент недостаточно убедителен, 286 00:14:30,666 --> 00:14:32,063 то следует помнить, 287 00:14:32,063 --> 00:14:38,269 что у большинства этих лексических данных 288 00:14:39,355 --> 00:14:40,530 авторские права уже истекли. 289 00:14:40,530 --> 00:14:42,822 У значительного числа словарей авторские права истекли, 290 00:14:42,822 --> 00:14:44,333 и они могут свободно использоваться. 291 00:14:44,333 --> 00:14:46,783 Но, к примеру, совсем другое дело -- 292 00:14:47,311 --> 00:14:49,644 если мы работаем с недавно вышедшим словарём, 293 00:14:49,640 --> 00:14:51,577 мы не станем его сканировать и распознавать, 294 00:14:51,577 --> 00:14:53,439 мы просто напишем его составителю. 295 00:14:53,439 --> 00:14:57,600 На деле, большинство лингвистов рады, 296 00:14:57,600 --> 00:14:59,600 что мы можем сделать их данные доступными для всех. 297 00:14:59,600 --> 00:15:01,267 И они говорят: «Конечно, пожалуйста, 298 00:15:01,267 --> 00:15:03,493 загрузите их и сделайте доступными для всех». 299 00:15:05,533 --> 00:15:08,424 Так что, по крайней мере согласно нашим юристам, 300 00:15:08,424 --> 00:15:09,466 мы можем это делать, 301 00:15:09,466 --> 00:15:11,177 но если вы не хотите этим заморачиваться, 302 00:15:11,177 --> 00:15:15,644 очень легко получить эти данные в открытом доступе. 303 00:15:26,288 --> 00:15:28,470 - (голос из зала 2) Здравствуйте. - Здравствуйте. 304 00:15:28,470 --> 00:15:29,830 (голос из зала 2) Расскажите, 305 00:15:29,830 --> 00:15:35,031 как человек, владеющий нижнелужицким, получает доступ к данным. 306 00:15:35,031 --> 00:15:38,355 А именно, как эта информация к нему поступает 307 00:15:38,357 --> 00:15:40,977 и как это может помочь убедить его 308 00:15:40,977 --> 00:15:42,800 попробовать... 309 00:15:42,800 --> 00:15:46,266 Отличный вопрос, над которым я сам много думал, 310 00:15:46,266 --> 00:15:49,759 потому что считаю, что обеспечение доступа к данным -- 311 00:15:50,270 --> 00:15:53,244 это на самом деле многоступенчатый процесс. 312 00:15:53,244 --> 00:15:56,288 Во-первых, это сохранение данных, надо следить, чтобы данные не исчезали. 313 00:15:56,288 --> 00:15:59,177 Во-вторых, надо следить, чтобы с ними можно было взаимодействовать 314 00:15:59,177 --> 00:16:01,844 и использовать их. 315 00:16:01,844 --> 00:16:05,631 И, в-третьих, надо убедиться, что они доступны всем. 316 00:16:05,631 --> 00:16:07,333 Если говорить о PanLex, 317 00:16:07,333 --> 00:16:09,755 у нас для этого можно использовать интерфейс API, 318 00:16:09,755 --> 00:16:11,888 но обычный пользователь его использовать не сможет. 319 00:16:11,888 --> 00:16:14,847 Но мы разработали и другие интерфейсы. 320 00:16:15,155 --> 00:16:19,727 Если вы зайдёте на *translate.panlex.org*, 321 00:16:19,728 --> 00:16:22,711 вы сможете переводить на основе нашей базы данных. 322 00:16:22,711 --> 00:16:25,864 Если хотите поковыряться в API, зайдите на *dev.panlex.org*, 323 00:16:25,866 --> 00:16:29,222 и вы сможете найти кучу информации по API, или наберите *api.panlex.org*. 324 00:16:30,950 --> 00:16:32,542 Но необходим и следующий шаг: 325 00:16:32,542 --> 00:16:36,577 даже если вы сделаете ваши данные полностью доступными для всех, 326 00:16:36,570 --> 00:16:40,533 со всеми нужными сервисами, позволяющими получить к ним доступ, 327 00:16:41,210 --> 00:16:43,244 если вы не будете эти сервисы продвигать, 328 00:16:43,244 --> 00:16:45,058 люди не смогут их использовать. 329 00:16:45,058 --> 00:16:47,177 И, честно говоря... 330 00:16:48,827 --> 00:16:51,044 Мы это мало обсуждаем, 331 00:16:51,044 --> 00:16:52,955 и у нас нет верного решения для этой проблемы. 332 00:16:52,955 --> 00:16:54,800 Как нам обеспечить... 333 00:16:55,022 --> 00:16:56,933 Например, я совсем недавно, 334 00:16:56,933 --> 00:16:59,647 всего пару лет назад, узнал о Викиданных, 335 00:16:59,647 --> 00:17:02,673 а ведь я интересуюсь такими вещами. 336 00:17:02,970 --> 00:17:07,177 Так как нам разрекламировать себя? 337 00:17:07,177 --> 00:17:08,780 Я пока оставлю этот вопрос открытым. 338 00:17:08,780 --> 00:17:10,690 У меня нет на него верного ответа. 339 00:17:10,800 --> 00:17:12,888 Но для того, чтобы это сделать, 340 00:17:12,888 --> 00:17:14,880 нам нужно выполнить самые первые шаги. 341 00:17:22,133 --> 00:17:24,777 (голос из зала 3) Разве для осуществления машинного перевода 342 00:17:24,777 --> 00:17:27,822 нам не нужна память переводов? 343 00:17:27,827 --> 00:17:30,666 Я не уверен, что отдельных слов, 344 00:17:30,666 --> 00:17:32,918 которые мы вносим в Викиданные, 345 00:17:32,918 --> 00:17:36,558 словосочетаний, которые мы вносим в Викиданные, 346 00:17:36,558 --> 00:17:41,130 или как обычные элементы Викиданных, или как лексемы Викиданных, 347 00:17:41,130 --> 00:17:43,953 хватит для осуществления надлежащего перевода. 348 00:17:43,955 --> 00:17:46,600 Нам нужны целые предложения, например, для... 349 00:17:46,772 --> 00:17:48,320 (Бенджамин) Да, точно. 350 00:17:48,577 --> 00:17:51,422 (голос из зала 3) И где мы получим такую структуру данных? 351 00:17:51,422 --> 00:17:55,177 Я не уверен, что сейчас 352 00:17:55,177 --> 00:17:59,533 Викиданные могут хорошо справиться 353 00:17:59,533 --> 00:18:03,196 с проблемой памяти переводов, 354 00:18:04,324 --> 00:18:05,965 *TranslateWiki.net* 355 00:18:05,965 --> 00:18:09,490 частично заполняет это пробел... 356 00:18:12,111 --> 00:18:15,000 Должны ли мы что-то с этим сделать или мы должны... 357 00:18:15,000 --> 00:18:17,133 Я крайне вам признателен за вопрос, 358 00:18:17,135 --> 00:18:18,715 я уже затрагивал его, 359 00:18:18,715 --> 00:18:20,571 но с удовольствием отвечу ещё раз. 360 00:18:21,356 --> 00:18:24,955 Именно по этой причине PanLex и работает с лексическими данными, 361 00:18:24,955 --> 00:18:27,030 и вот почему мне так нравятся лексические данные 362 00:18:27,030 --> 00:18:29,935 как противовес... Не как противовес, а как дополнение 363 00:18:29,935 --> 00:18:35,207 к системам машинного перевода и вообще к машинному переводу. 364 00:18:35,900 --> 00:18:39,240 Как вы сказали, машинный перевод требует определённых данных, 365 00:18:39,740 --> 00:18:43,123 и для большинства мировых языков таких данных нет. 366 00:18:43,123 --> 00:18:44,966 По большинству мировых языков 367 00:18:44,966 --> 00:18:46,479 они просто не получены. 368 00:18:46,650 --> 00:18:48,447 Но это не значит, что мы должны сдаться. 369 00:18:48,447 --> 00:18:49,627 С чего бы? 370 00:18:51,260 --> 00:18:54,444 Если мне нужно перевести меню на турецком, 371 00:18:54,755 --> 00:18:59,280 перевод лексем отлично для этого подойдёт. 372 00:18:59,280 --> 00:19:01,715 Я не говорю, что его можно использовать 373 00:19:01,715 --> 00:19:04,600 для идеального перевода связного текста. 374 00:19:04,600 --> 00:19:06,866 Под переводом лексем я имею в виду пословный перевод, 375 00:19:06,866 --> 00:19:09,670 а пословный перевод может быть крайне полезен, 376 00:19:12,231 --> 00:19:14,708 Смешно вспоминать, но у нас и не было доступа 377 00:19:14,708 --> 00:19:16,620 к хорошей системе машинного перевода. 378 00:19:16,620 --> 00:19:20,191 До недавнего времени ни у кого не было к ним доступа. 379 00:19:20,191 --> 00:19:23,649 Мы все обходились словарями, 380 00:19:23,649 --> 00:19:27,847 и это прекрасный источник данных. 381 00:19:28,311 --> 00:19:31,288 И раз у нас есть данные, почему бы не сделать их доступными 382 00:19:31,288 --> 00:19:34,377 для всего мира и для носителей этих языков? 383 00:19:36,422 --> 00:19:38,666 (голос из зала 4) Здравствуйте, какими принципами 384 00:19:38,666 --> 00:19:40,666 вы руководствуетесь, когда носители... Я здесь! 385 00:19:40,666 --> 00:19:43,253 - Где вы? Так, вижу. - (голос из зала 4) Извините. (смеётся) 386 00:19:43,253 --> 00:19:44,577 ...когда сами носители 387 00:19:44,577 --> 00:19:47,320 против размещения каких-то данных в PanLex? 388 00:19:47,320 --> 00:19:48,933 Отличный вопрос! 389 00:19:48,933 --> 00:19:51,955 Мы это решаем так: 390 00:19:51,955 --> 00:19:56,287 если словарь уже опубликован и доступен для общественности -- 391 00:19:56,666 --> 00:19:58,133 это хороший знак. 392 00:19:58,133 --> 00:20:02,400 Если вы можете найти его в магазине или в университетской библиотеке, 393 00:20:02,400 --> 00:20:04,690 или в публичной библиотеке, открытой для всех, 394 00:20:04,690 --> 00:20:08,080 это верный признак того, что носители это уже решили. 395 00:20:08,080 --> 00:20:14,547 (голос из зала 4) [неразборчиво] 396 00:20:15,740 --> 00:20:18,266 (голос из зала 5) Пожалуйста, [неразборчиво], в микрофон. 397 00:20:19,295 --> 00:20:20,447 Повторите, пожалуйста! 398 00:20:20,447 --> 00:20:23,307 (голос из зала 4) У лингвистов не всегда есть разрешение носителей языка 399 00:20:23,307 --> 00:20:24,387 на публикацию таких вещей, 400 00:20:24,387 --> 00:20:27,533 они частенько публикуют что-то без согласия носителей. 401 00:20:27,533 --> 00:20:29,097 Да, это совершенно верно! 402 00:20:29,577 --> 00:20:32,533 Даже скажу, это... 403 00:20:32,533 --> 00:20:34,422 Это случается. 404 00:20:34,422 --> 00:20:36,770 Но, я бы сказал, в незначительном числе случаев, 405 00:20:36,770 --> 00:20:40,955 как правило, в Северной Америке, 406 00:20:40,955 --> 00:20:43,425 но иногда это случается и с языками Южной Америки. 407 00:20:44,765 --> 00:20:46,488 Мы должны это учитывать. 408 00:20:46,488 --> 00:20:49,288 Если мы, например, узнаём о том, 409 00:20:49,288 --> 00:20:52,377 что какие-то данные в PanLex 410 00:20:52,377 --> 00:20:56,330 не должны стать доступными для всего остального мира, 411 00:20:56,330 --> 00:20:58,040 то, конечно, мы их удалим. 412 00:20:58,040 --> 00:20:59,310 (голос из зала 4) Хорошо. 413 00:21:01,281 --> 00:21:02,451 Мы можем и не прислушаться, 414 00:21:02,451 --> 00:21:04,391 если речь идёт об авторских правах, 415 00:21:04,391 --> 00:21:06,542 но мы прислушаемся к традиционным общинам, 416 00:21:06,542 --> 00:21:08,157 и это главное отличие. 417 00:21:08,157 --> 00:21:10,252 (голос из зала 4) Да, это я и имела в виду. 418 00:21:15,022 --> 00:21:16,755 И возникает интересный момент, 419 00:21:16,755 --> 00:21:18,440 который заключается в том, 420 00:21:18,844 --> 00:21:22,244 что иногда это большой вопрос: а кто выступает от имени носителей? 421 00:21:23,000 --> 00:21:27,911 Я как-то посещал Юго-Запад США 422 00:21:27,911 --> 00:21:29,777 и работал с людьми, 423 00:21:29,777 --> 00:21:32,288 которые занимались родными языками народов пуэбло. 424 00:21:36,053 --> 00:21:38,964 Существует около шести языков народов пуэбло -- 425 00:21:38,964 --> 00:21:40,220 смотря как их делить -- 426 00:21:40,220 --> 00:21:41,955 на которых говорят в этом регионе. 427 00:21:41,955 --> 00:21:44,022 Но на этих языках говорят в 18 разных поселениях, 428 00:21:44,320 --> 00:21:47,066 и у каждого есть свои племенные правительства, 429 00:21:47,066 --> 00:21:50,022 и у каждого может быть своя точка зрения, 430 00:21:50,022 --> 00:21:54,007 стоит ли раскрывать свой язык посторонним или нет. 431 00:21:56,626 --> 00:21:58,170 Например, Зуни-Пуэбло -- 432 00:21:58,170 --> 00:22:01,472 единственное поселение пуэбло, в котором говорят на языке зуни. 433 00:22:02,923 --> 00:22:05,274 И им хочется, чтобы их язык распространялся, 434 00:22:05,274 --> 00:22:07,694 на нём есть надписи на указателях и всём таком, что здорово. 435 00:22:07,694 --> 00:22:10,637 Но о некоторых других языках 436 00:22:10,644 --> 00:22:12,351 одно поселение может сказать: 437 00:22:13,051 --> 00:22:15,866 «Мы не хотим, чтобы посторонние знали наш язык». 438 00:22:15,871 --> 00:22:18,838 Но в соседнем поселении, говорящем на том же языке, вам скажут: 439 00:22:18,838 --> 00:22:21,666 «Мы хотим, чтобы наш язык был доступен для посторонних 440 00:22:21,666 --> 00:22:24,088 через эти технические средства, 441 00:22:24,088 --> 00:22:26,560 потому что мы хотим, чтобы наш язык существовал дальше». 442 00:22:26,560 --> 00:22:29,488 И это поднимает очень интересную этическую дилемму. 443 00:22:29,488 --> 00:22:31,651 Потому что если вы прекратите изучение, сказав: 444 00:22:31,651 --> 00:22:34,622 «Хорошо, я прекращаю, потому что то поселение сказало прекратить» -- 445 00:22:34,622 --> 00:22:36,711 не нарушаете ли вы интересы другого поселения, 446 00:22:36,711 --> 00:22:39,360 потому что они и правда хотят, чтобы вы его распространили. 447 00:22:39,360 --> 00:22:42,755 Думаю, на этот вопрос нет однозначного ответа. 448 00:22:42,755 --> 00:22:44,955 Но, по крайней мере, если говорить о PanLex... 449 00:22:44,955 --> 00:22:48,458 Хочу отметить, что мы с таким не сталкивались, 450 00:22:48,458 --> 00:22:49,937 насколько мне известно. 451 00:22:50,933 --> 00:22:52,920 Это может быть частично из-за того... 452 00:22:53,666 --> 00:22:55,294 Возвращаясь к его вопросу, 453 00:22:55,716 --> 00:22:57,790 нам нужно активнее продвигать наш продукт. (смеётся) 454 00:22:58,660 --> 00:23:02,155 Но, в целом, насколько я знаю, 455 00:23:02,155 --> 00:23:04,488 у нас таких проблем не возникало. 456 00:23:04,488 --> 00:23:06,871 Но наша стратегия тут такова: 457 00:23:06,871 --> 00:23:10,975 если носители скажут, что не хотят своих данных в базе, 458 00:23:10,975 --> 00:23:12,095 то мы их удалим. 459 00:23:12,095 --> 00:23:14,596 (голос из зала 4) У нас такое было в Викиданных и Википедии... 460 00:23:14,596 --> 00:23:16,280 - Да ? - (голос из зала 4) В комментариях. 461 00:23:16,280 --> 00:23:17,617 - Да? - (голос из зала 4) Часто. 462 00:23:17,617 --> 00:23:20,488 Могу такое представить в комментариях к фотографиям или чему-то такому. 463 00:23:20,488 --> 00:23:21,900 (голос из зала 4) Именно. 464 00:23:27,177 --> 00:23:33,170 (голос из зала 6) У меня есть вопрос насчёт краудсорсинга. 465 00:23:34,087 --> 00:23:36,654 Когда мы работаем вместе с пользователями и просим их 466 00:23:36,654 --> 00:23:40,480 аннотировать или добавлять данные в массив данных, 467 00:23:40,480 --> 00:23:44,200 меня немного пугает то, 468 00:23:44,711 --> 00:23:49,244 что как редактор я могу видеть только, что каких-то данных не хватает. 469 00:23:49,244 --> 00:23:53,242 Но если я буду знать, какие из них наиболее важны, 470 00:23:53,582 --> 00:23:56,672 когда буду тратить на это всё время, 471 00:23:57,755 --> 00:24:01,198 то это бы послужило хорошей мотивацией. 472 00:24:01,200 --> 00:24:04,222 Хотелось бы узнать, есть ли у вас какая-то система, 473 00:24:04,222 --> 00:24:07,866 вроде этого: мы знаем, какие пробелы есть в наших данных, 474 00:24:07,866 --> 00:24:12,088 мы можем лингвистически обосновать, 475 00:24:12,088 --> 00:24:15,530 что если мы разметим именно эти данные, то они окажут наибольшее воздействие. 476 00:24:15,530 --> 00:24:17,152 Мне представляется, 477 00:24:18,202 --> 00:24:21,405 что лексема «дом» будет обладать большой силой воздействия... 478 00:24:21,405 --> 00:24:24,977 Может, даже не лексемы, а какие-то данные или что-то такое. 479 00:24:24,977 --> 00:24:28,947 Мне интересно, если ли у вас что-то такое, 480 00:24:30,217 --> 00:24:35,480 что можно использовать, чтобы направлять усилия пользователей? 481 00:24:35,840 --> 00:24:37,200 Отличный вопрос. 482 00:24:37,200 --> 00:24:41,216 У Викиданных есть много... 483 00:24:41,216 --> 00:24:44,666 Извините, у PanLex есть множество списков Сводеша. 484 00:24:44,666 --> 00:24:47,511 Вероятно, у нас самое большое собрание списков Сводеша в мире, 485 00:24:47,511 --> 00:24:48,555 что любопытно. 486 00:24:48,555 --> 00:24:50,212 Уточню, список Сводеша -- 487 00:24:50,212 --> 00:24:56,244 это стандартизированный перечень лексических элементов, 488 00:24:56,244 --> 00:25:00,040 который может использоваться для анализа языков. 489 00:25:00,040 --> 00:25:02,730 Он содержит самые базовые понятия. 490 00:25:02,730 --> 00:25:05,003 Есть разные виды списков Сводеша. 491 00:25:05,003 --> 00:25:07,328 Обычно в них 100 или 213 элементов, 492 00:25:07,328 --> 00:25:08,911 и они могут содержать 493 00:25:08,911 --> 00:25:12,777 слова типа «дом», и «глаз», и «кожа», 494 00:25:12,777 --> 00:25:14,444 и другие базовые понятия, 495 00:25:14,444 --> 00:25:16,331 которые вы сможете найти в любом языке. 496 00:25:16,331 --> 00:25:19,888 И лучше всего вначале делать доступным 497 00:25:19,888 --> 00:25:22,988 именно этот тип данных. 498 00:25:29,090 --> 00:25:31,133 Как я уже говорил, 499 00:25:31,133 --> 00:25:33,600 мы ещё не занимались краудсорсингом, 500 00:25:33,600 --> 00:25:36,066 и мы очень рады использовать эту возможность. 501 00:25:36,066 --> 00:25:37,554 Я так счастлив рассказывать 502 00:25:37,554 --> 00:25:38,993 на конференции о том, 503 00:25:38,993 --> 00:25:42,982 как можно использовать краудсорсинг 504 00:25:42,982 --> 00:25:45,931 и о его организации, 505 00:25:46,200 --> 00:25:48,867 и вопросы такого рода могут возникать. 506 00:25:51,288 --> 00:25:53,400 Пожалуй, мой ответ вам будет таков: 507 00:25:53,400 --> 00:25:55,376 у нас есть перечень приоритетных задач... 508 00:25:55,376 --> 00:25:57,684 Могу точно сказать, у нас есть список, 509 00:25:57,684 --> 00:25:59,730 какие языки мы разыскиваем в первую очередь. 510 00:25:59,730 --> 00:26:02,222 Мы ищем такие языки, 511 00:26:02,222 --> 00:26:04,666 для которых сейчас нет никаких технических решений, -- 512 00:26:04,666 --> 00:26:06,977 и это чаще всего миноритарные языки, 513 00:26:06,977 --> 00:26:09,280 и обычно это миноритарные языки -- 514 00:26:09,280 --> 00:26:12,096 и уделяем им внимание в первую очередь. 515 00:26:13,916 --> 00:26:16,844 Но если говорить об отдельных лексических элементах, 516 00:26:16,851 --> 00:26:20,244 обычно мы загружаем новые данные, 517 00:26:20,244 --> 00:26:22,977 внося в базу всё, что есть в словаре. 518 00:26:22,977 --> 00:26:25,911 Мы полагаемся на словарь 519 00:26:25,911 --> 00:26:28,333 в плане выбора лексических элементов, 520 00:26:28,333 --> 00:26:31,500 а не ищем понятие «дом» по всем языкам. 521 00:26:31,500 --> 00:26:35,000 Но когда дело дойдёт до краудсорсинга, нам надо будет расставить приоритеты. 522 00:26:35,000 --> 00:26:37,912 Это такая возможность для исследований и развития. 523 00:26:40,044 --> 00:26:43,088 (голос из зала 7) Здравствуйте, я Виктор. Это потрясающе. 524 00:26:45,108 --> 00:26:46,888 У вас есть слайды на эту тему -- 525 00:26:46,888 --> 00:26:49,355 вы можете немного рассказать о техническом состоянии, 526 00:26:49,355 --> 00:26:51,260 об обмене данными, 527 00:26:51,260 --> 00:26:57,022 потоками данных между Викиданными и PanLex. 528 00:26:57,022 --> 00:26:59,955 Вы его уже внедрили? 529 00:26:59,955 --> 00:27:03,888 И как вы решаете проблемы, 530 00:27:03,888 --> 00:27:07,133 связанные с обменом информацией или с системой обратной связи 531 00:27:07,140 --> 00:27:09,950 между PanLex и Викиданными? 532 00:27:09,950 --> 00:27:13,733 Мы пока официально не присоединены к Викиданным, 533 00:27:13,733 --> 00:27:15,343 и, повторюсь, это то, 534 00:27:15,343 --> 00:27:17,824 что я очень хочу обсудить сегодня с участниками конференции. 535 00:27:17,824 --> 00:27:20,644 У нас есть обмен информацией с Викисловарём, 536 00:27:21,774 --> 00:27:24,720 но, честно скажу, Викиданные больше подходят 537 00:27:24,720 --> 00:27:26,755 для поиска нужной нам информации. 538 00:27:27,355 --> 00:27:29,201 Там только лексические данные, 539 00:27:29,201 --> 00:27:32,311 и нам меньше придётся заниматься анализом данных и их извлечением. 540 00:27:32,933 --> 00:27:37,148 И мой ответ: пока нет, но мы бы очень этого хотели. 541 00:27:37,148 --> 00:27:39,800 (голос из зала 7) А что может этому препятствовать? 542 00:27:39,800 --> 00:27:43,511 Викиданные уже поддерживают несколько языков, 543 00:27:43,511 --> 00:27:46,533 но я зашёл на *translate.panlex.org*, 544 00:27:46,533 --> 00:27:49,311 и вы поддерживаете много разных диалектов, 545 00:27:49,311 --> 00:27:50,888 гораздо больше, чем Викиданные. 546 00:27:50,888 --> 00:27:53,316 В чём, по-вашему, разница 547 00:27:53,316 --> 00:27:57,177 между мгновенным переводом и пословным, 548 00:27:57,177 --> 00:27:58,915 прикладной задачей 549 00:27:59,665 --> 00:28:03,777 и попыткой построить карту знаний? 550 00:28:03,777 --> 00:28:05,866 Картирование знаний было бы интересной задачей. 551 00:28:05,866 --> 00:28:07,336 Мы с интересом обсуждали то, 552 00:28:07,336 --> 00:28:12,311 как Викиданные организуют их лексические данные, 553 00:28:12,311 --> 00:28:13,777 ваши лексические данные, 554 00:28:13,777 --> 00:28:16,044 и как мы организуем наши лексические данные. 555 00:28:16,044 --> 00:28:20,933 И есть нюансы, которые потребуют иного способа картирования, 556 00:28:21,460 --> 00:28:24,577 он необязательно будет целиком автоматизированным, 557 00:28:24,577 --> 00:28:27,422 но мы сможем разработать методы, которые позволят нам это сделать. 558 00:28:27,422 --> 00:28:30,796 Вы привели в пример диалекты языка. 559 00:28:30,796 --> 00:28:34,111 Мы становимся крайне «дотошными», когда речь идёт о диалектах. 560 00:28:34,111 --> 00:28:36,311 То есть у нас есть источник, который говорит, 561 00:28:36,311 --> 00:28:38,755 что на вот этом диалекте 562 00:28:38,755 --> 00:28:41,695 говорят на левом берегу реки в Папуа-Новой Гвинее, 563 00:28:41,695 --> 00:28:42,903 а другой источник скажет нам, 564 00:28:42,903 --> 00:28:44,955 что на таком диалекте говорят на правом берегу реки, 565 00:28:44,955 --> 00:28:46,720 то мы будем их считать отдельными языками. 566 00:28:46,720 --> 00:28:51,072 Мы так поступаем, чтобы сохранить как можно больше данных. 567 00:28:52,222 --> 00:28:54,355 Картирование данных так, как это делают Викиданные... 568 00:28:54,355 --> 00:28:56,938 Я бы очень хотел обсудить, 569 00:28:56,938 --> 00:29:00,696 какие коды используются для языков 570 00:29:00,696 --> 00:29:06,323 в Викиданных. 571 00:29:07,755 --> 00:29:12,320 Для этого мы тоже используем очень «дотошный» способ. 572 00:29:13,856 --> 00:29:17,440 Мы обычно пользуемся стандартом ISO 6393, 573 00:29:17,866 --> 00:29:19,643 который предлагает справочник «Этнолог», 574 00:29:19,643 --> 00:29:23,840 и к каждому индивидуальному коду мы добавляем различные варианты, 575 00:29:23,840 --> 00:29:25,711 а также уже существующие наборы символов 576 00:29:25,711 --> 00:29:29,169 для региональных диалектов и социолектов. 577 00:29:30,240 --> 00:29:32,762 Тут есть возможности для обсуждения и работы. 578 00:29:35,622 --> 00:29:39,466 (голос из зала 8) Есть ли у вас конвейер для оптического распознавания символов? 579 00:29:39,466 --> 00:29:44,533 Потому что мы пытались распознавать язык майя 580 00:29:44,533 --> 00:29:47,928 и результатов не добились. 581 00:29:47,928 --> 00:29:49,933 Он ничего не может распознать. 582 00:29:49,933 --> 00:29:52,512 - О да! (смеётся) - (голос из зала 8) И...да. 583 00:29:52,512 --> 00:29:56,078 Если можно использовать ваши конвейеры... 584 00:29:56,078 --> 00:30:00,288 И ещё вопрос: бывает, что коды ISO не совпадают друг с другом, 585 00:30:00,288 --> 00:30:01,641 иногда они утверждают: 586 00:30:01,641 --> 00:30:04,199 «Это один язык, а это совершенно другой», 587 00:30:04,199 --> 00:30:06,555 но есть источники, которые утверждают совсем другое, 588 00:30:06,555 --> 00:30:10,133 вы об этом говорили, но они часто используют разные коды. 589 00:30:10,133 --> 00:30:12,955 Как вы с этим справляетесь? 590 00:30:12,956 --> 00:30:15,155 Замечательный вопрос! 591 00:30:15,155 --> 00:30:17,120 Мне он очень понравился. 592 00:30:17,120 --> 00:30:20,400 По сути, мы не пользуемся каким-то конкретным конвейером, 593 00:30:20,400 --> 00:30:23,533 мы всё делаем на основе источника данных и в зависимости от источника. 594 00:30:23,533 --> 00:30:26,266 Одна из причин, по которой мы так делаем: часто у нас есть источники, 595 00:30:26,266 --> 00:30:27,955 которые не требуется распознавать 596 00:30:27,955 --> 00:30:29,841 и которые доступны для некоторых языков, 597 00:30:29,841 --> 00:30:32,766 и мы используем именно их, потому что с ними меньше всего работы. 598 00:30:32,766 --> 00:30:35,000 Но если мы и вправду хотим тщательно изучить 599 00:30:35,000 --> 00:30:37,056 некоторые источники у нас в архиве, 600 00:30:37,056 --> 00:30:40,896 нам потребуется разработать мощный конвейер распознавания текста. 601 00:30:40,896 --> 00:30:43,968 Но есть ещё один момент, как вы уже упоминали... 602 00:30:44,400 --> 00:30:48,576 Люди, которые разрабатывают модули распознавания текста, 603 00:30:49,088 --> 00:30:52,672 не понимают, каким экстремальным нагрузкам мы можем их подвергнуть. 604 00:30:52,672 --> 00:30:55,181 Настоящее веселье -- 605 00:30:55,181 --> 00:30:57,690 попробовать распознать русско-тибетский словарь. 606 00:30:58,600 --> 00:31:00,726 Это очень трудно, как оказалось... 607 00:31:01,153 --> 00:31:03,657 Мы сдались и наняли человека это всё перепечатать, 608 00:31:04,022 --> 00:31:05,641 и это оказалось вполне реально. 609 00:31:05,641 --> 00:31:07,260 И оказалось, 610 00:31:07,260 --> 00:31:10,266 эта потрясающая русская женщина научилась читать по-тибетски, 611 00:31:10,266 --> 00:31:12,815 чтобы всё это перепечатать, что впечатляло. 612 00:31:15,333 --> 00:31:18,270 Думаю, если вы имеете дело с текстами с латинским шрифтом, 613 00:31:18,270 --> 00:31:22,871 то можно разработать полноценное ПО для распознавания, 614 00:31:22,871 --> 00:31:24,673 работающее с многоязычными источниками, 615 00:31:24,673 --> 00:31:26,991 полагаю, вы получите на выходе четвёрку, 616 00:31:26,991 --> 00:31:28,284 если будете работать с текстами 617 00:31:28,284 --> 00:31:30,560 16-го века на языке майя, в смысле, цифру «четыре». 618 00:31:34,048 --> 00:31:37,600 Но есть источники, 619 00:31:37,600 --> 00:31:40,111 которые распознать не получится никогда, 620 00:31:40,111 --> 00:31:42,244 или которые потребуют такой огромной работы... 621 00:31:43,200 --> 00:31:46,933 Мы сейчас этим немного занимаемся. 622 00:31:46,933 --> 00:31:48,800 В PanLex мы ведём ещё один проект: 623 00:31:48,800 --> 00:31:53,533 мы переносим в электронный вид классическую литературу Бали, 624 00:31:53,533 --> 00:31:57,952 она существует только в виде рукописей, 625 00:31:58,444 --> 00:31:59,694 поэтому её не распознать. 626 00:31:59,694 --> 00:32:02,200 Мы нашли множество балийцев, чтобы их перепечатать, 627 00:32:02,200 --> 00:32:05,000 и это превратилось в замечательный культурный проект на Бали, 628 00:32:05,000 --> 00:32:07,288 он получил огласку и всё такое. 629 00:32:07,288 --> 00:32:09,084 По-моему, 630 00:32:09,084 --> 00:32:11,377 программы распознавания текста использовать необязательно, 631 00:32:11,377 --> 00:32:12,577 но задач много. 632 00:32:12,577 --> 00:32:15,160 Было бы неплохо иметь хорошее ПО для распознавания текста. 633 00:32:16,663 --> 00:32:20,992 И если тут кто-то без ума от многоязычного распознавания текста, 634 00:32:20,992 --> 00:32:22,635 то поговорите потом со мной. 635 00:32:29,517 --> 00:32:31,377 (голос из зала 9) Спасибо вам за доклад. 636 00:32:31,377 --> 00:32:34,866 Вы упоминали интеграцию 637 00:32:34,866 --> 00:32:37,060 PanLex и Викиданных, 638 00:32:37,060 --> 00:32:38,792 но в подробности не вдавались. 639 00:32:38,792 --> 00:32:42,701 Я проверил лицензию ваших данных: это СС0, то есть общественное достояние. 640 00:32:42,701 --> 00:32:44,210 - Да. - (голос из зала 9) Здорово! 641 00:32:44,210 --> 00:32:46,377 И для интеграции есть два варианта: 642 00:32:46,377 --> 00:32:49,400 мы можем или импортировать данные, 643 00:32:49,400 --> 00:32:52,777 или сделать что-то похожее на то, что мы делали с Freebase: 644 00:32:52,777 --> 00:32:55,688 мы тогда получили всю базу данных от Freebase, 645 00:32:55,688 --> 00:32:59,080 импортировали её и создали ссылку, 646 00:32:59,080 --> 00:33:03,955 внешний идентификатор на базу данных Freebase. 647 00:33:03,955 --> 00:33:08,397 Думаете ли вы о чём-то подобном? 648 00:33:08,397 --> 00:33:10,401 Или вы просто хотите создать... 649 00:33:15,291 --> 00:33:18,755 ...независимую базу данных, которая будет связана с Викиданными? 650 00:33:18,755 --> 00:33:20,533 Да, прекрасный вопрос, 651 00:33:20,533 --> 00:33:23,282 и мне кажется, что это пока далеко идущие планы 652 00:33:23,282 --> 00:33:25,648 по сравнению с теми вещами, которые я уже обдумывал, 653 00:33:25,648 --> 00:33:29,555 отчасти из-за того, как я уже сказал, 654 00:33:29,955 --> 00:33:32,111 что настройка совместной работы двух баз данных -- 655 00:33:32,111 --> 00:33:33,533 это уже сам по себе шаг. 656 00:33:33,533 --> 00:33:35,352 Думаю, в качестве первого шага 657 00:33:35,352 --> 00:33:37,622 мы можем объединить наши знания и навыки. 658 00:33:37,911 --> 00:33:40,246 У нас большой опыт 659 00:33:40,246 --> 00:33:42,656 в классификации свойств отдельных лексем, 660 00:33:42,656 --> 00:33:44,734 и я бы хотел им поделиться. 661 00:33:45,864 --> 00:33:49,050 Но объединить две базы данных было бы замечательно. 662 00:33:49,050 --> 00:33:50,808 Я на 100% «за»! 663 00:33:50,808 --> 00:33:54,066 Думаю, было бы проще, 664 00:33:54,066 --> 00:33:56,022 связать именно Викиданные с PanLex, 665 00:33:56,022 --> 00:33:58,866 но, может, тут я пристрастен, ведь я представляю, как это получится. 666 00:34:02,040 --> 00:34:06,088 Да, пока Викиданные согласны 667 00:34:06,088 --> 00:34:09,620 со всем этим лицензированием... Или же мы что-то придумаем, 668 00:34:09,620 --> 00:34:12,057 но, думаю, это отличная идея. 669 00:34:13,216 --> 00:34:16,235 Просто нужно понять, какими способами можно связать сами данные. 670 00:34:16,235 --> 00:34:22,234 Я могу представить только один вариант: правки в Викиданных сразу загружаются 671 00:34:22,577 --> 00:34:26,088 в базу данных PanLex, 672 00:34:26,088 --> 00:34:28,551 чтобы не приходилось 673 00:34:28,551 --> 00:34:30,786 подгружать их каждый... 674 00:34:30,786 --> 00:34:35,779 Сделать на Викиданных интерфейс для PanLex с возможностью краудсорсинга -- 675 00:34:35,779 --> 00:34:36,888 это было бы чудесно. 676 00:34:36,888 --> 00:34:39,677 Возможность использовать PanLex для мгновенных переводов, 677 00:34:39,677 --> 00:34:42,164 возможность переводить через лексические элементы Викиданных -- 678 00:34:42,164 --> 00:34:43,770 это было бы прекрасно. 679 00:34:55,358 --> 00:35:00,266 (голос из зала 10) Получается, что при проверке семантической сети 680 00:35:00,266 --> 00:35:03,808 все дыры в ней закрываются за счёт механизма логического вывода? 681 00:35:05,682 --> 00:35:09,733 Если так подумать, то как в таком методе перевода 682 00:35:09,733 --> 00:35:13,353 вы решаете проблему семантических несоответствий 683 00:35:13,355 --> 00:35:16,088 и грамматических несоответствий? 684 00:35:16,088 --> 00:35:18,888 Например, если вы попытаетесь перевести что-то на немецкий, 685 00:35:18,888 --> 00:35:21,933 то вы можете просто присоединить пару слов друг к другу, 686 00:35:21,933 --> 00:35:25,986 и у вас получится что-то осмысленное, 687 00:35:25,986 --> 00:35:29,184 но, с другой стороны, я читал, 688 00:35:31,450 --> 00:35:33,990 что не в каждом языке 689 00:35:35,180 --> 00:35:40,078 есть одна и та же система разделения цветов, например. 690 00:35:41,577 --> 00:35:43,830 Вы говорите, что каждый язык делит цвета по-разному? 691 00:35:43,830 --> 00:35:44,850 Или одинаково? 692 00:35:45,530 --> 00:35:48,377 (голос из зала 10) Наверное, речь шла об эволюции языка: 693 00:35:48,377 --> 00:35:51,533 они начали с белого и чёрного, а затем... 694 00:35:51,533 --> 00:35:53,333 Да, цветовая иерархия! 695 00:35:53,333 --> 00:35:54,492 Она хорошо показывает, 696 00:35:54,492 --> 00:35:57,271 как это работает, да? 697 00:35:57,977 --> 00:36:01,400 По сути, если у вас есть один язык-посредник... 698 00:36:02,043 --> 00:36:04,822 Так интересно бывает, когда читаешь статьи по машинному переводу, 699 00:36:04,822 --> 00:36:08,000 потому что иногда они говорят о каком-то абстрактном языке-посреднике, 700 00:36:08,000 --> 00:36:09,826 они говорят: «Да, там есть язык-посредник», 701 00:36:09,826 --> 00:36:12,133 а потом ты читаешь и понимаешь: «Это английский». 702 00:36:12,133 --> 00:36:16,688 Этот способ пословного перевода пропускает слово 703 00:36:16,680 --> 00:36:20,352 через много разных языков-посредников. 704 00:36:20,755 --> 00:36:26,142 Он даже может разрешать семантическую неоднозначность. 705 00:36:26,142 --> 00:36:28,426 Ведь пока вы пропускаете слово через языки, 706 00:36:28,426 --> 00:36:33,408 в которых есть схожие семантические границы слова, 707 00:36:33,408 --> 00:36:37,038 вы сможете избежать 708 00:36:37,038 --> 00:36:39,808 появления неоднозначности при переводе через язык-посредник. 709 00:36:39,808 --> 00:36:43,266 Возьмём как пример цветовую иерархию: 710 00:36:43,266 --> 00:36:46,460 если вы возьмёте язык, в котором есть одно слово для зелёного и синего, 711 00:36:46,460 --> 00:36:50,688 вам переведут это слово как «синий» 712 00:36:50,688 --> 00:36:53,244 на ваш единственный язык-посредник, 713 00:36:53,244 --> 00:36:54,477 а затем и на другой язык, 714 00:36:54,477 --> 00:36:57,422 в котором будет другое разделение цветов, 715 00:36:57,422 --> 00:37:00,283 и, в конечном итоге, у вас возникнет семантическая неоднозначность. 716 00:37:00,283 --> 00:37:02,370 Но если пропустить слово через множество языков, 717 00:37:02,370 --> 00:37:05,660 в которых есть только один лексический элемент для зелёного и синего, 718 00:37:05,660 --> 00:37:10,666 тогда эта семантическая специфика 719 00:37:11,040 --> 00:37:16,990 дойдёт и до целевого языка. 720 00:37:17,755 --> 00:37:20,666 Что касается грамматических особенностей, 721 00:37:20,666 --> 00:37:23,488 PanLex с самого начала, прежде всего, собирал 722 00:37:23,488 --> 00:37:28,960 лексемы и лексические формы. 723 00:37:29,711 --> 00:37:31,800 И под этим я подразумеваю всё, 724 00:37:31,804 --> 00:37:33,840 что вы можете взять в качестве вокабулы в словаре. 725 00:37:34,800 --> 00:37:38,170 И в данный момент мы особо не занимаемся 726 00:37:38,555 --> 00:37:40,955 сбором грамматических форм слов, 727 00:37:40,955 --> 00:37:43,360 вроде числа и тому подобного, 728 00:37:43,360 --> 00:37:44,830 или форм прошедшего или настоящего. 729 00:37:44,830 --> 00:37:46,487 Но мы этим интересуемся. 730 00:37:46,488 --> 00:37:48,420 Всегда важно помнить, 731 00:37:48,420 --> 00:37:50,910 что так как у нас в приоритете... 732 00:37:51,422 --> 00:37:54,310 ...малоиспользуемые и исчезающие миноритарные языки, 733 00:37:55,000 --> 00:37:57,777 мы хотим сделать всё, чтобы хоть какие-то данные были доступны, 734 00:37:57,777 --> 00:37:59,511 пока мы не сделаем всё идеально. 735 00:38:01,621 --> 00:38:02,844 Мне так нравится высказывание: 736 00:38:02,844 --> 00:38:04,927 «Не превращай лучшее во врага хорошего», 737 00:38:04,927 --> 00:38:06,380 и так мы и намерены поступать. 738 00:38:06,570 --> 00:38:09,014 Мы крайне заинтересованы в том, 739 00:38:09,014 --> 00:38:12,266 чтобы научиться обрабатывать грамматические формы 740 00:38:12,266 --> 00:38:14,031 и переводить через грамматические формы. 741 00:38:14,031 --> 00:38:15,665 Мы уже проводили исследования, 742 00:38:15,665 --> 00:38:17,128 но полностью это ещё не внедрили. 743 00:38:25,350 --> 00:38:28,777 (голос из зала 11) Полагаю, для всех этих 7 500 языков 744 00:38:30,448 --> 00:38:33,111 вы используете словари, написанные для нас, 745 00:38:33,111 --> 00:38:36,206 но у всех ли этих языков есть письменная форма? 746 00:38:36,206 --> 00:38:38,101 И как вы тогда поступаете?.. 747 00:38:38,101 --> 00:38:39,887 Замечательный вопрос. 748 00:38:42,111 --> 00:38:45,062 Да, многие из этих языков, 749 00:38:45,066 --> 00:38:47,977 как вы прекрасно знаете, бесписьменные. 750 00:38:47,977 --> 00:38:50,666 Любой язык, у которого есть словарь, 751 00:38:50,666 --> 00:38:52,466 обладает какой-то орфографией, 752 00:38:52,466 --> 00:38:56,710 и мы опираемся на орфографию, использованную в словаре. 753 00:38:56,710 --> 00:38:59,686 Иногда мы её слегка подправляем, 754 00:39:00,956 --> 00:39:03,177 если можем гарантировать, что язык ничего не потеряет. 755 00:39:03,177 --> 00:39:05,377 Но мы стараемся избегать этого насколько возможно. 756 00:39:07,533 --> 00:39:11,485 Мы не занимаемся 757 00:39:11,485 --> 00:39:13,229 разработкой орфографии для языков, 758 00:39:13,229 --> 00:39:14,967 потому что порой она не разработана, 759 00:39:14,967 --> 00:39:17,350 если на этих языках мало публикаций. 760 00:39:20,660 --> 00:39:22,155 Например, 761 00:39:22,155 --> 00:39:26,022 в Новой Гвинее есть много языков, 762 00:39:26,488 --> 00:39:29,125 которые могут и не использовать общепринятую орфографию, 763 00:39:29,125 --> 00:39:30,980 но некоторые лингвисты кое-что придумали, 764 00:39:30,980 --> 00:39:32,333 и это уже хорошее начало. 765 00:39:33,473 --> 00:39:36,730 Мы также собираем транскрипции, если они даются в словарях, 766 00:39:36,730 --> 00:39:38,400 и это ещё один способ -- 767 00:39:38,400 --> 00:39:40,533 собирать транскрипции, сделанные с помощью МФА, 768 00:39:40,533 --> 00:39:41,800 если такие есть. 769 00:39:41,800 --> 00:39:43,333 И их тоже можно использовать. 770 00:39:43,333 --> 00:39:45,755 Но обычно мы такое не используем для языка-посредника, 771 00:39:45,755 --> 00:39:48,226 потому что это может вносить неоднозначности. 772 00:39:52,666 --> 00:39:55,466 (Голос из зала 12) Спасибо. Может, это очень глупый вопрос, 773 00:39:56,044 --> 00:40:00,572 но на слайде все языки-посредники, с которыми вы работаете? 774 00:40:00,572 --> 00:40:02,215 Нет, нет! 775 00:40:02,215 --> 00:40:03,790 (голос из зала 12) Хорошо. Спасибо. 776 00:40:03,790 --> 00:40:05,683 Нет, рад, что вы спросили, это объясняет вопрос. 777 00:40:05,683 --> 00:40:11,311 Это скриншот с *translate.panlex.org*. 778 00:40:11,311 --> 00:40:12,826 Когда вы делаете перевод, 779 00:40:12,826 --> 00:40:15,022 вы получаете список переводов справа. 780 00:40:15,022 --> 00:40:17,874 Если вы кликните по кнопке *dot dot dot*, то получите вот такой граф. 781 00:40:17,874 --> 00:40:21,760 А здесь показаны языки-посредники, 782 00:40:22,010 --> 00:40:24,133 топ-20 по расчётам -- 783 00:40:24,133 --> 00:40:26,093 я мог бы рассказать, как мы это подсчитываем, 784 00:40:26,093 --> 00:40:27,452 но это сейчас не так важно -- 785 00:40:27,452 --> 00:40:30,244 по числу наиболее используемых языков. 786 00:40:30,244 --> 00:40:33,393 Но для перевода мы используем гораздо больше 20 языков. 787 00:40:33,393 --> 00:40:35,797 Я показал только 20 -- потому что если у вас их больше 20 -- 788 00:40:35,797 --> 00:40:37,661 на деле, это что-то вроде физической симуляции, 789 00:40:37,661 --> 00:40:39,638 вы можете их перемещать, и они будут изгибаться. 790 00:40:39,638 --> 00:40:41,910 Если их больше 20, ваш компьютер с ума сойдёт. 791 00:40:45,400 --> 00:40:47,419 Это просто для иллюстрации. 792 00:40:55,955 --> 00:40:57,888 (голос из зала 13) Лейла, из Фонда Викимедиа. 793 00:40:57,888 --> 00:41:00,155 Небольшой комментарий... 794 00:41:00,155 --> 00:41:03,260 Вы в своём докладе несколько раз упоминали Фонд Викимедиа. 795 00:41:03,260 --> 00:41:06,533 Если вы хотите вносить, получать и обрабатывать данные 796 00:41:06,533 --> 00:41:08,580 или сотрудничать с Викиданными, 797 00:41:08,820 --> 00:41:11,200 может, Wikimedia Deutschland лучше подойдёт 798 00:41:11,200 --> 00:41:13,182 для обсуждения этого? 799 00:41:13,182 --> 00:41:16,256 Потому что Викиданные -- это проект Wikimedia Deutschland, 800 00:41:16,256 --> 00:41:17,511 и вся их команда там, 801 00:41:17,511 --> 00:41:19,971 и сообщество волонтёров Викиданных -- 802 00:41:19,971 --> 00:41:23,710 идеальное место для обсуждения 803 00:41:23,710 --> 00:41:25,590 любого рода обмена данными 804 00:41:25,590 --> 00:41:31,136 или работой над сближением PanLex и Викиданных. 805 00:41:31,577 --> 00:41:32,688 Отлично, большое спасибо, 806 00:41:32,688 --> 00:41:34,901 потому что я не особо знаком 807 00:41:34,901 --> 00:41:37,823 со всеми тонкостями структуры того, 808 00:41:37,823 --> 00:41:39,740 как все проекты взаимодействуют друг с другом. 809 00:41:39,740 --> 00:41:41,977 Судя по смешкам, всё довольно запутано. 810 00:41:41,977 --> 00:41:44,333 Но мы бы хотели поговорить с теми, 811 00:41:44,333 --> 00:41:48,333 кто отвечает за Викиданные. 812 00:41:48,333 --> 00:41:52,120 Вы уж там разберитесь, 813 00:41:52,860 --> 00:41:56,470 а мы очень хотим поговорить именно с теми, кто отвечает за Викиданные, 814 00:41:56,470 --> 00:41:58,264 а именно со всеми вами, волонтёрами! 815 00:42:03,266 --> 00:42:04,884 Ещё вопросы? 816 00:42:10,066 --> 00:42:14,400 Хорошо, если у кого-то будут ещё вопросы помимо этих 817 00:42:14,400 --> 00:42:17,711 или тех, на которые я отвечал, -- тонкости и особенности всех этих вещей, -- 818 00:42:17,711 --> 00:42:19,800 подойдите ко мне поговорить, я буду очень рад. 819 00:42:19,800 --> 00:42:23,977 Особенно, если вы работаете со всем, что затрагивает лексические штуки, 820 00:42:23,977 --> 00:42:28,666 всем, что затрагивает исчезающие миноритарные языки 821 00:42:28,666 --> 00:42:30,444 или малоиспользуемые языки, 822 00:42:30,444 --> 00:42:34,410 а также Юникод, им я тоже занимаюсь. 823 00:42:36,220 --> 00:42:37,800 Спасибо вам большое, 824 00:42:37,800 --> 00:42:39,563 и спасибо, что пригласили меня выступить, 825 00:42:39,563 --> 00:42:41,310 надеюсь, вам всё понравилось. 826 00:42:41,310 --> 00:42:43,753 (аплодисменты)