1 00:00:00,199 --> 00:00:02,319 [基調講演] 2 00:00:02,571 --> 00:00:05,611 [ベンジャミン・ヤン (パンレックス)] 3 00:00:05,935 --> 00:00:07,429 地球上には今 4 00:00:07,429 --> 00:00:10,853 約7.500種の言語があります 5 00:00:11,725 --> 00:00:20,043 推測では そのうち7割が 21世紀中に消滅するとされています 6 00:00:22,317 --> 00:00:24,643 ある言語が死滅するたびに 7 00:00:24,758 --> 00:00:27,599 数百年 数千年と続いていた 8 00:00:27,599 --> 00:00:31,627 繋がりが断ち切られます 9 00:00:31,627 --> 00:00:38,203 文化 歴史 伝統 そして知識への繋がりが断絶します 10 00:00:38,980 --> 00:00:42,297 言語学者 ケネス・ヘイルは こう言いました 11 00:00:42,297 --> 00:00:44,230 言語が死ぬたびに 12 00:00:44,230 --> 00:00:47,011 ルーブルに原子爆弾が 落とされているようなものだと 13 00:00:49,424 --> 00:00:51,891 そこで質問です 14 00:00:52,777 --> 00:00:54,847 言語はなぜ死ぬのでしょうか 15 00:00:56,291 --> 00:01:00,202 簡単な解答として思いつくのは 16 00:01:00,209 --> 00:01:03,098 権威主義的な政府が 17 00:01:03,098 --> 00:01:05,891 ある民族が自らの言語を 話すことを禁ずる場合や 18 00:01:05,891 --> 00:01:09,913 学校で母国語を話す子供が 罰せられる場合 19 00:01:09,913 --> 00:01:12,958 あるいは少数言語のラジオ局を 20 00:01:12,970 --> 00:01:14,691 政府が強制閉鎖するような例です 21 00:01:15,091 --> 00:01:17,024 過去には間違いなく起きてきたことで 22 00:01:17,024 --> 00:01:19,135 今日でもある程度起きていることです 23 00:01:19,663 --> 00:01:23,073 しかし本当の答えとしては 24 00:01:23,073 --> 00:01:26,713 ほとんどの言語死滅は 25 00:01:27,343 --> 00:01:29,383 もっと単純で 26 00:01:29,383 --> 00:01:32,602 簡単に説明できるものなのです 27 00:01:33,743 --> 00:01:36,269 ひとつの世代から次の世代へと 28 00:01:36,267 --> 00:01:37,935 継承されないことにより 29 00:01:37,935 --> 00:01:39,780 言語は消滅するのです 30 00:01:42,327 --> 00:01:43,913 少数言語を話す人が 31 00:01:43,913 --> 00:01:46,135 子供をもうけるたびに 32 00:01:46,799 --> 00:01:50,402 算段をするんです 33 00:01:51,407 --> 00:01:53,037 このように自問します 34 00:01:53,707 --> 00:01:56,605 自分の言語を子供に継承すべきか 35 00:01:56,817 --> 00:02:01,358 それとも主流言語だけを教えるべきかと 36 00:02:01,358 --> 00:02:06,139 実際には その人の頭の中には 計りがあるんです 37 00:02:06,767 --> 00:02:08,402 計りの一方にはー 38 00:02:09,577 --> 00:02:14,860 今までの人生で母国語を 39 00:02:14,906 --> 00:02:18,760 意思疎通や 伝統文化に触れるために使うたびに 40 00:02:19,823 --> 00:02:21,795 左側に重石が置かれています 41 00:02:22,527 --> 00:02:25,802 逆に 母国語が使用できず 42 00:02:25,817 --> 00:02:28,002 主流言語を使わざるを得ないたびに 43 00:02:28,005 --> 00:02:30,113 右側に重石が置かれています 44 00:02:31,869 --> 00:02:34,847 母国が話せるという自信と誇りにより 45 00:02:34,847 --> 00:02:36,767 左側に置かれている重石の方が 46 00:02:36,767 --> 00:02:38,767 少し重くなっています 47 00:02:38,767 --> 00:02:42,305 でも 徐々に右側に重石が溜まってきて 48 00:02:42,607 --> 00:02:44,647 いずれ計りが右に傾きます 49 00:02:44,647 --> 00:02:46,288 そうすると その人が 50 00:02:46,288 --> 00:02:49,197 母国語を継承するかどうか 決断する時が訪れた際に 51 00:02:49,197 --> 00:02:52,817 母国語が祝福すべきものではなく 重荷として感じられてしまうのです 52 00:02:55,247 --> 00:02:58,723 次の質問は これをどうやって反転させるかです 53 00:02:59,497 --> 00:03:02,134 まず第一に 次の事実があります 54 00:03:03,558 --> 00:03:05,015 どんな言語でも 55 00:03:05,017 --> 00:03:07,947 使用可能な社会的範囲が あるということです 56 00:03:07,947 --> 00:03:10,847 今日 話されている 全ての母国語は 57 00:03:10,847 --> 00:03:13,037 その家族同士で 使用することができます 58 00:03:13,837 --> 00:03:16,578 コミュニティ内で使用可能な言語は やや少なくなり 59 00:03:16,578 --> 00:03:18,977 より広い地域で使用できるのは もっと少ないでしょう 60 00:03:19,605 --> 00:03:22,472 国際的な意思疎通に使えるとなると 61 00:03:22,558 --> 00:03:24,535 一握りの言語になります 62 00:03:25,871 --> 00:03:28,687 また これらの領域それぞれにおいても 63 00:03:28,687 --> 00:03:31,759 母国語を教育やビジネス 64 00:03:31,759 --> 00:03:37,666 またはテクノロジーに使えるか という問題があります 65 00:03:39,183 --> 00:03:41,999 ご説明していることを 66 00:03:43,247 --> 00:03:44,577 分かりやすくするため 67 00:03:44,577 --> 00:03:46,440 例え話をご紹介します 68 00:03:48,447 --> 00:03:50,447 あなたが今まで夢に見ていた 69 00:03:50,447 --> 00:03:52,327 インド旅行に行くとしましょう 70 00:03:53,202 --> 00:03:56,199 乗り換えでイスタンブールに 8時間滞在するとします 71 00:03:57,359 --> 00:04:00,687 トルコを訪問する予定はありませんでしたが 72 00:04:00,943 --> 00:04:03,603 一時滞在することもあり 73 00:04:03,603 --> 00:04:05,800 トルコ人の友人が 空港の近くの 74 00:04:05,800 --> 00:04:07,607 美味しいレストランを 教えてくれたので 75 00:04:07,847 --> 00:04:10,647 あなたは滞在中に 寄ってみることにしました 76 00:04:11,249 --> 00:04:13,147 空港を出て 77 00:04:13,997 --> 00:04:15,527 レストランに着き 78 00:04:15,527 --> 00:04:17,067 メニューを受け取ると 79 00:04:17,157 --> 00:04:19,223 それはトルコ語だけのものでした 80 00:04:20,217 --> 00:04:22,878 この話の前提として 81 00:04:22,878 --> 00:04:24,601 あなたはトルコ語は話せないとします 82 00:04:25,257 --> 00:04:26,582 どうしますか? 83 00:04:28,202 --> 00:04:29,791 最良のケースとしては 84 00:04:29,791 --> 00:04:32,224 あなたの母国語ー 85 00:04:32,290 --> 00:04:34,401 ドイツ語や英語を 話す人を見つけることです 86 00:04:36,267 --> 00:04:38,044 でも その日は運が悪く 87 00:04:38,047 --> 00:04:41,113 レストランにドイツ語も英語も 話せる人はいません 88 00:04:42,047 --> 00:04:43,424 さあ どうします? 89 00:04:43,424 --> 00:04:46,042 私だったらー 大多数の方もそうでしょうがー 90 00:04:46,042 --> 00:04:48,267 テクノロジーに解を求めます 91 00:04:49,582 --> 00:04:52,398 自動翻訳機か電子辞書を使って 92 00:04:52,654 --> 00:04:54,243 一語ずつ検索して行けば 93 00:04:54,446 --> 00:04:57,780 最終的に 美味しいトルコ料理が 注文できるでしょう 94 00:05:00,017 --> 00:05:02,891 次のこんなシナリオを考えてみましょう 95 00:05:03,657 --> 00:05:06,447 あなたは少数言語が母国語です 96 00:05:07,502 --> 00:05:09,380 例えば低地ソルブ語 97 00:05:09,380 --> 00:05:12,487 低地ソルブ語は ここドイツで 絶滅の危機に瀕している言語です 98 00:05:12,535 --> 00:05:16,935 ここから130キロほど南東で 99 00:05:17,758 --> 00:05:20,794 既に多くが年老いた 数千人が使用しています 100 00:05:22,857 --> 00:05:25,158 この低地ソルブ語が母国です 101 00:05:25,417 --> 00:05:26,820 レストランに着きました 102 00:05:26,820 --> 00:05:28,509 当然ながら そのレストランに 103 00:05:28,509 --> 00:05:31,434 あなたの母国語を話す人がいる確率は ほとんどありません 104 00:05:32,327 --> 00:05:36,299 またテクノロジーに 解を求めても良いですが 105 00:05:36,937 --> 00:05:39,380 あなたの母国語には 106 00:05:39,380 --> 00:05:41,765 テクノロジーによる 解は提供されていません 107 00:05:42,057 --> 00:05:45,038 ドイツ語か英語を中間言語として 108 00:05:45,038 --> 00:05:47,535 トルコ語に翻訳して もらうしかないのです 109 00:05:48,967 --> 00:05:52,429 結局は 美味しいトルコ料理が 食べられた訳ですが 110 00:05:52,429 --> 00:05:54,597 これが自分の祖父だったとしたら 111 00:05:54,597 --> 00:05:57,217 ドイツ語が話せないため 難しかっただろうと考えます 112 00:05:58,291 --> 00:05:59,887 これ自体は小さなことですが 113 00:05:59,891 --> 00:06:04,834 結果的に計りの右側に重石が置かれ 114 00:06:05,357 --> 00:06:07,100 あなたは 多分 115 00:06:07,100 --> 00:06:09,945 子供が生まれたら または次の子が生まれた場合は 116 00:06:10,990 --> 00:06:13,423 母国語を保つために 117 00:06:13,423 --> 00:06:17,180 このような苦労は させたくはないと考えるでしょう 118 00:06:19,438 --> 00:06:21,331 もっと重要な局面で 119 00:06:21,331 --> 00:06:26,224 同様のことが起きたとしたら どうでしょう 120 00:06:26,224 --> 00:06:28,427 例えば病院にいるときなどです 121 00:06:31,180 --> 00:06:36,208 ここで 我々は手助けができます 122 00:06:36,837 --> 00:06:40,289 我々とは ここに今いる私たちのことです 123 00:06:41,447 --> 00:06:43,402 手助けをするツールがあるんです 124 00:06:45,202 --> 00:06:47,402 少数言語や サポートの少ない言語を話す人々にも 125 00:06:47,402 --> 00:06:49,397 テクノロジー・ツールが提供されれば 126 00:06:50,602 --> 00:06:54,069 計りの左側を少しだけ 指で押してあげられるんです 127 00:06:54,069 --> 00:06:57,727 その人は 外界と交流するために 少数言語に頼る必要があると 128 00:06:57,727 --> 00:06:59,655 考えなくても良くなるのです 129 00:07:00,398 --> 00:07:03,498 なぜなら その人の社会的な活動範囲が 130 00:07:03,498 --> 00:07:06,265 わずかながら拡大するからです 131 00:07:07,957 --> 00:07:10,380 もちろん 理想的な解決策は 132 00:07:10,380 --> 00:07:13,069 世界の全ての言語で 自動翻訳が可能となることですが 133 00:07:13,069 --> 00:07:16,878 残念ながら現実的ではありません 134 00:07:16,878 --> 00:07:19,847 自動翻訳は巨大な テキストのコーパスを必要としますが 135 00:07:19,847 --> 00:07:23,438 絶滅に直面していたり サポートの少ない言語の多くは 136 00:07:23,438 --> 00:07:25,486 そのようなデータが存在しません 137 00:07:25,676 --> 00:07:28,566 言語によっては 一般的に表記もされていないため 138 00:07:29,047 --> 00:07:32,872 自動翻訳機を構築するために必要な データ量を集めることは 139 00:07:32,872 --> 00:07:34,437 現実的ではありません 140 00:07:34,437 --> 00:07:38,107 でも 語彙的なデータは存在します 141 00:07:40,381 --> 00:07:45,567 過去数百年にわたる 数多くの言語学者の尽力により 142 00:07:47,824 --> 00:07:49,775 世界の多くの言語に関し 143 00:07:49,775 --> 00:07:51,727 辞書や文法書が出版されています 144 00:07:53,967 --> 00:07:55,528 でも残念ながら 145 00:07:55,528 --> 00:08:00,691 その出版物の多くは 広く行き渡っておらず 146 00:08:00,694 --> 00:08:03,580 少数言語の話し手にも 入手は困難です 147 00:08:03,599 --> 00:08:06,424 これは意図的にそうなってる訳ではなく 148 00:08:06,427 --> 00:08:10,832 多くの場合は 単に辞書の初版が少なく 149 00:08:11,202 --> 00:08:12,590 存在するものは 150 00:08:12,590 --> 00:08:16,291 大学の図書館の片隅で カビを生やしているだけなのです 151 00:08:17,558 --> 00:08:21,240 でも 私たちはそのデータを入手し 152 00:08:21,240 --> 00:08:23,377 世界にアクセスさせることができるのです 153 00:08:24,180 --> 00:08:26,264 ウィキメディア財団は 154 00:08:26,264 --> 00:08:30,602 データを地球上の人類の大多数に データを届けられる 155 00:08:31,022 --> 00:08:33,443 最良の機関のひとつー 156 00:08:33,443 --> 00:08:36,735 いや最良の機関だと言えます 157 00:08:38,580 --> 00:08:40,031 だから頑張りましょう 158 00:08:41,047 --> 00:08:43,269 我々がこの領域で 159 00:08:43,271 --> 00:08:45,097 何をしてきたか少し説明するため 160 00:08:45,358 --> 00:08:48,174 私の団体である パンレックスをご紹介します 161 00:08:48,758 --> 00:08:50,365 この問題解決のため 162 00:08:50,365 --> 00:08:54,193 語彙データを収集しようとしている団体です 163 00:08:54,827 --> 00:08:56,877 我々は12年前に 164 00:08:56,877 --> 00:08:59,647 ワシントン大学で 研究プロジェクトとして始まりました 165 00:08:59,647 --> 00:09:01,405 理念としてあったのは 166 00:09:01,405 --> 00:09:04,037 推論的翻訳が 167 00:09:04,114 --> 00:09:07,212 効果的な翻訳機となり得ることを 証明することでした 168 00:09:07,212 --> 00:09:09,135 要するに語彙的な翻訳機です 169 00:09:09,135 --> 00:09:12,270 これがパンレックスのデータの実例です 170 00:09:12,727 --> 00:09:17,720 トルコ語で「家」を意味する「エヴ」を 171 00:09:17,752 --> 00:09:21,248 さきほど述べた低地ソルブ語に 翻訳する方法を示しています 172 00:09:21,259 --> 00:09:23,987 トルコ語から低地ソルブ語の辞書を 173 00:09:23,987 --> 00:09:26,247 みつけるのは難しいでしょうが 174 00:09:26,247 --> 00:09:30,371 いろいろな中間言語を通すことにより 175 00:09:30,535 --> 00:09:32,647 効果的な翻訳が可能です 176 00:09:34,380 --> 00:09:36,958 研究プロジェクトの結果を受け 177 00:09:36,958 --> 00:09:39,678 パンレックス創立者の ジョナサン・プール博士は 178 00:09:40,758 --> 00:09:43,713 「実際にやろうじゃないか」と 179 00:09:43,713 --> 00:09:45,517 非営利団体を設立し 180 00:09:45,517 --> 00:09:48,779 語彙データを大量に集め 提供することにしたのです 181 00:09:48,958 --> 00:09:51,193 これが我々の過去12年の営みです 182 00:09:51,193 --> 00:09:54,563 その間 数千種類の辞書を集め 183 00:09:54,563 --> 00:09:56,526 語彙データを抽出し 184 00:09:56,526 --> 00:10:01,387 推論的語彙翻訳を可能にする データベースを構築しました 185 00:10:01,387 --> 00:10:03,802 翻訳対象言語は 186 00:10:03,802 --> 00:10:05,913 現時点で世界の7,500言語のうち 187 00:10:05,907 --> 00:10:08,002 約5,500言語をカバーしています 188 00:10:10,222 --> 00:10:12,188 我々は常に対象言語を広げ 189 00:10:12,188 --> 00:10:14,871 各言語内でもデータ量を拡大する 努力を続けています 190 00:10:17,687 --> 00:10:21,158 そこで 次の質問は 191 00:10:22,126 --> 00:10:25,710 どのような協働ができるかです 192 00:10:26,727 --> 00:10:28,098 パンレックスでは 193 00:10:28,098 --> 00:10:31,307 最近ウィキデータが開発している語彙データに 194 00:10:31,307 --> 00:10:34,222 大いに関心を持っています 195 00:10:35,202 --> 00:10:37,325 我々と同じような領域で 196 00:10:37,325 --> 00:10:41,083 異なる側面から研究をしている 団体がいるというのは素晴らしいことです 197 00:10:41,582 --> 00:10:44,398 ウィキデータの活動結果に 198 00:10:44,620 --> 00:10:46,603 とても期待しています 199 00:10:46,603 --> 00:10:51,191 ウィキデータと協働することにも 期待しています 200 00:10:53,891 --> 00:10:56,318 我々が過去12年間で培ってきた 201 00:10:56,318 --> 00:10:58,069 語彙データの収集だけでなく 202 00:10:58,069 --> 00:11:01,634 データベースのデザインも含めた 特別なスキルが 203 00:11:01,634 --> 00:11:03,955 ウィキデータにとっても 有益なものになるでしょう 204 00:11:04,867 --> 00:11:07,038 その一方で 205 00:11:08,462 --> 00:11:11,342 データをクラウドソーシングする 206 00:11:11,790 --> 00:11:14,596 ウィキデータの能力にも 特に期待しています 207 00:11:15,176 --> 00:11:18,094 現在パンレックスのデータソースはすべて 208 00:11:18,446 --> 00:11:21,006 印刷された語彙データや その他の語彙ソースであり 209 00:11:21,107 --> 00:11:22,883 クラウドソーシングはやってません 210 00:11:22,883 --> 00:11:24,967 それを可能にする インフラがないのです 211 00:11:25,049 --> 00:11:26,950 そしてウィキメディア基金はもちろん 212 00:11:26,950 --> 00:11:29,327 クラウドソーシングの 世界的なエキスパートです 213 00:11:31,015 --> 00:11:33,775 お互いのスキルを 具体的にどのように活用できるか 214 00:11:33,780 --> 00:11:35,727 非常に楽しみにしています 215 00:11:38,580 --> 00:11:39,947 これらの取り組みに関して 216 00:11:39,947 --> 00:11:42,034 全体として重要なことは 217 00:11:42,034 --> 00:11:45,180 作業をしていると 細部にこだわってしまうということです 218 00:11:45,180 --> 00:11:47,580 我々の作業は 文法書を見たり 219 00:11:47,580 --> 00:11:51,958 辞書や古語辞典を調べたり 220 00:11:51,962 --> 00:11:54,024 時には最近出版された辞書を使い 221 00:11:54,024 --> 00:11:57,513 文章中の言葉を確認していると 222 00:11:57,513 --> 00:12:00,161 その言語に密着している気になります 223 00:12:00,161 --> 00:12:02,582 しかし たまに一歩引くことが必要です 224 00:12:02,603 --> 00:12:05,198 自分たちがやっていることが 225 00:12:05,228 --> 00:12:09,108 つまらないことのような 気がすることがあっても 226 00:12:10,138 --> 00:12:12,384 非常に大切な取り組みなんです 227 00:12:13,057 --> 00:12:15,713 これは私の意見になりますが 228 00:12:15,713 --> 00:12:18,909 絶滅しそうな言語を支援し 229 00:12:18,909 --> 00:12:21,535 地球上の言語の多様性が 230 00:12:21,535 --> 00:12:25,777 今世紀末からその先まで保たれるための 最良の方法だと信じています 231 00:12:26,491 --> 00:12:29,691 今日の我々の活動により 232 00:12:29,691 --> 00:12:32,624 言語が保存され継承され 233 00:12:32,624 --> 00:12:35,402 絶滅の目を見ないことに 234 00:12:35,402 --> 00:12:37,002 つながる可能性は十分あります 235 00:12:38,574 --> 00:12:40,652 だから 覚えていてください 236 00:12:40,652 --> 00:12:43,194 あなたが コンピュータの前に座って 237 00:12:43,194 --> 00:12:44,737 個別のエントリーを編集したり 238 00:12:44,737 --> 00:12:51,844 少数言語のすべての名詞を データ入力しているとき 239 00:12:51,847 --> 00:12:54,624 自分がやっている その小さな作業が 240 00:12:54,624 --> 00:12:58,712 その言語が今世紀末からその先まで 存続できるための 241 00:12:58,712 --> 00:13:01,107 責任の一部を担っている 可能性があるということです 242 00:13:02,638 --> 00:13:03,750 有難うございました 243 00:13:03,750 --> 00:13:05,764 ご質問を受けたいと思います 244 00:13:06,119 --> 00:13:07,119 (拍手) 245 00:13:23,735 --> 00:13:25,024 (聴衆1)ありがとう 246 00:13:25,024 --> 00:13:26,748 お話し有難うございました 247 00:13:26,748 --> 00:13:28,824 辞書について質問があります 248 00:13:28,824 --> 00:13:31,154 印刷された辞書で作業をすると おっしゃいましたね 249 00:13:31,154 --> 00:13:32,159 はい 250 00:13:32,159 --> 00:13:34,555 その辞書から 何を抽出されてますか 251 00:13:34,558 --> 00:13:38,269 また著作権などの問題に 対処する必要はありますか 252 00:13:38,269 --> 00:13:41,157 これが最初の質問になるだろうと 予想していましたよ(笑) 253 00:13:42,874 --> 00:13:46,405 まず パンレックスでは 254 00:13:46,405 --> 00:13:50,291 法的なアドバイスを得た結果 255 00:13:52,781 --> 00:13:57,513 辞書の編纂 編集は著作権で 守られ得るものの 256 00:13:57,513 --> 00:14:03,307 その中の翻訳自体は 著作権の対象外であると考えています 257 00:14:04,435 --> 00:14:12,002 好例として 米国法においては 電話帳は著作権対象とされていますが 258 00:14:12,012 --> 00:14:18,497 Xという人物の電話番号がDという 事実は著作権対象となりません 259 00:14:22,641 --> 00:14:25,258 法律の専門家によれば 260 00:14:25,258 --> 00:14:27,380 この問題には対処できるわけです 261 00:14:27,380 --> 00:14:30,713 仮に この主張が法的に 不十分であったとしても 262 00:14:30,713 --> 00:14:32,110 重要な点は 263 00:14:32,110 --> 00:14:38,316 ほとんどの語彙データに関し 264 00:14:38,802 --> 00:14:40,777 著作権保護期限が過ぎているという点です 265 00:14:40,777 --> 00:14:44,380 ですから多くのデータが 著作権の問題なく利用できるのです 266 00:14:44,380 --> 00:14:49,624 また 最近出版された辞書で作業をする場合は 267 00:14:49,657 --> 00:14:51,654 スキャンして 光学文字認識するのではなく 268 00:14:51,654 --> 00:14:53,566 辞書の作成者に Eメールしちゃいます 269 00:14:53,566 --> 00:14:57,287 実際には 大抵の言語学者は 270 00:14:57,287 --> 00:14:59,647 とても喜んで自分のデータを公開してくれます 271 00:14:59,647 --> 00:15:04,184 「もちろんです 全部データベースに加えて アクセス可能にしてください」という感じです 272 00:15:07,224 --> 00:15:09,920 このように 法的見解に基づけば大丈夫ですが 273 00:15:09,920 --> 00:15:11,833 そこに不安がある場合でも 274 00:15:11,833 --> 00:15:16,214 データを広くアクセス可能とすることは さほど難しくはありません 275 00:15:26,548 --> 00:15:28,515 (聴衆2)有難うございます こんにちは 276 00:15:28,515 --> 00:15:31,837 低地ソルブ語を話す人が 277 00:15:31,837 --> 00:15:35,427 どのようにデータにアクセスしているか もう少し説明して頂けますか 278 00:15:35,427 --> 00:15:38,688 情報が具体的に どのように届けられるのか 279 00:15:38,688 --> 00:15:40,362 そして その人たちに 280 00:15:40,362 --> 00:15:42,804 データを利用してみるよう どうやって説得するのかー 281 00:15:42,804 --> 00:15:44,167 とても良い質問です 282 00:15:44,167 --> 00:15:46,622 私もそのことについて 良く考えています 283 00:15:46,622 --> 00:15:49,733 データアクセスというものは 284 00:15:50,523 --> 00:15:53,577 実際には 複数のステップがあるんです 285 00:15:53,577 --> 00:15:56,454 一つ目は データ保存ですー データが消滅しないようにします 286 00:15:56,454 --> 00:15:58,906 二つ目は データの相互運用性を確保して 287 00:15:58,906 --> 00:16:02,168 誰でも活用できるようにすることです 288 00:16:02,184 --> 00:16:05,581 三つ目は データにアクセスが 可能であることです 289 00:16:05,781 --> 00:16:08,537 パンレックスの場合では 290 00:16:08,688 --> 00:16:10,390 APIを提供していますが 291 00:16:10,390 --> 00:16:12,812 当然ながらエンドユーザーには 活用してもえません 292 00:16:12,812 --> 00:16:14,945 そこでインターフェースも 開発しました 293 00:16:17,155 --> 00:16:20,114 例えば translate.panlex.org に行けば 294 00:16:20,582 --> 00:16:22,964 我々のデータバース上で 翻訳ができます 295 00:16:22,964 --> 00:16:25,768 APIを試してみたければ dev.panlex.org に行って 296 00:16:25,768 --> 00:16:29,051 APIが試せます api.panlex.org からも行けます 297 00:16:29,793 --> 00:16:33,149 でも もう一つのステップが必要です 298 00:16:34,007 --> 00:16:36,819 素晴らしく便利なツールを使って 299 00:16:36,819 --> 00:16:41,190 データを完璧にアクセス可能にしても 300 00:16:41,564 --> 00:16:44,037 そのツールを宣伝しないと 301 00:16:44,037 --> 00:16:45,661 人々に実際に使ってもらえません 302 00:16:45,661 --> 00:16:51,205 これは余り話題にのぼりませんが 303 00:16:52,045 --> 00:16:54,164 私も良い解答を持っていません 304 00:16:55,522 --> 00:16:59,811 例えば 私もつい数年前までは ウィキデータのことを知りませんでした 305 00:16:59,811 --> 00:17:02,525 まさしく私が関心を持っている ものにも関わらずです 306 00:17:03,174 --> 00:17:07,029 どうやって宣伝すれば良いのでしょうか? 307 00:17:07,297 --> 00:17:09,054 今 答えがあるとは思っていません 308 00:17:09,054 --> 00:17:10,647 私自身も良い解答をもっていません 309 00:17:11,887 --> 00:17:13,247 もちろん そのためには 310 00:17:13,247 --> 00:17:15,185 最初のステップを完了する必要があります 311 00:17:22,955 --> 00:17:24,997 (聴衆3)機械翻訳のためには 312 00:17:24,997 --> 00:17:28,631 翻訳メモリーが必要ではないですか? 313 00:17:28,631 --> 00:17:32,449 我々はウィキデータに個別の言葉や 314 00:17:32,533 --> 00:17:36,925 短いフレーズを 315 00:17:36,925 --> 00:17:41,133 通常のウィキデータ項目や ウィキデータ語彙素として入力していますが 316 00:17:41,133 --> 00:17:44,137 ちゃんとした翻訳に 十分なものかどうかわかりません 317 00:17:44,137 --> 00:17:47,420 機械翻訳には完全な文が必要だと思うんです 318 00:17:47,420 --> 00:17:49,027 (ベンジャミン)その通りですね 319 00:17:49,059 --> 00:17:51,657 (聴衆3)データ構造は どうやって入手するんですか? 320 00:17:51,657 --> 00:17:55,429 現時点でウィキデータが 321 00:17:55,429 --> 00:17:59,184 翻訳メモリーの問題を 322 00:17:59,184 --> 00:18:03,540 上手く処理できるかどうかわかりません 323 00:18:03,540 --> 00:18:07,073 translatewiki.net を使って 324 00:18:07,073 --> 00:18:09,972 そのギャップを埋めることを 325 00:18:09,972 --> 00:18:15,427 検討するべきなのでしょうか? 326 00:18:16,118 --> 00:18:17,640 ご質問の主旨は良く分かります 327 00:18:17,640 --> 00:18:20,557 さきほど少し触れましたが 再度説明したいと思います 328 00:18:21,902 --> 00:18:25,248 それがまさしくパンレックスが 語彙データを扱っている理由です 329 00:18:25,363 --> 00:18:28,962 そしてまた 私が機械翻訳エンジンや 機械翻訳よりもー 330 00:18:28,962 --> 00:18:31,037 というか機械翻訳に加えて 331 00:18:31,037 --> 00:18:35,112 語彙データに興味がある 理由でもあります 332 00:18:35,112 --> 00:18:39,294 ご指摘の通り 機械翻訳は特別な種類の データを必要としますが 333 00:18:39,907 --> 00:18:43,507 そのデータは世界の言語の大多数で 入手ができません 334 00:18:43,647 --> 00:18:46,547 世界の言語の大多数で 入手不可能なんです 335 00:18:46,963 --> 00:18:48,806 でもそれは諦める理由にはなりません 336 00:18:48,807 --> 00:18:50,604 どうして諦めますか? 337 00:18:52,154 --> 00:18:54,974 トルコレストランのメニューを 翻訳するのであれば 338 00:18:55,207 --> 00:18:59,302 語彙翻訳は最適なツールでしょう 339 00:18:59,377 --> 00:19:04,427 語彙翻訳を使って 完璧な段落から段落への 翻訳ができるとは言ってません 340 00:19:04,427 --> 00:19:07,317 語彙翻訳という場合 言葉から言葉への翻訳を指してますが 341 00:19:07,317 --> 00:19:09,413 それでも とても便利な場合があります 342 00:19:11,943 --> 00:19:13,827 考えてみればおかしいことですが 343 00:19:13,827 --> 00:19:16,764 本当に優れた機械翻訳には 344 00:19:16,764 --> 00:19:19,885 つい最近まで誰も アクセスがなかったわけですが 345 00:19:20,627 --> 00:19:24,198 それでも辞書で何とかやって来れたんです 346 00:19:24,438 --> 00:19:28,046 辞書はものすごく便利なリソースなんです 347 00:19:28,516 --> 00:19:30,214 そのデータがあるんだから 348 00:19:30,238 --> 00:19:34,665 世の中と その言語を話す人々に 提供するべきです 349 00:19:36,410 --> 00:19:39,029 (聴衆4)こんにちは どんなメカニズムがあるんですが 350 00:19:39,029 --> 00:19:40,923 コミュニティー自身がー ここにいます 351 00:19:40,923 --> 00:19:42,863 ああ そこですか 352 00:19:43,413 --> 00:19:47,260 (聴衆4)コミュニティ自身が パンレックスとデータを共有したくない場合? 353 00:19:47,964 --> 00:19:49,217 良い質問です 354 00:19:50,497 --> 00:19:52,422 その場合の対処法は 355 00:19:52,502 --> 00:19:56,112 もし辞書が発行され 公に入手可能であれば 356 00:19:56,491 --> 00:19:58,242 良い指標だと考えています 357 00:19:58,242 --> 00:20:04,840 本屋や大学の図書館で購入できたり 公の図書館で誰でもアクセスできる場合 358 00:20:04,840 --> 00:20:08,587 共有しても良いという意思が 示されたと考えられます 359 00:20:16,237 --> 00:20:19,424 マイクに向かって 話していただけますか? 360 00:20:19,424 --> 00:20:20,673 繰り返して頂けますか? 361 00:20:20,673 --> 00:20:24,065 (聴衆4)言語学者は常にコミュニティの 許可を得ているとは限りません 362 00:20:24,065 --> 00:20:27,824 コミュニティの承諾を 得ないで書物を発行することもあります 363 00:20:27,824 --> 00:20:29,270 その通りだと思います 364 00:20:31,564 --> 00:20:34,520 そういうことはあるでしょうが 365 00:20:34,550 --> 00:20:36,439 ごく限られた場合であり 366 00:20:37,039 --> 00:20:41,167 もっぱら北米に限定されたことと思います 367 00:20:41,167 --> 00:20:43,408 南米の言語でも時々そういうことは起きますが 368 00:20:43,962 --> 00:20:46,492 考慮する必要があることです 369 00:20:46,932 --> 00:20:52,052 例えば パンレックスにあるデータについて 370 00:20:52,052 --> 00:20:56,334 世間一般にアクセスさせてはならないと 言われた場合 371 00:20:56,334 --> 00:20:58,054 我々はそのデータを削除します 372 00:21:01,368 --> 00:21:04,168 それは著作権を尊重するという 意味ではありませんが 373 00:21:04,258 --> 00:21:06,864 伝統的な コミュニティーの意見は聞きます 374 00:21:06,864 --> 00:21:08,235 それは大きな違いです 375 00:21:08,283 --> 00:21:09,978 (聴衆4)そのことを指してました 376 00:21:14,294 --> 00:21:16,739 とても興味深い点に繋がるんです 377 00:21:19,202 --> 00:21:22,248 時として 誰がその言語を話すかと いうことが大変重要になります 378 00:21:22,851 --> 00:21:28,147 私の経験で アメリカの南西部を訪れて 379 00:21:28,147 --> 00:21:30,818 プエブロ語を話す原住民のことを調べている 380 00:21:30,818 --> 00:21:32,901 グループと協働したことがあります 381 00:21:34,284 --> 00:21:36,795 そのエリアで話される プエブロ言語は 382 00:21:36,795 --> 00:21:38,946 分類の仕方にもよりますが 383 00:21:38,985 --> 00:21:41,641 6種類くらいあります 384 00:21:41,737 --> 00:21:44,502 でも その言語は 18種類のプエブロ族に分かれていて 385 00:21:44,502 --> 00:21:47,589 それぞれが 独自の族政府を持ち 386 00:21:48,327 --> 00:21:51,073 それぞれの政府が 自分たちの言語を 387 00:21:51,073 --> 00:21:54,269 外界にアクセスさせるべきか否か 独自の意見を持っています 388 00:21:55,389 --> 00:21:58,584 ズリ・プエブロの場合を見てみましょう 389 00:21:58,683 --> 00:22:02,107 ズリ語を話す 唯一のプエブロですが 390 00:22:02,107 --> 00:22:05,259 彼らは自分たちの言語が 拡散することは大歓迎で 391 00:22:05,259 --> 00:22:07,199 道路標識とか あちこちに表示しています 392 00:22:09,131 --> 00:22:11,211 でも他の言語では 393 00:22:11,211 --> 00:22:13,124 あるグループは 394 00:22:13,124 --> 00:22:16,558 「我々の言語は よそ者に アクセスさせたくない」と言い 395 00:22:16,558 --> 00:22:18,913 同じ言語を話す 隣のプエブロは 396 00:22:18,913 --> 00:22:22,845 「このテクノロジー・ツールを使って 397 00:22:22,845 --> 00:22:24,893 外界の者に 我々の言語にアクセスして欲しい 398 00:22:24,893 --> 00:22:27,585 我々の言語に永続して欲しい」と言うんです 399 00:22:27,585 --> 00:22:29,887 難しい倫理的問題を提示します 400 00:22:29,887 --> 00:22:31,415 もし画一的に 401 00:22:31,415 --> 00:22:34,888 「分かりました このグループの希望だから 断絶します」としたら 402 00:22:34,888 --> 00:22:38,049 もう一方のグループの 積極的に断絶を回避したいという 403 00:22:38,049 --> 00:22:39,608 意思に反していることになります 404 00:22:39,608 --> 00:22:43,367 この問題には簡単な答えはありません 405 00:22:43,367 --> 00:22:46,762 パンレックスでは 406 00:22:46,762 --> 00:22:48,962 私が知る限りでは 407 00:22:48,962 --> 00:22:52,155 まだ このような問題に遭遇していませんが 408 00:22:52,155 --> 00:22:54,044 でも それはもしかするとー 409 00:22:54,044 --> 00:22:55,611 彼の質問に戻りますがー 410 00:22:56,373 --> 00:22:58,451 もっと宣伝すれば良いのかも知れません 411 00:22:59,023 --> 00:23:00,127 でも 一般的には 412 00:23:01,427 --> 00:23:04,922 知る限り この問題は発生していません 413 00:23:06,162 --> 00:23:07,685 我々の対応策としては 414 00:23:07,685 --> 00:23:10,678 あるコミュニティがデータを 提供したくないと言えば 415 00:23:10,678 --> 00:23:12,285 我々はデータベースから削除します 416 00:23:12,285 --> 00:23:15,182 ウィキデータやウィキペディアでも 同様なことに遭遇しています 417 00:23:15,182 --> 00:23:17,733 - あるんですか? - (聴衆4)コメント等で問題に… 418 00:23:17,733 --> 00:23:20,804 特に写真などのコメントで 問題になることは考えられますね 419 00:23:20,804 --> 00:23:21,815 (聴衆4)その通り 420 00:23:27,635 --> 00:23:33,144 (聴衆5)クラウドソーシングの質問です 421 00:23:33,144 --> 00:23:37,177 コミュニティに対し 422 00:23:37,177 --> 00:23:40,651 データセットへの注釈や データの追加を求めるとき 423 00:23:40,661 --> 00:23:44,487 ちょっと気が引けるのは 424 00:23:44,487 --> 00:23:49,263 編集者としては 足りないものしか見えてないということです 425 00:23:49,263 --> 00:23:53,251 でもアイディアがあって 時間をかけて 426 00:23:53,251 --> 00:23:57,249 優先事項のリストを持つことは 427 00:23:57,589 --> 00:24:01,449 その面では モチベーションに繋がると思います 428 00:24:01,452 --> 00:24:02,977 私が興味があったのは 429 00:24:02,977 --> 00:24:08,229 あなた方が データのギャップを 知るようなシステムを持ってるかどうかです 430 00:24:08,229 --> 00:24:11,013 言語学的なエビデンスに基づき 431 00:24:11,013 --> 00:24:15,895 これらも注釈をつければ 影響力の大きいドライバーになるだろうとか 432 00:24:15,895 --> 00:24:19,757 例えば「家」の語彙素を持つことは 433 00:24:19,757 --> 00:24:25,142 データ類の語彙素よりも インパクトが大きいことは想像できます 434 00:24:26,184 --> 00:24:28,654 そのデータがあれば 435 00:24:28,654 --> 00:24:35,804 コミュニティの努力を推進するために 使えるかどうか興味があります 436 00:24:36,084 --> 00:24:37,114 良い質問です 437 00:24:37,114 --> 00:24:41,073 ウィキデータが 沢山持っているものにー 438 00:24:41,207 --> 00:24:45,123 失礼 パンレックスが沢山持ってるのは スワデシュ・リストです 439 00:24:45,123 --> 00:24:48,707 面白いことに 我々は世界最大の スワデシュ・リストを持ってるようです 440 00:24:48,707 --> 00:24:50,509 スワデシュ・リストを ご存知でない場合 441 00:24:50,509 --> 00:24:54,219 規則化された語彙のリストで 442 00:24:54,219 --> 00:25:00,251 言語分析に使用されます 443 00:25:00,251 --> 00:25:03,547 とても基本的なリストで構成されています 444 00:25:03,547 --> 00:25:05,797 2種類のスワデシュ・リストががありますが 445 00:25:05,797 --> 00:25:07,678 100または213項目からなり 446 00:25:07,678 --> 00:25:12,918 「家」「目」「肌」のような 447 00:25:12,918 --> 00:25:16,784 どんな言語にもあるような 基本的な言葉が含まれています 448 00:25:18,451 --> 00:25:22,908 そのようなデータを提供するには とても良い出発点だと思います 449 00:25:29,958 --> 00:25:31,428 さきほど申し上げた通り 450 00:25:31,428 --> 00:25:34,293 我々はまだ クラウドソーシングをしていませんが 451 00:25:34,293 --> 00:25:36,807 開始予定であることを とても喜んでいます 452 00:25:36,807 --> 00:25:40,073 今回のコンファレンスで皆さんに 453 00:25:40,073 --> 00:25:44,100 クラウドソーシングの活用法や その裏のロジスティクスについて 454 00:25:44,100 --> 00:25:46,749 お伝えできることが嬉しいです 455 00:25:46,749 --> 00:25:48,918 すると こういう質問を受ける訳です 456 00:25:51,427 --> 00:25:54,094 だから 私からの答えとしては 457 00:25:54,255 --> 00:25:56,092 優先事項のリストがあるということです 458 00:25:56,092 --> 00:25:57,178 間違いなく言えるのは 459 00:25:57,178 --> 00:25:59,941 探している言語の優先リストがあると いうことです 460 00:25:59,941 --> 00:26:01,587 どう取り組んでいるかと言うと 461 00:26:01,587 --> 00:26:04,572 テクノロジー・ソリューションの 恩恵を受けてない言語を探します 462 00:26:04,572 --> 00:26:07,016 それは多くの場合 少数言語で 463 00:26:10,984 --> 00:26:12,824 我々はそういったものを優先します 464 00:26:15,107 --> 00:26:20,753 我々が新たに取得するデータは 一般的には語彙項目であり 465 00:26:20,753 --> 00:26:23,831 実質的には辞書を丸々 吸収するということです 466 00:26:23,831 --> 00:26:26,794 我々は辞書が選択する 467 00:26:26,794 --> 00:26:28,477 語彙項目に依存しています 468 00:26:28,477 --> 00:26:31,920 全ての言語で「家」という言葉を 探す訳ではありません 469 00:26:31,920 --> 00:26:35,387 でも データのクラウドソーシングの場合 そのようなアプローチになります 470 00:26:35,507 --> 00:26:38,077 だから これは研究と成長の機会なんです 471 00:26:40,327 --> 00:26:43,239 (聴衆6)ヴィクターです 本当にすごいですね 472 00:26:44,051 --> 00:26:47,095 スライドがありますが 473 00:26:47,885 --> 00:26:50,895 ウィキデータとパンレックスの間の 474 00:26:50,895 --> 00:26:53,362 データと情報の流れに関する 475 00:26:53,362 --> 00:26:57,325 現在の技術的な状況について 説明して頂けますか 476 00:26:57,707 --> 00:27:00,729 既に実行に移されているのか 477 00:27:01,029 --> 00:27:03,962 そしてパンレックスとウィキデータの間の 478 00:27:03,962 --> 00:27:07,895 情報の相互交通 またはフィードバック・ループ情報に 479 00:27:07,895 --> 00:27:10,090 どう対処しているのでしょうか 480 00:27:10,207 --> 00:27:13,897 現時点ではウィキデータと フォーマルな接続はしていません 481 00:27:13,897 --> 00:27:17,740 先ほど述べた通り 今回ここで皆さんに 是非紹介したいことなんです 482 00:27:17,740 --> 00:27:20,451 ウィクショナリーとは既に 交流が始まっていますが 483 00:27:21,831 --> 00:27:24,651 正直言うと ウィキデータの方が 我々が求めていることと 484 00:27:24,651 --> 00:27:26,217 相性は良いはずです 485 00:27:27,587 --> 00:27:29,622 語彙関係そのもののデータを持っているので 486 00:27:29,622 --> 00:27:32,896 我々はデータ分析や抽出に 余分な時間を費やす必要がありません 487 00:27:34,450 --> 00:27:37,680 そこで答えは まだ接続していないが 是非そうしたいということです 488 00:27:37,940 --> 00:27:40,915 まだ接続していないなら 何が障害なんですか? 489 00:27:40,915 --> 00:27:43,807 ウィキデータはすでに 幾つかの言語をサポートしていますが 490 00:27:43,807 --> 00:27:47,108 translate.panlex.orgを参照すると 491 00:27:47,108 --> 00:27:50,040 どうやら あなた方は 多くの言語変種もサポートしており 492 00:27:50,040 --> 00:27:51,878 ウィキデータより範囲は相当広いですね 493 00:27:51,878 --> 00:27:54,895 翻訳や語彙翻訳ありきの 494 00:27:54,895 --> 00:27:57,323 アプリケーションに対し 495 00:27:57,323 --> 00:28:01,184 ナレッジ構造をマッピングする試みとの 496 00:28:01,184 --> 00:28:04,082 ギャップについて どうお考えですか? 497 00:28:04,082 --> 00:28:06,414 ナレッジのマッピングは 確かにとても興味深いです 498 00:28:06,414 --> 00:28:12,488 ウィキデータが語彙データを整理する方法 499 00:28:12,488 --> 00:28:17,208 そして我々の方法について 興味深いディスカッションがありました 500 00:28:17,208 --> 00:28:21,051 マッピング戦略を要する 微妙なデータの違いがありました 501 00:28:21,461 --> 00:28:25,067 そのいくつかは 自動化できませんが 502 00:28:25,067 --> 00:28:27,690 それを可能にするテクニックが 開発できるかも知れません 503 00:28:28,304 --> 00:28:30,699 言語変種のことを話されましたが 504 00:28:30,699 --> 00:28:34,673 我々は言語変種については 非常に細かく分類しがちです 505 00:28:34,673 --> 00:28:37,188 例えば あるデータソースが 506 00:28:37,188 --> 00:28:39,908 パプアニューギニアの言語で 507 00:28:39,908 --> 00:28:42,222 この方言が川の左側で話されると言い 508 00:28:42,222 --> 00:28:44,832 別のソースが その方言は川の右側で話されると言えば 509 00:28:44,832 --> 00:28:46,679 我々は それぞれ別の言語とし扱います 510 00:28:47,262 --> 00:28:51,247 そのようにして できるだけ多くの データを保存しようとしているのです 511 00:28:52,057 --> 00:28:55,079 それをウィキデータの方法に マッピングできるようにするにはー 512 00:28:55,229 --> 00:28:57,892 私が是非意見交換したいのは 513 00:28:57,892 --> 00:29:00,945 ウィキデータで言語が 514 00:29:00,945 --> 00:29:06,453 どのように指定されるかという点です 515 00:29:08,135 --> 00:29:12,152 先ほどの通り 我々は細密分類の 戦略を取ってますから 516 00:29:13,688 --> 00:29:17,863 我々はもっぱらエスノローグが提供する 517 00:29:17,863 --> 00:29:20,087 ISO 6393 コードに準拠していますが 518 00:29:20,087 --> 00:29:23,770 各コード内で 複数の言語変種を容認しています 519 00:29:23,770 --> 00:29:28,710 例えば 文字変種や地域的な方言 社会方言に対応するためです 520 00:29:30,292 --> 00:29:32,747 これも 今後の議論や協働のトピックです 521 00:29:35,847 --> 00:29:39,629 (聴衆7)光学文字認識 (OCR) の パイプラインについて教えてください 522 00:29:41,179 --> 00:29:45,023 私たちもマヤ語で OCR に挑戦しており 523 00:29:45,023 --> 00:29:48,370 なかなか結果が出ないもんですから 524 00:29:48,370 --> 00:29:50,455 全く認識してもらえないんです 525 00:29:50,455 --> 00:29:51,480 そうでしょうね(笑) 526 00:29:53,940 --> 00:29:56,519 (聴衆7)パイプラインが開示できれば 527 00:29:56,519 --> 00:30:00,305 もう一つの質問は ISOコードの重複についてです 528 00:30:00,305 --> 00:30:04,518 ソースによって これとこれは違う言語と言ったり 529 00:30:04,518 --> 00:30:08,206 別のソースでは 異なる扱いだったりして 530 00:30:08,206 --> 00:30:10,562 先ほどおっしゃった通り 重複することが多いので 531 00:30:10,562 --> 00:30:13,330 どう対応されていますか? 532 00:30:13,330 --> 00:30:16,492 素晴らしい質問ですね 533 00:30:17,662 --> 00:30:21,127 正式なOCRパイプラインはありませんが 534 00:30:21,127 --> 00:30:24,407 ソースごとに取り組んでいます 535 00:30:24,407 --> 00:30:25,470 なぜかと言うと 536 00:30:25,470 --> 00:30:30,113 OCRを必要としないソースも多い一方で 537 00:30:30,113 --> 00:30:31,822 OCRが入手可能な言語もあるので 538 00:30:31,822 --> 00:30:33,451 作業が楽な後者に専念しています 539 00:30:33,451 --> 00:30:36,413 当然ながら 着手予定のソースで 540 00:30:36,413 --> 00:30:38,197 詳細な研究を進める場合は 541 00:30:38,197 --> 00:30:41,063 OCRパイプラインを 充実させる必要があります 542 00:30:41,063 --> 00:30:44,903 でも 別の面もあって おっしゃった通り 543 00:30:45,335 --> 00:30:48,407 OCRエンジンを設計した人たちは 544 00:30:48,407 --> 00:30:52,583 どれくらいストレステストできるか 認識していないんだと思います 545 00:30:53,095 --> 00:30:56,679 だって何が楽しいかと言えばー 546 00:30:56,679 --> 00:30:59,188 ロシア語対チベット語辞書のOCRとか 547 00:30:59,188 --> 00:31:00,547 相当難しいですよね 548 00:31:00,547 --> 00:31:04,223 結局諦めて タイプ入力してくれる人を雇いました 549 00:31:04,333 --> 00:31:05,937 その方法でもできた訳です 550 00:31:06,009 --> 00:31:08,928 実際に その女性はすごくて 551 00:31:08,928 --> 00:31:11,097 チベット語を読むことを学んだロシア人で 552 00:31:11,097 --> 00:31:13,143 タイプ入力してくれ 大変助かりました 553 00:31:16,593 --> 00:31:19,162 ラテン系の文字を扱っている場合は 554 00:31:19,162 --> 00:31:22,984 充実したOCRソリューションは開発可能で 555 00:31:22,984 --> 00:31:25,498 このような複数言語に対応でき 556 00:31:25,498 --> 00:31:30,867 16世紀のマヤ語みたいなものを扱っていれば ランダムな4桁コードも対応できます 557 00:31:32,291 --> 00:31:36,095 でも言語によっては 558 00:31:36,095 --> 00:31:41,067 OCRが永久に追いつかなかったり 559 00:31:41,067 --> 00:31:44,118 作業量がとてつもなく 多すぎるものがあります 560 00:31:44,118 --> 00:31:47,207 今この手法を活用しているのが 561 00:31:47,207 --> 00:31:50,120 パンレックスの別のプロジェクトで 562 00:31:50,120 --> 00:31:53,857 バリの全ての伝統文学を 読み込んでおり 563 00:31:54,367 --> 00:31:58,220 バリ語の手書き文字では 564 00:31:58,220 --> 00:32:00,699 OCRは無理であることが分かったため 565 00:32:00,699 --> 00:32:02,671 大勢のバリ人にタイプしてもらってます 566 00:32:02,671 --> 00:32:06,207 バリで注目の文化プロジェクトとして 567 00:32:06,207 --> 00:32:09,007 ニュースなどでも取り上げられました 568 00:32:09,345 --> 00:32:11,451 OCRに依存する必要はないものの 569 00:32:11,451 --> 00:32:13,124 世の中には色々なOCRがあるので 570 00:32:13,124 --> 00:32:15,660 優れたソリューションがあるのは もちろん良いことです 571 00:32:17,163 --> 00:32:20,670 超多言語OCRの専門家がいたら 572 00:32:20,670 --> 00:32:22,649 是非声をかけてくださいね 573 00:32:29,669 --> 00:32:32,084 (聴衆8)プレゼンテーション 有難うございました 574 00:32:32,094 --> 00:32:33,954 パンレックスとウィキデータの 575 00:32:33,954 --> 00:32:36,936 統合についてお話しされましたが 576 00:32:36,936 --> 00:32:38,816 詳細には触れられませんでしたので 577 00:32:38,816 --> 00:32:42,809 あなたのデータライセンスを調べたら CC0でした 578 00:32:42,809 --> 00:32:43,848 そうです 579 00:32:43,848 --> 00:32:47,217 (聴衆8)いいですね 二つの方法が可能と思います 580 00:32:47,217 --> 00:32:49,384 データをインポートするか 581 00:32:49,384 --> 00:32:55,607 または 完全なデータベースがある フリーベースを活用したような方法です 582 00:32:55,784 --> 00:32:59,416 その時はインポートしてリンクを作成しました 583 00:32:59,416 --> 00:33:03,987 リンクはフリーベースの データベースへの外部識別子を使いました 584 00:33:05,977 --> 00:33:08,922 今回も同じようなことを考えてますか? 585 00:33:09,202 --> 00:33:13,784 それとも単純に ウィキデータにリンクできる 586 00:33:13,784 --> 00:33:18,818 独立したデータベースを 作ろうと考えていますか? 587 00:33:19,030 --> 00:33:20,982 とても良い質問で 588 00:33:20,982 --> 00:33:25,860 私が今まで考えて来たことの 一歩先を行っていると思います 589 00:33:25,860 --> 00:33:29,798 なぜかと言えば さきほど申し上げた通り 590 00:33:29,798 --> 00:33:32,562 両方のデータベースが 一緒に働けるようにすることは 591 00:33:32,562 --> 00:33:34,288 それだけで大きなステップだからです 592 00:33:34,288 --> 00:33:36,010 まず可能な最初のステップは 593 00:33:36,010 --> 00:33:38,339 文字通り お互いのスキルを 混合することです 594 00:33:38,340 --> 00:33:40,918 我々は 個別の語彙素のプロパティ分類に関し 595 00:33:40,918 --> 00:33:43,253 多くの経験を持っていますので 596 00:33:43,253 --> 00:33:45,663 喜んでシェアしたいと思ってますが 597 00:33:46,363 --> 00:33:48,991 データベースそのものを リンクできれば素晴らしいです 598 00:33:48,991 --> 00:33:50,997 是非できればと考えています 599 00:33:50,997 --> 00:33:53,815 ウィキデータからパンレックスへの流れの方が 600 00:33:53,815 --> 00:33:56,153 少し楽な気がしますが 601 00:33:56,153 --> 00:33:59,159 方法がイメージできるから 思い込んでるだけかも知れません 602 00:34:02,419 --> 00:34:07,880 ウィキデータがライセンスなどに関し 問題なければ 603 00:34:07,880 --> 00:34:09,695 あるいは両者間で工夫すれば 604 00:34:09,695 --> 00:34:12,307 とても良いアイディアだと思います 605 00:34:12,307 --> 00:34:16,223 データそのものをリンクする方法さえ 考えつけばいいんです 606 00:34:16,223 --> 00:34:20,312 まず思うのは ウィキデータ上での編集が 607 00:34:20,312 --> 00:34:25,774 瞬時にパンレックスのデータベース上にも 反映されればいいなということです 608 00:34:27,664 --> 00:34:31,125 毎回データを送り直す必要がなければ 609 00:34:31,125 --> 00:34:32,818 ウィキデータが実質的に 610 00:34:32,818 --> 00:34:35,783 パンレックスのクラウドソースの インターフェースになるわけで 611 00:34:35,783 --> 00:34:36,976 最高だと思います 612 00:34:36,976 --> 00:34:39,895 そうすればパンレックスを 即時翻訳にも使え 613 00:34:39,895 --> 00:34:42,784 ウィキデータ全体の語彙項目を使って 翻訳ができる訳で 614 00:34:42,784 --> 00:34:43,871 理想的ですね 615 00:34:55,459 --> 00:34:58,295 (聴衆9)これは 推論で穴を埋めるという 616 00:34:58,295 --> 00:35:03,273 セマンティック・ウェブの監査工程 のようなものですね 617 00:35:05,147 --> 00:35:09,759 このような翻訳について もっと考えてみた場合 618 00:35:09,759 --> 00:35:12,740 語義や文法のミスマッチについて 619 00:35:12,740 --> 00:35:16,360 どのように対処するんですか? 620 00:35:16,362 --> 00:35:19,095 例えば ドイツ語を翻訳する場合 621 00:35:19,095 --> 00:35:21,895 幾つかの言葉をまとめれば 622 00:35:21,895 --> 00:35:25,790 それなりの結果が得られます 623 00:35:25,790 --> 00:35:28,993 その一方で 例えば 言語によっては 624 00:35:28,993 --> 00:35:34,457 ドイツ語ほど 色に関して詳細なシステムがないと 625 00:35:34,457 --> 00:35:40,757 何かで読んだことがあります 626 00:35:41,791 --> 00:35:42,904 すべての言語が色に関し 627 00:35:42,904 --> 00:35:45,917 異なるシステムを使っている それとも同じとおっしゃいましたか? 628 00:35:45,917 --> 00:35:48,727 (聴衆9)もしかすると 言語の進化の話だったも知れません 629 00:35:48,727 --> 00:35:51,384 最初は白か黒で始まり そしてー 630 00:35:51,384 --> 00:35:53,800 色のヒエラルキーですね 631 00:35:53,800 --> 00:35:55,014 実際に色のヒエラルキーは 632 00:35:55,014 --> 00:35:57,499 この仕組みを説明するのに適しています 633 00:35:58,848 --> 00:36:01,627 一つの中間言語がある場合ー 634 00:36:01,977 --> 00:36:05,050 機械翻訳に関する論文を読むと興味深いです 635 00:36:05,050 --> 00:36:08,739 仮想の中間言語について良く話していますが 636 00:36:08,739 --> 00:36:10,478 「中間言語がある」と言ってる場合 637 00:36:10,478 --> 00:36:12,833 読んでみると大抵「英語だ」と言ってます 638 00:36:13,703 --> 00:36:17,150 この形態の語彙翻訳がしていることは 639 00:36:17,150 --> 00:36:20,507 多くの異なる中間言語を介することにより 640 00:36:21,162 --> 00:36:26,504 色々な語義の曖昧さに 対応することができるのです 641 00:36:26,504 --> 00:36:30,399 ある言葉の語義領域がそれなりに類似した 642 00:36:30,399 --> 00:36:33,483 言語を介在させている限り 643 00:36:33,483 --> 00:36:36,415 中間言語を通すことにより発生する 644 00:36:36,415 --> 00:36:40,045 語義の曖昧さを回避することができますから 645 00:36:40,045 --> 00:36:43,085 色のヒエラルキーの例をとれば 646 00:36:43,085 --> 00:36:46,273 緑と青を表す言葉が一つしかない言語を 647 00:36:46,547 --> 00:36:53,695 中間言語では 青と翻訳し 648 00:36:53,695 --> 00:36:57,484 その色について異なる曖昧さを持つ 別の言語にさらに翻訳した場合 649 00:36:57,484 --> 00:37:00,609 語義的な曖昧さが発生してしまいます 650 00:37:00,609 --> 00:37:03,290 でも やはり緑と青について 一つの言葉しか持たない 651 00:37:03,290 --> 00:37:07,857 他の言語をたくさん介在させることにより 652 00:37:07,857 --> 00:37:11,147 その特定の語義を実際に 653 00:37:11,147 --> 00:37:16,882 最終言語に伝えることができるのです 654 00:37:17,262 --> 00:37:20,762 文法的な面については 655 00:37:20,762 --> 00:37:23,673 パンレックスでは今まで 656 00:37:23,673 --> 00:37:30,015 語彙素すなわち語彙形式を収集して来ました 657 00:37:31,066 --> 00:37:33,118 要するに 辞書の見出し語であれば 658 00:37:33,118 --> 00:37:34,807 全て収集するということです 659 00:37:34,811 --> 00:37:37,807 だから現時点では 660 00:37:37,807 --> 00:37:41,177 文法的な変種形式は 積極的には収集していません 661 00:37:41,562 --> 00:37:43,882 例えば [聞き取り不能] データや 662 00:37:43,882 --> 00:37:45,277 過去形 現在形などです 663 00:37:45,277 --> 00:37:47,157 でも今後のこととして検討はしています 664 00:37:47,157 --> 00:37:48,954 忘れてはならない点は 665 00:37:48,954 --> 00:37:51,427 我々が重視しているのは 666 00:37:51,427 --> 00:37:54,247 サポートの少ない言語や 絶滅しそうな少数言語ですから 667 00:37:55,409 --> 00:37:57,287 完璧を目指すよりは 668 00:37:57,287 --> 00:38:00,564 せめて何かを提供することを 優先しているということです 669 00:38:01,414 --> 00:38:02,668 私が好きな言葉に 670 00:38:02,668 --> 00:38:05,511 「完璧さを求める余り良い結果を逸するな」 というものがあり 671 00:38:05,511 --> 00:38:06,614 それを肝に命じています 672 00:38:06,734 --> 00:38:08,377 でも 文法形式を扱ったり 673 00:38:08,377 --> 00:38:10,821 異なる文法形式間で 674 00:38:10,821 --> 00:38:14,073 翻訳できるようになることには とても興味があります 675 00:38:14,073 --> 00:38:15,808 今まで ある程度は研究はしましたが 676 00:38:15,808 --> 00:38:17,422 まだ 本格的に着手はしていません 677 00:38:25,484 --> 00:38:28,357 世界の約7,500の言語について 678 00:38:30,338 --> 00:38:33,455 表記された辞書を 使っておられるのでしょうが 679 00:38:33,455 --> 00:38:38,388 その全ての言語が 標準的な表記法を持っているのでしょうか 680 00:38:38,388 --> 00:38:40,267 良い質問ですね 681 00:38:42,448 --> 00:38:45,094 これらの言語の多くが 682 00:38:45,118 --> 00:38:48,069 皆さんご存じの通り 表記習慣がありません 683 00:38:48,073 --> 00:38:50,984 ただ 辞書が作られた言語であれば全て 684 00:38:50,984 --> 00:38:52,793 何らかの正書法を持っています 685 00:38:52,793 --> 00:38:56,913 その場合 我々はその辞書の 正書法を頼ることになります 686 00:38:56,913 --> 00:38:59,717 時として 失われるものがないと確信できれば 687 00:38:59,717 --> 00:39:03,897 正書法を若干いじることはありますが 688 00:39:03,897 --> 00:39:06,184 可能な限り避けるようにしています 689 00:39:09,250 --> 00:39:13,472 我々は特定言語のために 正書法を作ることはやっていません 690 00:39:13,472 --> 00:39:15,086 未発達である場合が多く 691 00:39:15,086 --> 00:39:18,037 発達していたとしても 広く出版されていない場合が多いからです 692 00:39:21,717 --> 00:39:26,472 例えば ニューギニア島で話されている 多くの言語では 693 00:39:26,472 --> 00:39:29,029 共通の正書法形式がないので 694 00:39:29,315 --> 00:39:31,232 言語学者は 何かを作って工夫するしかなく 695 00:39:31,232 --> 00:39:33,497 それも初期段階として 良い取り組みだと思います 696 00:39:33,497 --> 00:39:36,830 我々はまた 辞書で入手可能であれば 音声形式も収集します 697 00:39:36,830 --> 00:39:39,037 これも別のアプローチであり 698 00:39:39,037 --> 00:39:41,567 国際音声記号 (IPA) のようなものです 699 00:39:42,590 --> 00:39:44,117 このような方法もある訳ですが 700 00:39:44,117 --> 00:39:45,790 曖昧性が発生する可能性があるため 701 00:39:45,790 --> 00:39:48,212 中間言語としては利用しません 702 00:39:53,132 --> 00:39:55,743 (聴衆10)有難うございます 変な質問かも知れませんが 703 00:39:55,743 --> 00:40:00,871 ここに示されているのがあなた方が使用される 中間言語の全てですか? 704 00:40:01,021 --> 00:40:02,039 いいえ 違います 705 00:40:02,039 --> 00:40:04,069 (聴衆10)そうですか 有難うございます 706 00:40:04,069 --> 00:40:05,627 いえ ご質問頂いて良かったです 707 00:40:06,287 --> 00:40:11,181 これが translate.panlex.org の スクリーンショットです 708 00:40:11,181 --> 00:40:13,098 翻訳をする場合 709 00:40:13,098 --> 00:40:15,473 右側に翻訳候補のリストが出ます 710 00:40:15,473 --> 00:40:18,099 点々のあるボタンをクリックすると こんなグラフが出ます 711 00:40:18,099 --> 00:40:21,787 ここに中間言語が表示されます 712 00:40:21,787 --> 00:40:24,767 スコアの上位20言語です 713 00:40:24,767 --> 00:40:27,460 重要ではないので スコア法は詳しく説明しませんが 714 00:40:27,460 --> 00:40:30,459 スコアによってランクされています 715 00:40:30,459 --> 00:40:33,711 翻訳するためには 実際は20よりはもっと多い数を使います 716 00:40:33,711 --> 00:40:36,250 ここで20に止めているのは 20以上あった場合ー 717 00:40:36,250 --> 00:40:38,184 物理学のシミュレーションのようなもので 718 00:40:38,184 --> 00:40:39,788 これらを動かすとくねくね動きます 719 00:40:39,788 --> 00:40:41,895 20以上だとコンピュータがおかしくなります 720 00:40:45,625 --> 00:40:46,853 これはデモなんです 721 00:40:56,077 --> 00:40:58,312 (聴衆11) ウィキメディア財団のレイラです 722 00:40:58,312 --> 00:41:00,245 プレゼンテーション中に 723 00:41:00,245 --> 00:41:03,162 ウィキメディア財団について 何度かコメントされていましたが 724 00:41:03,162 --> 00:41:06,267 ウィキデータとのデータ送入や 725 00:41:06,267 --> 00:41:09,240 コラボレーションをご希望であれば 726 00:41:09,240 --> 00:41:10,807 ウィキメディア・ドイツに 727 00:41:10,807 --> 00:41:13,187 相談された方が良いのでは? 728 00:41:13,187 --> 00:41:16,189 ウィキデータは ウィキメディア・ドイツ内にあり 729 00:41:16,189 --> 00:41:17,693 チームもそこにいて 730 00:41:17,693 --> 00:41:20,518 ウィキデータに関わる ボランティアのコミュニティが 731 00:41:22,054 --> 00:41:27,587 データ送入やパンレックスをウィキデータに 近づける取り組みについて 732 00:41:27,587 --> 00:41:31,387 話し合う最適の場所だと思うんです 733 00:41:31,387 --> 00:41:33,183 どうも有難うございます 734 00:41:33,183 --> 00:41:37,768 正直言って 細かい組織構造のことや 735 00:41:37,768 --> 00:41:39,990 プロジェクトの関係について 良く知らないのでー 736 00:41:39,990 --> 00:41:41,997 笑い声が聞こえるので 複雑なんでしょうね 737 00:41:42,747 --> 00:41:45,454 基本的に ウィキデータの責任者であれば 738 00:41:45,454 --> 00:41:48,740 誰でも良いので話をしたいです 739 00:41:50,950 --> 00:41:52,710 [聞き取り不能] をさせてもらえば 740 00:41:52,710 --> 00:41:54,947 ウィキデータの責任者の方とね 741 00:41:56,597 --> 00:41:59,477 すなわちボランティアの皆さんと お話しがしたいです 742 00:42:04,187 --> 00:42:05,211 他にご質問は? 743 00:42:10,433 --> 00:42:14,811 追加でご質問がある方や 744 00:42:14,811 --> 00:42:17,497 お話したことについて もっと詳しく聞きたい方は 745 00:42:17,497 --> 00:42:20,718 話しかけて下さい 私も興味がありますから 746 00:42:20,718 --> 00:42:23,897 語彙関係について取り組まれていたり 747 00:42:23,897 --> 00:42:28,394 絶滅の危機に瀕している少数言語や 748 00:42:28,394 --> 00:42:31,673 サポートの少ない言語に関わっていたら お話ししましょう 749 00:42:31,673 --> 00:42:34,241 ユニコードもやるので関心があります 750 00:42:37,171 --> 00:42:38,217 有難うございました 751 00:42:38,217 --> 00:42:39,597 登壇させて頂き感謝してます 752 00:42:39,597 --> 00:42:41,890 皆さんにとり面白い話だったら光栄です (拍手)