シリーズ「AA研」は何をするところ?:過去の記録を現在に ~台湾原住民語資料の整理?公開~
研究室を訪ねてみよう!
東京外国語大学のキャンパス内にはさまざまな施設があります。そのなかで、学生のみなさんにとって立ち入る機会が少ないのがアジア?アフリカ言語文化研究所(略称「AA研」)ではないでしょうか。在学生から「謎の施設」と思われているAA研は、アジア?アフリカの言語と文化に関する国際的な研究拠点です。そこでは国内外の研究者と共同で、アジア?アフリカ地域を対象に人文学を基盤とする共同研究活動が幅広く展開されています。このシリーズでは、AA研の多様な共同研究プロジェクトの一部をご紹介していきます。
今回はAA研共同利用?共同研究課題「土田滋博士の台湾原住民語資料に基づく研究 (jrp000284)」(月田尚美(愛知県立大学)代表, 2023-2025年度)の副代表であるAA研の塩原朝子教授に、この共同研究プロジェクトに関連する台湾原住民語の整理?公開作業についてご紹介いただきます。
※日本語では地域固有の民族を?先住民?と呼ぶのが一般的ですが、日本の台湾研究者の多くは台湾固有の民族に対して台湾華語の呼称に沿う形で?原住民?という名称を使っています。この記事でもその方針に沿って「原住民」を使用しています。
AA研共同利用?共同研究課題 土田滋博士の台湾原住民語資料に基づく研究 (jrp000284)
この研究課題では、言語学者土田滋博士が1968年から1989年に至るまでの現地調査で収集した台湾原住民語資料を用いて台湾原住民の言語および文化?社会の研究に貢献することを目的とする。具体的には (i)台湾原住民語の語彙集?テキスト集などの言語資料の編集?公刊や (ii)台湾原住民語の分岐や分類、あるいは個別言語の語彙?音声?文法に関する学術論文を公刊することを目指す。
台湾原住民語って?
台湾原住民語は、日本の南の隣人である台湾に古くから住んでいた人々の言語の総称です。
台湾原住民語は、現在台湾で主に用いられている台湾華語や台湾語(いずれも漢語(いわゆる中国語)の一種)とは系統がまったく異なる、オーストロネシア語族に属する言語です。オーストロネシア語族に属する言語は、フィリピンやインドネシアなどの東南アジア島嶼部を中心に、南はニュージーランド(マオリ語)、西はマダガスカル島(マダガスカル語)、東はイースター島(ラパヌイ語)に至る広大な地域で話されています。台湾原住民語はその北端で話されており、この語族の最も古い形を残していると言われています。東京外国語大学で教えられている言語の中ではフィリピン語が台湾原住民語に最も近く、複雑な動詞形態論とそれに対応する数多くの文法的「態」(grammatical voice)を持つという特徴を共有しています。
台湾には古くから多数の民族が暮らしていました。現在、台湾政府が認定しているのは16の民族ですが、確認されている言語?方言の数はそれ以上にのぼります。17世紀後半、中国大陸から移住してきた漢民族の影響により、西部の平地に居住する原住民(平埔族)は徐々に漢語を話すようになりました。さらに、近年の社会的変化により、山地に居住する原住民(高山族)の言語も次世代への継承が途絶えつつあります。シラヤ語やパポラ語など、話者がすでにいなくなっている言語もあります。
Blust (1999)に基づく植民地化以前の台湾原住民語の分布
(Furfur, kanguole, CC BY-SA 4.0 https://creativecommons.org/licenses/by-sa/4.0/deed.en)
アジア?アフリカ言語文化研究所による台湾原住民語資料研究(小川?浅井資料)
日本の言語学研究者は戦前から台湾原住民語の研究を行ってきました。中でもパイオニアとしての役割を果たしたのが台北帝国大学の教授であった小川尚義博士と浅井惠倫博士です。AA研では両博士が1930年から1938年にかけて行った現地調査の資料を譲り受け、保管しています。通称「小川?浅井資料」と呼ばれるこの資料はAA研共同研究プロジェクト「浅井?小川未整理資料の分類?整理?研究」(土田滋代表, 2000-2003年度)により精査され、目録『小川尚義?浅井惠倫台湾資料研究』(三尾裕子?豊島正之編, 2005年, AA研)が作成されました。この成果を受けAA研ではCOE研究拠点「アジア書字コーパスに基づく文字情報学の創成」(ぺーリ?バースカラーラオ代表, 2001-2005年度)が中心となり、展示『臺彎(たいわん)資料 テキスト?音?映像で見る台湾—一九三〇年代の小川?浅井コレクションを中心として』を企画し、小川?浅井資料のうち、とりわけ重要な写真、映像などを一般公開しました。
土田滋博士の台湾原住民語資料
上記の共同研究プロジェクト「浅井?小川未整理資料の分類?整理?研究」の代表者であった土田滋博士(AA研元所員、東京大学元教授)は日本における戦後の台湾原住民語研究の第一人者です。土田博士は1960年から2014年にかけて台湾原住民が居住する数多くの村で調査を行い、収集した15言語、17方言のデータに基づき台湾原住民語12言語の概略を『言語学大辞典』(全6巻+別巻;1989年–2001年, 三省堂)の項目として執筆しました。
土田博士の調査記録には単語データなど未公刊の貴重な情報が大量に含まれています。東京外国語大学は2019年に土田博士の調査記録としてのフィールドノートと録音テープ(以下土田資料)を譲り受け、科研プロジェクト「研究職を離れた言語研究者が保持する言語データの適正再資源化のための基盤確立研究」(基盤 (B) 加藤重広(北海道大学)代表, 2018-2021年度)によりデジタル化を行いました。フィールドノートに含まれている物語の一部は、台湾における台湾原住民語研究のパイオニアであり、土田滋博士の親しい研究仲間である李壬癸 (Paul Li) 博士が編集したサアロア語の物語集、Saaroa Text (2023年, AA研) に収録されています。
上述のように土田博士が調査した言語は現在いずれも次世代への継承が途絶えつつあります。土田資料はそれらの言語が各言語コミュニティにおいて日常的に用いられていた時期の非常に貴重な記録であり、その公開を世界中の台湾研究者のみならず、台湾にいる原住民語の話者とその子孫も待ち望んでいます。
その期待に応えるため、全学リポジトリ(東京外国語大学成果公開コレクション)上の「土田滋博士台湾原住民語データ」というカテゴリーから土田資料のデータ公開を開始しました。2024年7月現在、サアロア語のフィールドノートと音声データが公開されています。
現在公開されているのは手書きのデータの画像PDFと文字化されていない音声データといった一次資料であり、あまり利用しやすい形にはなっていません。そのため、AA研ではデータの利活用を容易にするための加工、すなわちデータの資源化を行っています。とりわけ注力しているのが語彙データの取り出し?構造化です。より具体的には、フィールドデータに記載されている単語とそれに付随する日本語訳や説明を入力し、TEIという国際規格で注釈を付けるという作業を行っています。文字列の入力は時間のかかる作業ですが、AIを用いたテキスト認識システムの利用可能性も探りつつ、試行錯誤を行っています。
私たちはこのようにして入力した語彙データを複数の台湾原住民語の語彙を対照できるような語彙集として利用可能にすること、そして単語と物語などのテキストデータを関連付けて分析に役立てることを目指しています。この活動は日本全国の台湾原住民語研究者をメンバーとする共同利用?共同研究課題「土田滋博士の台湾原住民語資料に基づく研究 (jrp000284)」により行い、土田資料の利用方法の検討だけでなく、台湾原住民語研究の様々な可能性を模索しています。
台湾「国家図書館」への資料の寄贈
台湾原住民の人々にとって、小川?浅井資料や土田資料は学術的資料としてだけではなく、民族の精神的よりどころとして高い価値を持っています。私たちは李壬癸 (Paul Li) 博士からの強い要請を受け、土田資料のうちフィールドノートを台北の国家図書館に寄贈しました。2023年10月に行われた「土田滋教授資料寄贈式」では多くの人々が集まり台湾における台湾原住民語資料への関心の高さを窺うことができました。このことは私たちが預かっている台湾原住民語資料の価値を再認識するきっかけとなりました。データの資源化をすすめるとともに、全学リポジトリを起点とするネットワークを通じて資料の所在をできるだけ多くの方々に知らせ、見てもらいたい、活用してもらいたいと考えています。