IITマドラス校の研究チームが取り組む、言語データベース構築

 

Posted on 08 Mar 2024 21:00 in インド科学技術 by Yoko Deshmukh

地道な活動を、キックオフ当時の様子からつづられたブログを読むと、遠い昔に置き忘れてきた何かを思い出させてくれるような気持ちになります。



調べ物の途中、インド工科大学(IIT)マドラス校による、インド全土の言語を網羅した発話データベースについての話題を見つけ、興味本位で覗いてみた。

AI4BHĀRAT – Artificial-Intelligence For Bhārat

うち「INDICVOICES」プロジェクトでは、国内145県にまたがる22の言語を対象に、1万6,237人の話者からの合計7,348時間にわたる朗読(9パーセント)、自由発言(74パーセント)、および会話(17パーセント)の音声を含む。自然および自発的な音声のデータセットである。
うち1,639時間分はすでに文字起こしを終えており、言語ごとの中央値は73時間となっている。
インドの文化的、言語的、人口統計上の多様性を捉えてた、かつてない規模の包括的なデータセットを作成した。
リンク先は世界の他言語地域におけるデータ収集活動においても役立てられるよう、無料で開放されている。

北から南へ、東から西へと、広いインド亜大陸部(離島部は含まれないようで、余計に現地の言語状況が気になる)隅々まで、諸言語や方言の話者を訪ね、発話を録音していく壮大なプロジェクトの裏話をつづったブログは、想像もつかないような苦労話にあふれていて、一方でそうした状況でも得られた充実感や達成感が生き生きと描かれていて、読み応えがある。

IndicVoices – AI4BHĀRAT: ブログ

「地域によって言語はもちろん、生活様式や社会状況に大きな相違があった中、インド諸言語の多様性を維持し、伝統と現代とのギャップを埋める」ための取り組みとしてのIndicVoicesは、まだ1万2,000時間以上分もの録音が残っているらしい。

本日最も読まれている記事
インドで人気の日本アニメは、このタイトル Posted on 15 Jun 2023

購入後半年で故障したフォッシルのスマートウォッチを巡る、意外な顛末 Posted on 16 Sep 2019
日本人と顔立ちがよく似た「セブン・シスターズ」北東部の女性、人種差別に立ち上がる Posted on 18 Mar 2017
アスファルトも溶ける!?猛暑のグジャラート州で人を飲み込む道路 Posted on 26 May 2016
インディラ・ガーンディー国際空港ターミナル3の様子、機内食、その他あれこれ:写真編 Posted on 13 Oct 2018


本日の練習






About the author

Yoko Deshmukh   (日本語 | English)         
インド・プネ在住歴10年以上の英日・日英フリーランス翻訳者、デシュムク陽子(Yoko Deshmukh)が運営しています。2003年9月30日からインドのプネに住んでいます。

ASKSiddhi is run by Yoko Deshmukh, a native Japanese freelance English - Japanese - English translator who lives in Pune since 30th September 2003.



Share it with


User Comments