What languages are supported? How do you specify them?

#1
by terribleplan - opened

Based on the example code in the model card it appears languages are specified as their capitalized full English names (e.g. Japanese and English). Further, the example code shows that at the very least the Japanese and English languages are supported.

The demo web app appears to support the following languages:

  • Arabic (ar)
  • Chinese (Simplified) (zh)
  • Chinese (Traditional) (zh-TW)
  • Dutch (nl)
  • English (en)
  • French (fr)
  • German (de)
  • Indonesian (id)
  • Italian (it)
  • Japanese (ja)
  • Korean (ko)
  • Russian (ru)
  • Spanish (es)
  • Thai (th)
  • Vietnamese (vi)

The tokenizer appears to only have single-token entries for 7 (de, en, es, fr, ja, ru, zh) of those 15. I expected supported languages to have a single-token identifier of some sort. Additionally there is no single-token identifier for any more specific form of Chinese (Chinese (Traditional), Traditional Chinese, etc.).

Can you clarify which languages are supported and to what level (officially, unofficially, etc)? How do you specify the different languages? Can this information be added to the model card or somewhere else it can be easily referenced?

PLaMoモデルによる以下の翻訳結果をご提供します:

モデルカードに記載されているサンプルコードによると、言語は大文字表記の完全な英語名称で指定されています(例:JapaneseおよびEnglish)。さらに、サンプルコードからは、少なくとも日本語と英語の言語がサポートされていることが確認できます。

デモウェブアプリケーションでは以下の言語がサポートされているようです:

  • アラビア語(ar)
  • 中国語(簡体字)(zh)
  • 中国語(繁体字)(zh-TW)
  • オランダ語(nl)
  • 英語(en)
  • フランス語(fr)
  • ドイツ語(de)
  • インドネシア語(id)
  • イタリア語(it)
  • 日本語(ja)
  • 韓国語(ko)
  • ロシア語(ru)
  • スペイン語(es)
  • タイ語(th)
  • ベトナム語(vi)

トークン化処理では、15種類の言語のうち7言語(de、en、es、fr、ja、ru、zh)のみが単一トークンで表現されているようです。サポート言語には何らかの形で単一トークンの識別子が付与されていると想定していました。また、より具体的な中国語の形態(Chinese (Traditional)Traditional Chineseなど)についても、単一トークンの識別子が存在しないようです。

サポートされている言語とそのサポートレベル(公式/非公式など)について明確にしていただけますか?また、これらの異なる言語をどのように指定すればよいのでしょうか?この情報はモデルカードに追加するか、または他の参照しやすい場所に記載することは可能でしょうか?

Sign up or log in to comment