aixsatoshi
/

Llama-3-8b-Cosmopedia-japanese

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

aixsatoshi commited on May 1, 2024

Commit

8eb42a0

·

verified ·

1 Parent(s): bd9219f

Update README.md

Files changed (1) hide show

README.md +9 -2

README.md CHANGED Viewed

@@ -2,7 +2,14 @@
 license: llama3
 ---
 **モデル概要**
-Llama-3-8b-Cosmopedia-japaneseモデルは、優れた性能を認められているLlama-3-8bモデルの日本語ドメインへの適応を目的として設計されました。Llama-3-8bはその高い能力にも関わらず、英語と日本語の推論結果には顕著な差があり、日本語のパフォーマンスが劣っていました。私たちの目標は、Llama-3-8bの高度な論理的推論能力を損なうことなく、このモデルを日本語に適応させることでした。
 **外部翻訳システムを利用したトレーニングと開発**
-適応戦略として、Mixtralの推論能力の中核を凝縮したcosmopediaデータを外部の翻訳システムを通じて日本語に翻訳し、この日本語のcosmopediaデータを使用してLlama-3-8bモデルの追加トレーニングを行い、日本語ドメインへの適応を図りました。Llama-3-8bの論理的推論能力を日本語のコンテキストに円滑に移行させ、日本語でのパフォーマンス向上を目標としました。

 license: llama3
 ---
 **モデル概要**
+Llama-3-8b-Cosmopedia-japaneseモデルは、優れた性能を認められているLlama-3-8bモデルの日本語ドメインへの適応を目的として設計しました。
+Llama-3-8bはその高い能力にも関わらず、英語と日本語の推論結果には顕著な差があり、英語で返答しやすいバイアスが強く、日本語でのパフォーマンスが劣っていました。
+私たちの目標は、Llama-3-8bの高度な論理的推論能力を損なうことなく、日本語に適応させることでした。
 **外部翻訳システムを利用したトレーニングと開発**
+適応戦略として、高性能でライセンスがApache2.0のMixtralを利用したcosmopediaという合成データセットを利用しました。
+cosmopediaには、高品質なMixtral8x7Bのアウトプットのみで構成されており、推論能力の中核を凝縮した余計なノイズを含まないことが特徴です。
+しかしcosmopediaは英語で構成されており、Mixtral自身も日本語表現を苦手とすることから、まず外部の翻訳システムを通じて日本語に翻訳しています。
+この日本語化cosmopediaデータを使用してLlama-3-8bモデルの追加トレーニングを行うことで日本語ドメインへの適応を図りました。
+Llama-3-8bの論理的推論能力を日本語のコンテキストに円滑に移行させ、主にアウトプット対象言語のバイアスを日本語方向に移動させるトレーニングを行い
+日本語でのパフォーマンス向上しました。