Loading...
HF多模态

sonoisa/t5-base-japanese

日本語T5事前学習済みモデル ...

标签:


日本語T5事前学習済みモデル

This is a T5 (Text-to-Text Transfer Transformer) model pretrained on Japanese corpus.

次の日本語コーパス(約100GB)を用いて事前学習を行ったT5 (Text-to-Text Transfer Transformer) モデルです。

  • wikipediaの日本語ダンプデータ (2020年7月6日時点のもの)
  • OSCARの日本語コーパス
  • CC-100の日本語コーパス

このモデルは事前学習のみを行なったものであり、特定のタスクに利用するにはファインチューニングする必要があります。
本モデルにも、大規模コーパスを用いた言語モデルにつきまとう、学習データの内容の偏りに由来する偏った(倫理的ではなかったり、有害だったり、バイアスがあったりする)出力結果になる問題が潜在的にあります。
この問題が発生しうることを想定した上で、被害が発生しない用途にのみ利用するよう気をつけてください。

SentencePieceトークナイザーの学習には上記Wikipediaの全データを用いました。


転移学習のサンプルコード

https://github.com/sonoisa/t5-japanese


ベンチマーク


livedoorニュース分類タスク

livedoorニュースコーパスを用いたニュース記事のジャンル予測タスクの精度は次の通りです。
Google製多言語T5モデルに比べて、モデルサイズが25%小さく、6ptほど精度が高いです。

日本語T5 (t5-base-japanese, パラメータ数は222M, 再現用コード)

label precision recall f1-score support
0 0.96 0.94 0.95 130
1 0.98 0.99 0.99 121
2 0.96 0.96 0.96 123
3 0.86 0.91 0.89 82
4 0.96 0.97 0.97 129
5 0.96 0.96 0.96 141
6 0.98 0.98 0.98 127
7 1.00 0.99 1.00 127
8 0.99 0.97 0.98 120
accuracy 0.97 1100
macro avg 0.96 0.96 0.96 1100
weighted avg 0.97 0.97 0.97 1100

比較対象: 多言語T5 (google/mt5-small, パラメータ数は300M)

label precision recall f1-score support
0 0.91 0.88 0.90 130
1 0.84 0.93 0.89 121
2 0.93 0.80 0.86 123
3 0.82 0.74 0.78 82
4 0.90 0.95 0.92 129
5 0.89 0.89 0.89 141
6 0.97 0.98 0.97 127
7 0.95 0.98 0.97 127
8 0.93 0.95 0.94 120
accuracy 0.91 1100
macro avg 0.91 0.90 0.90 1100
weighted avg 0.91 0.91 0.91 1100


JGLUEベンチマーク

JGLUEベンチマークの結果は次のとおりです(順次追加)。

  • MARC-ja: 準備中
  • JSTS: 準備中
  • JNLI: 準備中
  • JSQuAD: EM=0.900, F1=0.945, 再現用コード
  • JCommonsenseQA: 準備中


免責事項

本モデルの作者は本モデルを作成するにあたって、その内容、機能等について細心の注意を払っておりますが、モデルの出力が正確であるかどうか、安全なものであるか等について保証をするものではなく、何らの責任を負うものではありません。本モデルの利用により、万一、利用者に何らかの不都合や損害が発生したとしても、モデルやデータセットの作者や作者の所属組織は何らの責任を負うものではありません。利用者には本モデルやデータセットの作者や所属組織が責任を負わないことを明確にする義務があります。


ライセンス

CC-BY SA 4.0

Common Crawlの利用規約も守るようご注意ください。

数据统计

数据评估

sonoisa/t5-base-japanese浏览人数已经达到445,如你需要查询该站的相关权重信息,可以点击"5118数据""爱站数据""Chinaz数据"进入;以目前的网站数据参考,建议大家请以爱站数据为准,更多网站价值评估因素如:sonoisa/t5-base-japanese的访问速度、搜索引擎收录以及索引量、用户体验等;当然要评估一个站的价值,最主要还是需要根据您自身的需求以及需要,一些确切的数据则需要找sonoisa/t5-base-japanese的站长进行洽谈提供。如该站的IP、PV、跳出率等!

关于sonoisa/t5-base-japanese特别声明

本站Ai导航提供的sonoisa/t5-base-japanese都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由Ai导航实际控制,在2023年5月9日 下午7:10收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,Ai导航不承担任何责任。

相关导航

暂无评论

暂无评论...