国立情報学研 国産LLM「LLM-jp-4」を公開 一部指標でGPT-4oを上回る
国立情報学研究所(NII)の大規模言語モデル研究開発センター(LLMC、月刊事業構想2025年4月号参照)は2026年4月3日、大規模言語モデル(LLM)の新モデル「LLM-jp-4 8Bモデル」と「LLM-jp-4 32B-A3Bモデル」をオープンソースライセンスで公開した。約12兆トークンの良質な学習コーパスを用いてフルスクラッチで学習したモデルであり、日本語・英語の理解力を測る一部ベンチマークでは、米OpenAIの「GPT-4o」や中国Alibabaの「Qwen3-8B」を上回る性能を達成している。
今回公開されたのは、約86億パラメータの「LLM-jp-4 8Bモデル」と、約320億パラメータのMixture of Experts(MoE)モデルである「LLM-jp-4 32B-A3Bモデル」の2種類。いずれも最大約6万5000トークンの入出力に対応する。
学習用のデータベース(コーパス)の構築にあたっては、オープンソースAIの定義(OSAID)に配慮し、第三者が入手可能なデータを収集・選別した。インターネット上の公開データや政府・国会の文書、合成データなどから構成される総計約19.5兆トークンのコーパスを整備し、そのうち約10.5兆トークンを事前学習に使用。さらに合成データを含む約1.2兆トークンの中間学習を経て、22種類のインストラクションチューニングデータで調整を行った。前世代の「LLM-jp-3.1」シリーズと比較して、学習コーパスの規模は約6倍に拡大している。
計算資源には、国立研究開発法人産業技術総合研究所が提供するAI橋渡しクラウド(ABCI 3.0、
月刊事業構想2025年4月号参照)を活用した。
性能評価では、日本語理解力を測る「日本語MT-Bench」において、LLM-jp-4 8Bモデルがスコア7.54、LLM-jp-4 32B-A3Bモデルが7.82を記録した。GPT-4oの7.29やQwen3-8Bの7.14を上回る結果だ。英語理解力を測る「MT-Bench」でも、8Bモデルが7.79、32B-A3Bモデルが7.86を達成し、GPT-4o(7.69)やQwen3-8B(7.69)と同等以上の水準となった。また、42種類の評価データを用いた横断的な評価においても、両モデルは日本語性能でQwen3-8Bと同等の水準に達していることが確認されている。
LLM-jp-4の開発を担うのは、NIIが主宰するLLM研究開発コミュニティ「LLM-jp」だ。自然言語処理や計算機システムの研究者を中心に、大学・企業などから2600名以上が参加する大規模な産学連携体制のもとで研究開発を進めている。コーパス構築、モデル構築、チューニング・評価など9つのワーキンググループ(WG)を設置し、早稲田大学、東北大学、東京大学、東京科学大学、名古屋大学などの研究者がそれぞれの領域をリードしている。
さらなる大規模モデルの開発へ
NIIは今回の成果を踏まえ、より大規模な「LLM-jp-4 32Bモデル」およびMoEモデル「LLM-jp-4 332B-A31Bモデル」の開発を進めている。実運用での利便性を考慮した軽量モデルの開発も並行して実施しており、2026年度中に順次公開する予定だ。今回の成果は、文部科学省補助金事業「生成AIモデルの透明性・信頼性の確保に向けた研究開発拠点形成」の一環として得られたもの。