ニュース
有価証券報告書を用いた日本語金融LLMベンチマーク「EDINET-Bench」、Sakana AIが公開
高度な金融タスクにてAIがどの程度対応できるかを評価
2025年6月9日 12:16
Sakana AI(株)は6月5日、会計不正検知をはじめとする高度な金融タスクにおける大規模言語モデル(LLM)の性能を測定する日本語金融ベンチマーク「EDINET-Bench」を開発した。データセットをHugging Faceにて、構築ツールおよび評価コードをGitHubにて公開している。
同社によると、LLMの金融分野への応用は、プログラミング支援などと比べると、まだ発展途上にあり、その原因のひとつとして、実タスクに近い高度な金融タスクの性能を測るベンチマークの欠如が挙げられるとしている。金融の仕組みやルールは国ごとに大きく違うため、あるモデルが英語圏のベンチマークでの性能が良いからといって、日本でも同じようにうまく動くとは限らない。日本独自のベンチマークを作ることには大きな意味があるという。
そこで今回、金融庁の電子開示システム「EDINET」より日本の上場企業の有価証券報告書を無償で取得できることに着目。これにもとづく日本語金融ベンチマーク「EDINET-Bench」が開発された。
「EDINET-Bench」には、以下の3つのタスクが含まれる。
- 会計不正検知
有価証券報告書に不正が含まれているか否かを予測する2値分類タスク - 業績予想
有価証券報告書の次の年度の業績が今年度に比べて増加するか下降するかを予測する2値分類タスク - 業種予測
有価証券報告書の表データをもとに業種を予測する多値分類タスク
また、「EDINET-Bench」は、以下のようなパイプラインで構築された。
EDINETを用いて日本の上場企業の有価証券報告書を過去10年分、約41,000件集めた上で、各タスクについて、年度やクラスバランスを考慮して有価証券報告書をサンプリングし、ラベルがつけられた。
会計不正検知タスクにおける不正事例については、有価証券報告書の訂正報告書(過去10年分、約6,700件)の内容をもとに、LLMで会計不正(会計報告に関する意図しない誤謬を含む)に関連があるか判断させることで不正・誤謬事例を約600件用意。同社によると、目視で確認したところ、多くの場合で不正会計の事例が確認できたが、プロンプトで指示した種類の会計不正には該当しない理由による訂正のケースもいくつか含まれており、より妥当な不正事例の用意の方法については今後の課題としている。
EDINET-Benchの構築方法の特徴は、すべてのタスクにおいてラベルを自動的に付与するようになっており、データセットの更新とサイズの拡張が可能な点。EDINET-Benchの構築に用いたツール「edinet2dataset」はGitHubで公開されており、誰でも最新の有価証券報告書を用いて、新たなベンチマークデータセットを構築することが可能となっているほか、今回構築されたベンチマークデータセットもHuggingFaceにて公開されている。
「EDINET-Bench」では、LLMの性能をタスクに特化した学習を行なわないゼロショット設定で評価する。入力には、有価証券報告書から貸借対照表(BS)やキャッシュフロー計算書(CF)などの情報を抽出した上で指示プロンプトとともにLLMに入力し、クラスを予測させる。
評価の結果、会計不正検知タスクにおいて、最先端のLLMでも古典的な機械学習モデルのロジスティックモデルと同程度の性能にとどまることがわかったという。ROC-AUCは「0.5」がランダム予測と同程度、「1.0」が完璧な予測となるが、今回の評価設定では最も良い設定でも「0.7」程度となっており、会計不正検知が難しいことを示唆している。
今回の評価では、有価証券報告書ひとつから抽出できるデータのみがLLMに与えられたが、有価証券報告書は企業の経済活動の要約に過ぎない。同社は今後、会計士(実際の監査業務において、インターネット上に公開されている決算説明資料等の資料のほか、企業の内部情報を含む、より多岐にわたる情報にアクセスすることができる)が置かれている状況に近い、よりリッチな環境をLLMに提供した上で評価を行なうことが重要になると考えているとのこと。
なお、Sakana AIは、今回のベンチマークの作成とその評価で得た知見をもとに、金融タスクによりよく対応できる特化型LLMの開発など、金融分野へのAI実装に向けた研究開発を進めていくとしている。