Financial

#Pocket #NLP #Dataset #LanguageModel #Evaluation
Issue Date: 2025-10-04 [Paper Note] StockBench: Can LLM Agents Trade Stocks Profitably In Real-world Markets?, Yanxu Chen+, arXiv'25, 2025.10 GPT Summary- 大規模言語モデル(LLMs)の金融分野における評価のために、StockBenchという新しいベンチマークを導入。これは、株式取引環境でのLLMエージェントのパフォーマンスを評価し、累積リターンやリスク管理能力を測定する。多くのLLMエージェントはシンプルな戦略を超えるのが難しいが、一部のモデルは高いリターンを示す可能性がある。StockBenchは再現性を支援し、今後の研究を促進するためにオープンソースとして公開される。 Comment

元ポスト:

Loading…

pj page: https://stockbench.github.io

過去のデータを使いLLMの能力を評価するベンチマークとして利用するという方向性ならこういったタスクも良いのかもしれない。

が、素朴な疑問として、LLMが良いトレードをして儲けられます、みたいなシステムが世に広まった世界の前提になると、それによって市場の原理が変わってLLM側が前提としていたものがくずれ、結果的にLLMはトレードで儲けられなくなる、みたいなことが起きるんじゃないか、という気はするのであくまでLLMの能力を測るためのベンチマークです、という点は留意した方が良いのかな、という感想を持つなどした(実際はよくわからん)。



#Pocket #NLP #Search #Dataset #LanguageModel #Evaluation
Issue Date: 2025-09-21 [Paper Note] FinSearchComp: Towards a Realistic, Expert-Level Evaluation of Financial Search and Reasoning, Liang Hu+, arXiv'25, 2025.09 GPT Summary- FinSearchCompは、金融検索と推論のための初の完全オープンソースエージェントベンチマークであり、時間に敏感なデータ取得や複雑な歴史的調査を含む3つのタスクで構成されています。70人の金融専門家によるアノテーションと厳格な品質保証を経て、635の質問が用意され、21のモデルが評価されました。Grok 4とDouBaoがそれぞれグローバルおよび大中華圏でトップの精度を示し、ウェブ検索と金融プラグインの活用が結果を改善することが確認されました。FinSearchCompは、現実のアナリストタスクに基づく高難易度のテストベッドを提供します。 Comment

元ポスト:

Loading…


#Pocket #Dataset #ACL
Issue Date: 2025-01-06 FinTextQA: A Dataset for Long-form Financial Question Answering, Jian Chen+, ACL'24 GPT Summary- 金融における質問応答システムの評価には多様なデータセットが必要だが、既存のものは不足している。本研究では、金融の長文質問応答用データセットFinTextQAを提案し、1,262の高品質QAペアを収集した。また、RAGベースのLFQAシステムを開発し、様々な評価手法で性能を検証した結果、Baichuan2-7BがGPT-3.5-turboに近い精度を示し、最も効果的なシステム構成が特定された。文脈の長さが閾値を超えると、ノイズに対する耐性が向上することも確認された。 Comment

@AkihikoWatanabe Do you have this dataset, please share it with me. Thank you.

@thangmaster37 Thank you for your comment and I'm sorry for the late replying. Unfortunately, I do not have this dataset. I checked the link provided in the paper, but it was not found. Please try contacting the authors. Thank you.

@thangmaster37 I found that the dataset is available in the following repository. However, as stated in the repository's README, It seems that the textbook portion of the dataset cannot be shared because their legal department has not granted permission to open source. Thank you.

https://github.com/AlexJJJChen/FinTextQA

回答の長さが既存データセットと比較して長いFinancialに関するQAデータセット(1 paragraph程度)。
![Image](https://github.com/user-attachments/assets/fcb9273b-ded6-4ab4-a3c4-92bf971002b3)
![Image](https://github.com/user-attachments/assets/ba2b8d46-236d-43bc-8c3f-852b2d621171)

ただし、上述の通りデータセットのうちtextbookについて公開の許可が降りなかったようで、regulation and policy-relatedな部分のみ利用できる模様(全体の20%程度)。
![Image](https://github.com/user-attachments/assets/d5d0a3ce-58b3-4001-a870-a30c1e308c1b)



#NeuralNetwork #TimeSeriesDataProcessing #MachineLearning Issue Date: 2017-12-31 [Paper Note] Recurrent neural network and a hybrid model for prediction of stock returns, Akhter+, Expert Systems with Applications'14 Comment

Stock returnのpredictionタスクに対してNNを適用。



AR-MRNNモデルをRNNに適用、高い性能を示している。 moving referenceをsubtractした値をinput-outputに用いることで、normalizationやdetrending等の前処理が不要となり、regularizationの役割を果たすため汎化能力が向上する。



※ AR-MRN: NNNのinput-outputとして、生のreturn値を用いるのではなく、ある時刻におけるreturnをsubtractした値(moving reference)を用いるモデル ([Paper Note] Prediction-based portfolio optimization model using neural networks, Freitas+, Neurocomputing'09 で提案)



#NeuralNetwork #TimeSeriesDataProcessing #MachineLearning Issue Date: 2017-12-31 [Paper Note] Prediction-based portfolio optimization model using neural networks, Freitas+, Neurocomputing'09 Comment

Stock returnのpredictionタスクに対してNNを適用。



NNのinput-outputとして、生のreturn値を用いるのではなく、ある時刻におけるreturnをsubtractした値(moving reference)を用いる、AR-MRNNモデルを提案。