Data


Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel Issue Date: 2026-02-24 GPT Summary- ウェブからテキストを抽出する際、固定抽出器に依存する従来の方法がデータのカバレッジを最適化していないことを示す。異なる抽出器を組み合わせることで、DCLM-Baselineのトークン供給を71%増加させつつ、性能を維持。特に構造化コンテンツでは、抽出器の選択が下流タスクの成果に大きく影響し、WikiTQで最大10ポイント、HumanEvalで最大3ポイントの性能差が生じる。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#Survey #NLP #LanguageModel #AIAgents #SoftwareEngineering #read-later #Selected Papers/Blogs #Initial Impression Notes Issue Date: 2026-02-16 GPT Summary- LLM技術がデータ前処理のパラダイムを変革中であり、幅広いアプリケーションに対応するための進化を検討。文献レビューを通じて、データクリーニング、統合、強化の主要タスクにおける手法を整理し、それぞれの利点と制約を分析。さらに、評価指標とデータセットを考察し、スケーラブルなデータシステムや信頼性の高いワークフローに向けた研究課題を提示。 Comment

元ポスト:

Loading…

自動的なデータの前処理に関するSurvey。文献は120以上引用され、美麗なフォーマットで記述されている。時系列での手法の変遷と、手法間の関係性が図解で整理されており非常にわかりやすそう。データの前処理は実務上の大きなボトルネックなのでどのような研究があるか気になる。




Paper/Blog Link My Issue
#Survey #NLP #LanguageModel #AIAgents #One-Line Notes Issue Date: 2026-02-11 GPT Summary- データエージェントは、LLMやツールを活用してデータ管理や分析の自動化を目指す新しいパラダイムであるが、その定義は曖昧である。この記事では、データエージェントをL0からL5までの階層に分類し、各レベルの特徴を示す。具体的には、単純なアシスタントと自律型エージェントの違いや、L0-L2の代表的なシステムをレビューし、独自にデータ関連タスクを実行するProto-L3システムを紹介する。また、L4およびL5のエージェントに関する研究課題も議論し、データエージェントの未来のロードマップを提供する。 Comment

元ポスト:

Loading…

データを管理、準備、分析を担うエージェント(=データエージェント)に関して、自律性のレベルを6段階に分けたTaxonomyを体系的に定義し、既存研究を分類している模様。