Datasetに関する論文・技術記事メモの一覧

Dataset

#ComputerVision #Pocket #NLP #LanguageModel #Evaluation #ACL(Findings)#VisionLanguageModel
Issue Date: 2025-07-02 Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation, Qiyue Gao+, ACL（Findings）25 Comment元ポスト:https://x.com/qiyuegao123/status/1940097188220297613?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #ComputerVision #Pocket #NLP #LanguageModel #Evaluation #MulltiModal
Issue Date: 2025-07-02 MARBLE: A Hard Benchmark for Multimodal Spatial Reasoning and Planning, Yulun Jiang+, arXiv25 Comment元ポスト:https://x.com/michael_d_moor/status/1940062842742526445?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QPortal2を使った新たなベンチマーク。筆者は昔このゲームを少しだけプレイしたことがあるが、普通に難しかった記憶がある ... #ComputerVision #Pocket #NLP #LanguageModel #Zero/FewShotPrompting #MulltiModal #In-ContextLearning
Issue Date: 2025-07-01 SMMILE: An Expert-Driven Benchmark for Multimodal Medical In-Context Learning, Melanie Rieff+, arXiv25 Comment元ポスト:https://x.com/michael_d_moor/status/1939664155813839114?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ...

#Pocket #NLP #LanguageModel #LLMAgent #Evaluation #Reproducibility
Issue Date: 2025-06-30 The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements, Bingchen Zhao+, arXiv25 Comment元ポスト:https://x.com/karpathy/status/1939709449956126910?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pretraining #Pocket #NLP #LanguageModel #MultiLingual
Issue Date: 2025-06-28 FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language, Guilherme Penedo+, arXiv25 Comment元ポスト:https://x.com/gui_penedo/status/1938631842720022572?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qv1#1942abstを見る限りFinewebを多言語に拡張した模様 ... #Pocket #NLP #LanguageModel #Alignment #Safety #Japanese #PostTraining
Issue Date: 2025-06-25 AnswerCarefully: A Dataset for Improving the Safety of Japanese LLM Output, Hisami Suzuki+, arXiv25 CommentBlog:https://llmc.nii.ac.jp/answercarefully-dataset/ ... #Pretraining #Pocket #NLP #LanguageModel #SyntheticData
Issue Date: 2025-06-25 Recycling the Web: A Method to Enhance Pre-training Data Quality and Quantity for Language Models, Thao Nguyen+, arXiv25 Comment元ポスト:https://x.com/thao_nguyen26/status/1937210428876292457?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q学習データの枯渇に対する対処として別の方向性としては下記のような研究もある:#1829 ... #ComputerVision #Pocket #VideoGeneration/Understandings
Issue Date: 2025-06-23 Sekai: A Video Dataset towards World Exploration, Zhen Li+, arXiv25 Comment元ポスト:https://x.com/yongyuanxi/status/1936846469346251068?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Analysis #Pocket #NLP #LanguageModel #FactualKnowledge
Issue Date: 2025-06-17 What Is Seen Cannot Be Unseen: The Disruptive Effect of Knowledge Conflict on Large Language Models, Kaiser Sun+, arXiv25 Comment元ポスト:https://x.com/kaiserwholearns/status/1934582217692295268?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pocket #NLP #LanguageModel #Evaluation #Programming
Issue Date: 2025-06-17 LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming?, Zihan Zheng+, arXiv25 Comment元ポスト:https://x.com/arankomatsuzaki/status/1934433210387296414?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QHardな問題は現状のSoTAモデル（Claude4が含まれていないが）でも正答率0.0%![image](https ... #Pocket #NLP #LLMAgent #Evaluation #Programming #LongSequence
Issue Date: 2025-06-17 ALE-Bench: A Benchmark for Long-Horizon Objective-Driven Algorithm Engineering, Yuki Imajuku+, arXiv25 Comment元ポスト:https://x.com/sakanaailabs/status/1934767254715117812?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q関連ポスト:https://x.com/iwiwi/status/1934830621756674499?s=46&t=Y6 ... #InformationRetrieval #Pocket #NLP #Search #LanguageModel
Issue Date: 2025-06-08 Search Arena: Analyzing Search-Augmented LLMs, Mihran Miroyan+, arXiv25 Comment元ポスト:https://x.com/mirmiroyan/status/1931081734764081391?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #NLP #LanguageModel #SyntheticData #Reasoning
Issue Date: 2025-06-06 SynLogic: Synthesizing Verifiable Reasoning Data at Scale for Learning Logical Reasoning and Beyond, Junteng Liu+, arXiv25 Comment元ポスト:https://x.com/junxian_he/status/1930558456907669638?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q35種類のタスクを人手で選定し、タスクごとに困難度の鍵となるパラメータを定義（数独ならばグリッド数など）。その上で、各タスクごと ... #Pocket #NLP #LanguageModel #Evaluation #Reasoning
Issue Date: 2025-06-01 BIG-Bench Extra Hard, Mehran Kazemi+, arXiv25 CommentBig-Bench hard（既にSoTAモデルの能力差を識別できない）の難易度をさらに押し上げたデータセット。Inputの例![image](https://github.com/user-attachments/assets/b9d1308f-1481-470d-a553-c181d902Big ... #Analysis #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT)#ReinforcementLearning #Evaluation #Mathematics #InstructionFollowingCapability
Issue Date: 2025-05-24 Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models, Tingchen Fu+, arXiv25 Comment元ポスト:https://x.com/yafuly/status/1925753754961236006?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pocket #NLP #LanguageModel #Mathematics #read-later #Coding
Issue Date: 2025-05-08 Rewriting Pre-Training Data Boosts LLM Performance in Math and Code, Kazuki Fujii+, arXiv25 Comment元ポスト:https://x.com/okoge_kaz/status/1920141189652574346?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q解説ポスト:https://x.com/hillbig/status/1920613041026314274?s=46&t=Y6U ... #ComputerVision #Pocket #NLP #LanguageModel #Evaluation #MulltiModal #ICLR #x-Use
Issue Date: 2025-04-18 AndroidWorld: A Dynamic Benchmarking Environment for Autonomous Agents, Christopher Rawles+, ICLR25 CommentAndroid環境でのPhone Useのベンチマーク ... #Pocket #NLP #LanguageModel #LLMAgent #Evaluation #QuestionGeneration
Issue Date: 2025-04-02 Interactive Agents to Overcome Ambiguity in Software Engineering, Sanidhya Vijayvargiya+, arXiv25 Comment曖昧なユーザメッセージに対する、エージェントが"質問をする能力を測る"ベンチマーク<img width="422" alt="Image" src="https://github.com/user-attachments/assets/3d201ebf-9ca1-4333-9d27-e33a90 ... #Pocket #NLP #LanguageModel #LongSequence
Issue Date: 2025-03-20 Lost-in-the-Middle in Long-Text Generation: Synthetic Dataset, Evaluation Framework, and Mitigation, Junhao Zhang+, arXiv25 CommentLost in the Middleに関する研究。関連研究:#793 ... #NLP #LanguageModel #QuestionAnswering
Issue Date: 2025-02-21 SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines, M-A-P Team+, arXiv25 Comment元ポスト:https://x.com/arankomatsuzaki/status/1892779892674351532?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pocket #NLP #LanguageModel #SyntheticData #Reasoning #Distillation
Issue Date: 2025-02-19 NaturalReasoning: Reasoning in the Wild with 2.8M Challenging Questions, Weizhe Yuan+, arXiv25 Comment元ポスト: https://x.com/jaseweston/status/1892041992127021300?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pocket #NLP #LanguageModel #ReinforcementLearning #Reasoning #ICLR #Admin'sPick #PRM
Issue Date: 2025-06-26 Lets Verify Step by Step, Hunter Lightman+, ICLR24 CommentOpenReview:https://openreview.net/forum?id=v8L0pN6EOiPRM800K:https://github.com/openai/prm800k/tree/main ... #Pocket #NLP #LanguageModel #ReinforcementLearning #Evaluation
Issue Date: 2025-06-26 RewardBench: Evaluating Reward Models for Language Modeling, Nathan Lambert+, arXiv24 #Pocket #NLP #LanguageModel #Alignment #InstructionTuning #ICML #PostTraining
Issue Date: 2025-05-11 UltraFeedback: Boosting Language Models with Scaled AI Feedback, Ganqu Cui+, ICML24 #NLP #Japanese #read-later #Trustfulness
Issue Date: 2025-05-10 日本語TrustfulQAの構築, 中村+, NLP24 #Pretraining #Pocket #NLP #LanguageModel
Issue Date: 2025-05-10 Nemotron-CC: Transforming Common Crawl into a Refined Long-Horizon Pretraining Dataset, Dan Su+, arXiv24 #Pretraining #Pocket #NLP #LanguageModel
Issue Date: 2025-05-10 DataComp-LM: In search of the next generation of training sets for language models, Jeffrey Li+, arXiv24 #Pretraining #Pocket #NLP #LanguageModel
Issue Date: 2025-05-10 The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale, Guilherme Penedo+, arXiv24 Comment日本語解説:https://zenn.dev/deepkawamura/articles/da9aeca6d6d9f9 ... #Pocket #NLP #LanguageModel #EMNLP #KnowledgeEditing #read-later
Issue Date: 2025-05-07 Editing Large Language Models: Problems, Methods, and Opportunities, Yunzhi Yao+, EMNLP24 #Tools #Pocket #NLP #LanguageModel #API #NeurIPS
Issue Date: 2025-04-08 Gorilla: Large Language Model Connected with Massive APIs, Shishir G. Patil+, NeurIPS24 CommentAPIBench:https://huggingface.co/datasets/gorilla-llm/APIBenchOpenReview:https://openreview.net/forum?id=tBRNC6YemY ... #Pocket #NLP #LanguageModel #LLMAgent #SoftwareEngineering
Issue Date: 2025-04-02 Training Software Engineering Agents and Verifiers with SWE-Gym, Jiayi Pan+, arXiv24 CommentSWE-Benchとは完全に独立したより広範な技術スタックに関連するタスクに基づくSWEベンチマーク#1848SWE-Benchと比べて実行可能な環境と単体テストが提供されており、単なるベンチマークではなくエージェントを訓練できる環境が提供されている点が大きく異なるように感じる。![image](h ... #Pocket #NLP #LanguageModel #LLMAgent #ICLR
Issue Date: 2025-04-02 WebArena: A Realistic Web Environment for Building Autonomous Agents, Shuyan Zhou+, ICLR24 CommentWebにおけるさまざまなrealisticなタスクを評価するためのベンチマーク![image](https://github.com/user-attachments/assets/8895fc29-e997-4cce-a43e-65b928dc1d78)実際のexample。スタート地点からピッツ ... #Pocket #Financial #ACL
Issue Date: 2025-01-06 FinTextQA: A Dataset for Long-form Financial Question Answering, Jian Chen+, ACL24 Comment@AkihikoWatanabe Do you have this dataset, please share it with me. Thank you.@thangmaster37 Thank you for your comment and I'm sorry for the late rep ... #Embeddings #Pocket #STS (SemanticTextualSimilarity)#ACL
Issue Date: 2025-01-06 Linguistically Conditioned Semantic Textual Similarity, Jingxuan Tu+, ACL24 #Pocket #NLP #LLMAgent #SyntheticData #Evaluation #SyntheticDataGeneration
Issue Date: 2025-01-03 MAG-V: A Multi-Agent Framework for Synthetic Data Generation and Verification, Saptarshi Sengupta+, arXiv24 Comment元ポスト:https://x.com/dair_ai/status/1868299921117630528?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #NLP #LanguageModel #LLMAgent #Evaluation
Issue Date: 2025-01-03 TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks, Frank F. Xu+, arXiv24 Comment元ポスト:https://x.com/dair_ai/status/1870821189809217921?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qソフトウェアエンジニアリングの企業の設定で現実に起こりうるな　175種類のタスクを定義してAI Agentを評価できるベンチマークTh ... #RecommenderSystems #Pocket #LanguageModel #SessionBased #Personalization #Evaluation
Issue Date: 2024-12-31 Preference Discerning with LLM-Enhanced Generative Retrieval, Fabian Paischer+, arXiv24 #ComputerVision #InformationRetrieval #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration)
Issue Date: 2024-12-16 VLR-Bench: Multilingual Benchmark Dataset for Vision-Language Retrieval Augmented Generation, Hyeonseok Lim+, arXiv24 CommentMultilingual VLMを用いたRAGのベンチマークデータセット ... #NeuralNetwork #NaturalLanguageGeneration #NLP #LanguageModel #Evaluation #LLM-as-a-Judge
Issue Date: 2024-12-15 Striking Gold in Advertising: Standardization and Exploration of Ad Text Generation, Masato Mita+, ACL24 Comment広告文生成タスク（Ad Text Generation）は個々のグループのプロプライエタリデータでしか評価されてこなかったことと、そもそもタスク設定が十分に規定されていないので、その辺を整備したという話らしい。特に広告文生成のための初のオープンデータなCAMERAを構築している。データセットをTab ... #NLP #FactualConsistency #Conversation
Issue Date: 2024-12-05 事実正誤判定が不要な生成応答の検出に向けたデータセットの収集と分析, rryohei Kamei+, NLP24, 2024.03 #NLP #AES(AutomatedEssayScoring)#Japanese
Issue Date: 2024-11-28 Japanese-English Sentence Translation Exercises Dataset for Automatic Grading, Miura+, EACL24, 2024.03 CommentThis paper proposes the task of automatic assessment of Sentence Translation Exercises (STEs), that have been used in the early stage of L2 language l ... #InformationRetrieval #NLP #Evaluation #RAG(RetrievalAugmentedGeneration)
Issue Date: 2024-10-20 Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation, Satyapriya Krishna+, N_A, arXiv24 CommentRAGのfactuality, retrieval acculacy, reasoningを評価するためのmulti hop puestionとそれに回答するための最大15のwikipedia記事のベンチマーク元ポスト:https://x.com/_philschmid/status/184062 ... #ComputerVision #Pocket
Issue Date: 2024-09-30 COM Kitchens: An Unedited Overhead-view Video Dataset as a Vision-Language Benchmark, Koki Maeda+, N_A, ECCV24 Commentとてもおもしろそう！ ... #ComputerVision #Pocket #NLP #LanguageModel
Issue Date: 2024-09-30 What matters when building vision-language models?, Hugo Laurençon+, N_A, arXiv24 Comment元ポストにOpenVLMの進展の歴史が載っている。構築されたデータセットも公開される模様。![image](https://github.com/user-attachments/assets/9675c2ad-650a-460b-9655-1c6347d07f58)元ポスト:https://x ... #Pocket #NLP #LanguageModel #QuestionAnswering #COLM
Issue Date: 2023-11-22 GPQA: A Graduate-Level Google-Proof Q&A Benchmark, David Rein+, N_A, COLM24 Summary私たちは、高品質で非常に困難な多肢選択問題からなるGPQAデータセットを提案します。このデータセットは、専門家でも高い正答率を達成できず、最先端のAIシステムでも困難であることが示されています。将来のAIシステムの開発において、スケーラブルな監督方法を開発する必要があります。これにより、スキルを持つ監督者がAIシステムから信頼性のある情報を得ることができるようになります。GPQAデータセットは、スケーラブルな監督実験を可能にし、人間の専門家がAIシステムから真実の情報を確実に得る方法を考案するのに役立つことが期待されています。 Comment該当領域のPh.D所有者でも74%、高いスキルを持つ非専門家（Googleへアクセスして良い環境）で34%しか正答できないQAデータセット。元ツイート: https://x.com/idavidrein/status/1727033002234909060?s=46&t=Y6UuIHB0Lv0IpO ... #NLP #PersonalizedGeneration #ACL
Issue Date: 2023-04-26 LaMP: When Large Language Models Meet Personalization, Selemi+, University of Massachusetts Amherst （w_ Google Research）, ACL24 Comment# 概要 Personalizationはユーザのニーズや嗜好に応えるために重要な技術で、IRやRecSysで盛んに研究されてきたが、NLPではあまり実施されてこなかった。しかし、最近のタスクで、text classificationやgeneration taskでPersonalization# ... #Pocket #NLP #LanguageModel #LLMAgent #SoftwareEngineering
Issue Date: 2025-04-02 SWE-bench: Can Language Models Resolve Real-World GitHub Issues?, Carlos E. Jimenez+, arXiv23 Commentソフトウェアエージェントの最もpopularなベンチマーク

SWE- ... #Survey #MachineLearning #Pocket #Distillation
Issue Date: 2025-03-25 Dataset Distillation: A Comprehensive Review, Ruonan Yu+, arXiv23 Comment訓練データセット中の知識を蒸留し、オリジナルデータよりも少量のデータで同等の学習効果を得るDataset Distillationに関するSurvey。![image](https://github.com/user-attachments/assets/35e85898-a834-4ecf-a2 ... #Survey #Pocket #NLP #Distillation
Issue Date: 2025-02-01 Data Distillation: A Survey, Noveen Sachdeva+, arXiv23 #NLP #LanguageModel #Supervised-FineTuning (SFT)
Issue Date: 2024-09-20 Instruction Tuning with GPT-4, Baolin Peng+, N_A, arXiv23 Comment現在はOpenAIの利用規約において、outputを利用してOpenAIと競合するモデルを構築することは禁止されているので、この点には注意が必要https://openai.com/ja-JP/policies/terms-of-use/ ... #DocumentSummarization #NaturalLanguageGeneration #Pocket #NLP #LanguageModel #Annotation
Issue Date: 2024-05-15 Benchmarking Large Language Models for News Summarization, Tianyi Zhang+, N_A, arXiv23 SummaryLLMsの成功の理由を理解するために、異なる事前学習方法、プロンプト、およびモデルスケールにわたる10つのLLMsに対する人間の評価を行った。その結果、モデルサイズではなく、指示の調整がLLMのゼロショット要約能力の鍵であることがわかった。また、LLMsの要約は人間の執筆した要約と同等と判断された。 Commentニュース記事の高品質な要約を人間に作成してもらい、gpt-3.5を用いてLLM-basedな要約も生成 annotatorにそれぞれの要約の品質をスコアリングさせたデータセットを作成 ... #InformationRetrieval #Pocket #MulltiModal
Issue Date: 2023-12-01 UniIR: Training and Benchmarking Universal Multimodal Information Retrievers, Cong Wei+, N_A, arXiv23 Summary従来の情報検索モデルは一様な形式を前提としているため、異なる情報検索の要求に対応できない。そこで、UniIRという統一された指示に基づくマルチモーダルリトリーバーを提案する。UniIRは異なるリトリーバルタスクを処理できるように設計され、10のマルチモーダルIRデータセットでトレーニングされる。実験結果はUniIRの汎化能力を示し、M-BEIRというマルチモーダルリトリーバルベンチマークも構築された。 Comment後で読む（画像は元ツイートより元ツイート: https://x.com/congwei1230/status/1730307767469068476?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ...

#Pocket #NLP #LanguageModel #Evaluation #MultiLingual
Issue Date: 2023-11-14 MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks, Sanchit Ahuja+, N_A, arXiv23 SummaryLLMsの研究は急速に進展しており、英語以外の言語での評価が必要とされている。本研究では、新しいデータセットを追加したMEGAVERSEベンチマークを提案し、さまざまなLLMsを評価する。実験の結果、GPT4とPaLM2が優れたパフォーマンスを示したが、データの汚染などの問題があるため、さらなる取り組みが必要である。 #Pocket #NLP #LanguageModel #Alignment #Conversation
Issue Date: 2023-10-09 RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models, Zekun Moore Wang+, N_A, arXiv23 Summary本研究では、大規模言語モデル（LLMs）を使用して役割演技の能力を向上させるためのフレームワークであるRoleLLMを提案しています。RoleLLMは、役割プロファイルの構築、コンテキストベースの指示生成、役割プロンプトによる話し方の模倣、オープンソースモデルの微調整と役割のカスタマイズの4つのステージで構成されています。さらに、RoleBenchと呼ばれる役割演技のためのベンチマークデータセットを作成し、RoleLLaMAとRoleGLMというモデルを開発しました。これにより、役割演技の能力が大幅に向上し、GPT-4と同等の結果を達成しました。 Comment# Overview # RoleBench ...

#MachineLearning #Pocket #NLP #LanguageModel #LLMAgent #Evaluation #AutoML
Issue Date: 2023-10-09 Benchmarking Large Language Models As AI Research Agents, Qian Huang+, N_A, arXiv23 Summary本研究では、AI研究エージェントを構築し、科学的な実験のタスクを実行するためのベンチマークとしてMLAgentBenchを提案する。エージェントはファイルの読み書きやコードの実行などのアクションを実行し、実験を実行し、結果を分析し、機械学習パイプラインのコードを変更することができる。GPT-4ベースの研究エージェントは多くのタスクで高性能なモデルを実現できるが、成功率は異なる。また、LLMベースの研究エージェントにはいくつかの課題がある。 CommentGPT4がMLモデルをどれだけ自動的に構築できるかを調べた模様。また、ベンチマークデータを作成した模様。結果としては、既存の有名なデータセットでの成功率は90%程度であり、未知のタスク（新たなKaggle Challenge等）では30%程度とのこと。 ... #Pocket #NLP #LanguageModel #InstructionTuning #NumericReasoning #Mathematics
Issue Date: 2023-09-30 MAmmoTH: Building Math Generalist Models through Hybrid Instruction Tuning, Xiang Yue+, N_A, arXiv23 SummaryMAmmoTHは、数学の問題解決に特化した大規模言語モデルであり、厳密にキュレーションされた教育データセットで訓練されています。このモデルは、CoTとPoTのハイブリッドな根拠を提供し、さまざまな数学の分野を包括的にカバーしています。MAmmoTHは、既存のオープンソースモデルを大幅に上回り、特にMATHデータセットで高い精度を示しています。この研究は、多様な問題のカバレッジとハイブリッドな根拠の使用の重要性を強調しています。 Comment9つのmath reasoningが必要なデータセットで13-29%のgainでSoTAを達成。260kの根拠情報を含むMath Instructデータでチューニングされたモデル。project page: https://tiger-ai-lab.github.io/MAmmoTH/ ... #Pocket #NLP #LanguageModel #StructuredData
Issue Date: 2023-09-30 Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data?, Xiangru Tang+, N_A, arXiv23 Summary本研究では、大規模言語モデル（LLMs）の能力を評価し、構造に注意したファインチューニング手法を提案します。さらに、Struc-Benchというデータセットを使用して、複雑な構造化データ生成のパフォーマンスを評価します。実験の結果、提案手法は他の評価されたLLMsよりも優れた性能を示しました。また、モデルの能力マップを提示し、LLMsの弱点と将来の研究の方向性を示唆しています。詳細はhttps://github.com/gersteinlab/Struc-Benchを参照してください。 CommentFormatに関する情報を含むデータでInstruction TuningすることでFormatCoT（フォーマットに関する情報のCoT）を実現している模様。ざっくりしか論文を読んでいないが詳細な情報があまり書かれていない印象で、ちょっとなんともいえない。 ...

#EfficiencyImprovement #MachineLearning #Pocket #NLP #QuestionAnswering #Supervised-FineTuning (SFT)#LongSequence #PEFT(Adaptor/LoRA)
Issue Date: 2023-09-30 LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models, Yukang Chen+, N_A, arXiv23 Summary本研究では、計算コストを制限しながら大規模言語モデル（LLMs）のコンテキストサイズを拡張する効率的なファインチューニング手法であるLongLoRAを提案します。従来の方法では、LLMsの長いコンテキストサイズでのトレーニングには高い計算コストとGPUリソースが必要でしたが、提案手法ではコンテキスト拡張を高速化し、非自明な計算コストの削減を実現します。また、パラメータ効率的なファインチューニング手法も再評価し、LongLoRAはさまざまなタスクで強力な実験結果を示しています。さらに、教師ありファインチューニングのためのデータセットであるLongQAも収集されました。 Comment# 概要 context長が大きい場合でも効率的にLoRAする手法。通常のLoRAではcontext lengthが大きくなるにつれてperplexityが大きくなってしまう。一方、通常のFinetuningではperplexityは高い性能を維持するが、計算コストとVRAMの消費量が膨大になって ...

#Pocket #NLP #LanguageModel #LLMAgent #Evaluation
Issue Date: 2023-08-27 AgentBench: Evaluating LLMs as Agents, Xiao Liu+, N_A, arXiv23 Summary本研究では、大規模言語モデル（LLMs）をエージェントとして評価するための多次元の進化するベンチマーク「AgentBench」を提案しています。AgentBenchは、8つの異なる環境でマルチターンのオープンエンドの生成設定を提供し、LLMの推論と意思決定能力を評価します。25のLLMsに対するテストでは、商用LLMsは強力な能力を示していますが、オープンソースの競合他社との性能には差があります。AgentBenchのデータセット、環境、および評価パッケージは、GitHubで公開されています。 CommentエージェントとしてのLLMの推論能力と意思決定能力を評価するためのベンチマークを提案。トップの商用LLMとOpenSource LLMの間に大きな性能差があることを示した。 ... #Pocket #NLP #LanguageModel #InstructionTuning
Issue Date: 2023-08-21 Self-Alignment with Instruction Backtranslation, Xian Li+, N_A, arXiv23 Summary私たちは、高品質な指示に従う言語モデルを構築するためのスケーラブルな手法を提案します。この手法では、少量のシードデータとウェブコーパスを使用して言語モデルをファインチューニングし、指示のプロンプトを生成してトレーニング例を構築します。そして、高品質な例を選択してモデルを強化します。この手法を使用すると、他のモデルよりも優れた性能を発揮し、自己整列の効果を実証できます。 Comment人間が書いたテキストを対応するinstructionに自動的にラベル付けする手法を提案。これにより高品質なinstruction following LLMの構築が可能手法概要結果的に得られるデータは、訓練において非常にインパクトがあり高品質なものとなる。実際に、他の同サイズのinstruct tu ...

#NLP #SpeechProcessing
Issue Date: 2023-08-16 ReazonSpeech: A Free and Massive Corpus for Japanese ASR, Yin+, NLP23 Comment超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開ワンセグのデータにから生成 ... #NLP #LanguageModel #Evaluation
Issue Date: 2023-08-08 L-Eval: Instituting Standardized Evaluation for Long Context Language Models, Chenxin An+, N_A, arXiv23 Summary長い文脈の言語モデル（LCLM）の評価を標準化するために、L-Evalという評価スイートを提案しました。L-Evalには411の長いドキュメントと2,000以上の人間によるクエリ-レスポンスのペアが含まれており、多様な評価方法と指示スタイルを採用しています。オープンソースのモデルは商用モデルに比べて遅れていますが、通常のバージョンと比較しても印象的なパフォーマンスを示しています。LCLMの生成結果は公開されています。 Commentlong contextに対するLLMの評価セット。411のlong documentに対する2kのquery-response pairのデータが存在。法律、fainance, school lectures, 長文対話、小説、ミーティングなどのドメインから成る。 ... #ComputerVision #NaturalLanguageGeneration #NLP #Evaluation
Issue Date: 2023-07-22 InfoMetIC: An Informative Metric for Reference-free Image Caption Evaluation, ACL23 Summary自動画像キャプションの評価には、情報豊かなメトリック（InfoMetIC）が提案されています。これにより、キャプションの誤りや欠落した情報を詳細に特定することができます。InfoMetICは、テキストの精度スコア、ビジョンの再現スコア、および全体の品質スコアを提供し、人間の判断との相関も高いです。また、トークンレベルの評価データセットも構築されています。詳細はGitHubで公開されています。 #Pocket #NLP #LanguageModel #Evaluation
Issue Date: 2023-07-22 FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets, Seonghyeon Ye+, N_A, arXiv23 Summary本研究では、大規模言語モデル（LLMs）の評価における課題を解決するため、細かい評価プロトコルであるFLASKを提案する。FLASKは、インスタンスごとのスキルセットレベルでの評価を可能にし、モデルベースと人間ベースの評価の両方に使用できる。具体的には、12の細かいスキルを定義し、各インスタンスにスキルのセットを割り当てることで評価セットを構築する。さらに、ターゲットドメインと難易度レベルの注釈を付けることで、モデルのパフォーマンスを包括的に分析する。FLASKを使用することで、モデルのパフォーマンスを正確に測定し、特定のスキルに優れたLLMsを分析することができる。また、実践者はFLASKを使用して、特定の状況に適したモデルを推奨することができる。 CommentこのベンチによるとLLaMA2でさえ、商用のLLMに比べると能力はかなり劣っているように見える。 ...

#Pocket #NLP #LanguageModel
Issue Date: 2023-07-22 SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models, Xiaoxuan Wang+, N_A, arXiv23 Summary本研究では、大規模言語モデル（LLMs）の進歩により、数学のベンチマークでの性能向上が示されているが、これらのベンチマークは限定的な範囲の問題に限定されていることが指摘される。そこで、複雑な科学的問題解決に必要な推論能力を検証するための包括的なベンチマークスイートSciBenchを提案する。SciBenchには、大学レベルの科学的問題を含むオープンセットと、学部レベルの試験問題を含むクローズドセットの2つのデータセットが含まれている。さらに、2つの代表的なLLMを用いた詳細なベンチマーク研究を行い、現在のLLMのパフォーマンスが不十分であることを示した。また、ユーザースタディを通じて、LLMが犯すエラーを10の問題解決能力に分類し、特定のプロンプティング戦略が他の戦略よりも優れているわけではないことを明らかにした。SciBenchは、LLMの推論能力の向上を促進し、科学研究と発見に貢献することを目指している。 #DocumentSummarization #Metrics #NLP #Evaluation
Issue Date: 2023-07-18 Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation, ACL23 Summary要約の評価には人間の評価が重要ですが、既存の評価方法には問題があります。そこで、私たちは新しい要約の重要性プロトコルを提案し、大規模な人間評価データセットを収集しました。さらに、異なる評価プロトコルを比較し、自動評価指標を評価しました。私たちの研究結果は、大規模言語モデルの評価に重要な示唆を与えます。 #Pocket #NLP #LanguageModel #Programming
Issue Date: 2023-07-18 Socratic Questioning of Novice Debuggers: A Benchmark Dataset and Preliminary Evaluations, ACL-BEA23 Summary本研究では、初心者プログラマがバグのある計算問題を解決する際に、ソクラテス的な対話を行うデータセットを紹介し、GPTベースの言語モデルのデバッグ能力を評価しました。GPT-4はGPT-3.5よりも優れたパフォーマンスを示しましたが、まだ人間の専門家には及ばず、さらなる研究が必要です。 #NLP #GrammaticalErrorCorrection
Issue Date: 2023-07-18 Enhancing Grammatical Error Correction Systems with Explanations, ACL23 Summary文法エラー修正システムの性能向上のために、エビデンスワードと文法エラータイプが注釈付けされた大規模なデータセットであるEXPECTを紹介する。このデータセットを使用して、説明可能なGECシステムのベースラインと分析を提案し、人間の評価によってその有用性を確認する。 #DocumentSummarization #NaturalLanguageGeneration #NLP #Conversation
Issue Date: 2023-07-15 MeetingBank: A Benchmark Dataset for Meeting Summarization, ACL23 Summary会議の要約技術の開発には注釈付きの会議コーパスが必要ですが、その欠如が問題となっています。本研究では、新しいベンチマークデータセットであるMeetingBankを提案しました。MeetingBankは、会議議事録を短いパッセージに分割し、特定のセグメントと対応させることで、会議の要約プロセスを管理しやすいタスクに分割することができます。このデータセットは、会議要約システムのテストベッドとして利用できるだけでなく、一般の人々が議会の意思決定の仕組みを理解するのにも役立ちます。ビデオリンク、トランスクリプト、参照要約などのデータを一般に公開し、会議要約技術の開発を促進します。 #DocumentSummarization #NaturalLanguageGeneration #Controllable #NLP #FactualConsistency
Issue Date: 2023-07-15 On Improving Summarization Factual Consistency from Natural Language Feedback, ACL23 Summary本研究では、自然言語の情報フィードバックを活用して要約の品質とユーザーの好みを向上させる方法を調査しました。DeFactoという高品質なデータセットを使用して、要約の編集や修正に関する自然言語生成タスクを研究しました。また、微調整された言語モデルを使用して要約の品質を向上させることも示しました。しかし、大規模な言語モデルは制御可能なテキスト生成には向いていないことがわかりました。 #ComputerVision #NLP #Personalization #MulltiModal #Conversation
Issue Date: 2023-07-15 MPCHAT: Towards Multimodal Persona-Grounded Conversation, ACL23 Summary本研究では、テキストと画像の両方を使用してパーソナを拡張し、マルチモーダルな対話エージェントを構築するためのデータセットであるMPCHATを提案します。さらに、マルチモーダルパーソナを組み込むことで、応答予測、パーソナのグラウンディング予測、話者の識別といったタスクのパフォーマンスを統計的に有意に改善できることを示します。この研究は、マルチモーダルな対話理解においてマルチモーダルパーソナの重要性を強調し、MPCHATが高品質なリソースとして役立つことを示しています。 #NLP #InstructionTuning
Issue Date: 2023-07-13 Unnatural Instructions: Tuning Language Models with （Almost） No Human Labor, ACL23 Summary本研究では、人間の監督を必要としない方法で収集された大規模なデータセット「Unnatural Instructions」を紹介します。このデータセットを使用して、言語モデルのトレーニングを行い、既存のモデルを上回る性能を実現しました。これにより、クラウドソーシングに頼らずにデータセットを拡張し、多様性を持たせることができることが示されました。 #NLP #LanguageModel #TheoryOfMind #Evaluation
Issue Date: 2023-07-11 Understanding Social Reasoning in Language Models with Language Models, Kanishk Gandhi+, N_A, arXiv23 Summary大規模言語モデル（LLMs）のTheory-of-Mind（ToM）推論能力を評価するための新しいフレームワークを提案し、新しい社会的推論のベンチマーク（BigToM）を作成しました。BigToMを使用して、さまざまなLLMsの社会的推論能力を評価し、GPT4が人間の推論パターンと類似したToMの能力を持っていることを示しましたが、他のLLMsは苦戦していることを示唆しています。 CommentLLMの社会的推論能力を評価するためのベンチマークを提案。ToMタスクとは、人間の信念、ゴール、メンタルstate、何を知っているか等をトラッキングすることが求められるタスクのこと。 ...

#Pocket #NLP #LanguageModel #Evaluation #Admin'sPick
Issue Date: 2023-07-03 Holistic Evaluation of Language Models, Percy Liang+, TMLR23 Summary言語モデルの透明性を向上させるために、Holistic Evaluation of Language Models（HELM）を提案する。HELMでは、潜在的なシナリオとメトリックを分類し、広範なサブセットを選択して評価する。さらに、複数のメトリックを使用し、主要なシナリオごとに評価を行う。30の主要な言語モデルを42のシナリオで評価し、HELM以前に比べて評価のカバレッジを改善した。HELMはコミュニティのためのベンチマークとして利用され、新しいシナリオ、メトリック、モデルが継続的に更新される。 CommentOpenReview:https://openreview.net/forum?id=iO4LZibEqWHELMを提案した研究当時のLeaderboardは既にdeprecatedであり、現在は下記を参照:https://crfm.stanford.edu/helm/ ... #Pocket #NLP #LanguageModel #Evaluation #TMLR
Issue Date: 2023-07-03 Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models, Aarohi Srivastava+, N_A, TMLR23 Summary言語モデルの能力と制約を理解するために、BIG-benchという新しいベンチマークを導入しました。このベンチマークでは、現在の言語モデルの能力を超えるタスクに焦点を当てています。さまざまなトピックの204のタスクが含まれており、モデルのサイズや性能の比較も行いました。結果として、モデルの性能とキャリブレーションは向上していますが、絶対的な性能は低く、モデル間の性能も似ていることがわかりました。また、スパース性からの利益やタスクの特性についても調査しました。さらに、曖昧な文脈の設定では社会的な偏見が増加することも示されましたが、プロンプトの使用で改善できる可能性もあります。 CommentOpenReview:https://openreview.net/forum?id=uyTL5BvosjBIG-Bench論文。ワードクラウドとキーワード分布を見ると一つの分野に留まらない非常に多様なタスクが含まれることがわかる。![image](https://github.com/user-a ... #NLP #LLMAgent #Evaluation
Issue Date: 2023-07-03 Mind2Web: Towards a Generalist Agent for the Web, Xiang Deng+, N_A, arXiv23 SummaryMind2Webという新しいデータセットを紹介します。このデータセットは、任意のウェブサイト上で複雑なタスクを実行するための言語の指示に従うウェブエージェントを開発・評価するために作成されました。従来のデータセットでは一般的なウェブエージェントには適していなかったため、Mind2Webはより多様なドメイン、実世界のウェブサイト、幅広いユーザーの相互作用パターンを提供します。また、大規模言語モデル（LLMs）を使用して一般的なウェブエージェントを構築するための初期の探索も行われます。この研究は、ウェブエージェントのさらなる研究を促進するためにデータセット、モデルの実装、およびトレーニング済みモデルをオープンソース化します。 CommentWebにおけるgeneralistエージェントを評価するためのデータセットを構築。31ドメインの137件のwebサイトにおける2350個のタスクが含まれている。タスクは、webサイトにおける多様で実用的なユースケースを反映し、チャレンジングだが現実的な問題であり、エージェントの環境やタスクをまた ... #Pocket #NLP #LanguageModel #Evaluation
Issue Date: 2023-07-03 Artificial Artificial Artificial Intelligence: Crowd Workers Widely Use Large Language Models for Text Production Tasks, Veniamin Veselovsky+, N_A, arXiv23 Summary大規模言語モデル（LLMs）の普及率を調査するために、クラウドワーカーによるLLMの使用の事例研究を行った。結果から、33〜46％のクラウドワーカーがタスクの完了時にLLMsを使用していることが推定された。これにより、人間のデータが人間のものであることを確保するために新しい方法が必要であることが示唆された。 CommentMturkの言語生成タスクにおいて、Turkerのうち33-46%はLLMsを利用していることを明らかにした ... #Pocket #NLP #LanguageModel #Evaluation
Issue Date: 2023-06-16 KoLA: Carefully Benchmarking World Knowledge of Large Language Models, Jifan Yu+, N_A, arXiv23 SummaryLLMの評価を改善するために、KoLAという知識指向のベンチマークを構築した。このベンチマークは、19のタスクをカバーし、Wikipediaと新興コーパスを使用して、知識の幻覚を自動的に評価する独自の自己対照メトリックを含む対照的なシステムを採用している。21のオープンソースと商用のLLMを評価し、KoLAデータセットとオープン参加のリーダーボードは、LLMや知識関連システムの開発の参考資料として継続的に更新される。 #NLP #Evaluation #Hallucination
Issue Date: 2023-05-20 TrueTeacher: Learning Factual Consistency Evaluation with Large Language Models, Zorik Gekhman+, N_A, arXiv23 Summary自然言語推論（NLI）モデルを使用した事実の一貫性評価には限界があり、大規模言語モデル（LLMs）は計算コストが高いため実用的ではない。そこで、TrueTeacherというLLMを使用して多様なモデル生成要約を注釈付けすることによって合成データを生成する方法を提案し、既存の合成データ生成方法と比較して優位性と堅牢性を示した。140万の例を含む大規模な合成データセットを公開した。 CommentFactual Consistency Evaluationに関する研究。オリジナルのテキストに対して、様々な規模の言語モデルを用いて要約を生成。生成された要約に対してfactual informationが正しく含まれているかをラベル付けする方法を提案。 ...

#ComputerVision #Pocket #NLP #MulltiModal #CLIP #NeurIPS
Issue Date: 2025-05-06 LAION-5B: An open large-scale dataset for training next generation image-text models, Christoph Schuhmann+, NeurIPS22 #MachineTranslation #Pocket #NLP
Issue Date: 2024-09-26 No Language Left Behind: Scaling Human-Centered Machine Translation, NLLB Team+, N_A, arXiv22 Commentlow-resourceな言語に対するMTのベンチマーク ... #NaturalLanguageGeneration #Pocket #NLP #LanguageModel #Explanation
Issue Date: 2023-08-03 Explaining Patterns in Data with Language Models via Interpretable Autoprompting, Chandan Singh+, N_A, arXiv22 Summary本研究では、大規模言語モデル（LLMs）を使用してデータのパターンを説明する能力を探求しました。具体的には、事前学習済みのLLMを使用してデータを説明する自然言語の文字列を生成するアルゴリズムを導入しました。実験結果は、このアルゴリズムが正確なデータセットの説明を見つけ出すことができることを示しています。また、生成されるプロンプトは人間にも理解可能であり、実世界のデータセットやfMRIデータセットで有用な洞察を提供することができることも示されました。 CommentOpenReview: https://openreview.net/forum?id=GvMuB-YsiK6データセット（中に存在するパターンの説明）をLLMによって生成させる研究![Image](https://github.com/user-attachments/assets/df70f8c ... #NLP #QuestionAnswering
Issue Date: 2022-02-07 JaQuAD: Japanese Question Answering Dataset for Machine Reading Comprehension, So+, arXiv22 CommentSQuAD likeな日本語のQAデータセット https://github.com/SkelterLabsInc/JaQuAD# AbstractQuestion Answering (QA) is a task in which a machine understands a given doc ... #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT)#Mathematics #Verification
Issue Date: 2024-12-27 Training Verifiers to Solve Math Word Problems, Karl Cobbe+, arXiv21 Comment## 気持ち当時の最も大きいレベルのモデルでも multi-stepのreasoningが必要な問題は失敗するモデルをFinetuningをしても致命的なミスが含まれる特に、数学は個々のミスに対して非常にsensitiveであり、一回ミスをして異なる解法のパスに入ってしまうとTodo: 続きを ... #DocumentSummarization #Metrics #Tools #NLP #Evaluation #Admin'sPick
Issue Date: 2023-08-13 SummEval: Re-evaluating Summarization Evaluation, Fabbri+, TACL21 Comment自動評価指標が人手評価の水準に達しないことが示されており、結局のところROUGEを上回る自動性能指標はほとんどなかった。human judgmentsとのKendall;'s Tauを見ると、chrFがCoherenceとRelevance, METEORがFluencyで上回ったのみだった。また、 ... #Pocket #NLP #LanguageModel #MultitaskLearning
Issue Date: 2023-07-26 Measuring Massive Multitask Language Understanding, Dan Hendrycks+, N_A, ICLR21 Summary私たちは、マルチタスクのテキストモデルの正確性を測定するための新しいテストを提案しています。このテストは、57のタスクをカバーし、広範な世界知識と問題解決能力を必要とします。現在のモデルはまだ専門家レベルの正確性に達しておらず、性能に偏りがあります。私たちのテストは、モデルの理解の幅と深さを評価し、重要な欠点を特定するために使用できます。 #Pocket #NLP #LanguageModel #Evaluation #ICLR #Admin'sPick
Issue Date: 2023-07-24 Measuring Massive Multitask Language Understanding, Dan Hendrycks+, N_A, ICLR21 Summary私たちは、マルチタスクのテキストモデルの正確性を測定するための新しいテストを提案しています。このテストは57のタスクをカバーし、広範な世界知識と問題解決能力が必要です。現在のモデルはまだ専門家レベルの正確性に達しておらず、性能に偏りがあります。私たちのテストは、モデルの弱点を特定するために使用できます。 CommentOpenReview:https://openreview.net/forum?id=d7KBjmI3GmQMMLU論文 ... #PersonalizedDocumentSummarization #NLP #LanguageModel #PersonalizedGeneration #Personalization #PersonalizedHeadlineGeneration
Issue Date: 2023-05-31 PENS: A Dataset and Generic Framework for Personalized News Headline Generation, ACL21 Summaryこの論文では、ユーザーの興味とニュース本文に基づいて、ユーザー固有のタイトルを生成するパーソナライズされたニュース見出し生成の問題を解決するためのフレームワークを提案します。また、この問題のための大規模なデータセットであるPENSを公開し、ベンチマークスコアを示します。データセットはhttps://msnews.github.io/pens.htmlで入手可能です。 Comment# 概要ニュース記事に対するPersonalizedなHeadlineの正解データを生成。103名のvolunteerの最低でも50件のクリックログと、200件に対する正解タイトルを生成した。正解タイトルを生成する際は、各ドキュメントごとに4名異なるユーザが正解タイトルを生成するようにした。これ ...

#PersonalizedDocumentSummarization #NLP #Personalization
Issue Date: 2023-04-30 ニュース記事に対する談話構造と興味度のアノテーション～ニュース対話システムのパーソナライズに向けて～, 高津+, 早稲田大学, 言語処理学会21 Commentニュース記事に対して談話構造および，ユーザのプロフィールと記事の話題・文に対するユーザの興味度を付与したデータセット。プロフィールとして以下を収集：性別年齢，住んでいる地域職種業種ニュースを見る頻度，ニュースをよくチェックする時間帯 ... #NeuralNetwork #NaturalLanguageGeneration #NLP #DataToTextGeneration
Issue Date: 2022-08-18 Biomedical Data-to-Text Generation via Fine-Tuning Transformers, Ruslan+, INLG21 Commentbiomedical domainの新たなdata2textデータセットを提供。事前学習済みのBART, T5等をfinetuningすることで高精度にテキストが生成できることを示した。 ... #DocumentSummarization #Tutorial #NLP #TACL
Issue Date: 2021-10-20 WikiAsp: A Dataset for Multi-domain Aspect-based Summarization, Hayashi+, CMU, TACL21, NLPコロキウム Comment◆Aspect-based summarizationのモチベーション・same source対して、異なるユーザニーズが存在するので、ニーズに関して要約したい ◆Aspect: あるobjectに対する、attributeのようなものを指定？　object: Attention IsQ. R ... #DocumentSummarization #NLP #NAACL
Issue Date: 2018-06-29 Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies, Max+, NAACL18 Comment文書要約に使用可能なデータセット 38の出版元からデータを収集し、サイズは1.3M article程度既存のデータセットと比較すると、Coverageが高く生成的なものを多く含むことが特徴詳細は：https://summari.es ... #NLP #STS (SemanticTextualSimilarity)
Issue Date: 2023-07-31 Construction of a Japanese Word Similarity Dataset, Yuya Sakaizawa+, N_A, arXiv17 Summary日本語の分散表現の評価のために、日本語の単語の類似性データセットを構築した。このデータセットは、日本語の分散表現の評価に使用できる初めてのリソースであり、一般的な単語だけでなく珍しい単語も含まれている。 Commentgithub: https://github.com/tmu-nlp/JapaneseWordSimilarityDataset 単語レベルの類似度をベンチマーキングしたい場合は使ってもよいかも。 ... #NLP #Discourse #ICWSM
Issue Date: 2018-01-19 Characterizing Online Discussion Using Coarse Discourse Sequences, Zhang+, ICWSM17, （Reddit Coarse Discourse data） CommentRedditのDiscussion Forumに9種類のDiscourse Actsを付与したデータ。データを作成する際は、以下の処理を適用： * Google Big Query dump のRedditデータ238Mスレッド * それにReply Filterをかけ87.5Mスレッド ... #Pocket #NLP #QuestionAnswering #ReadingComprehension
Issue Date: 2023-11-19 NewsQA: A Machine Comprehension Dataset, Adam Trischler+, N_A, arXiv16 SummaryNewsQAというデータセットは、10万以上の人間によって生成された質問と回答のペアを含んでいます。このデータセットは、CNNのニュース記事に基づいて作成されており、探索的な推論を必要とする質問を収集するために4つの段階のプロセスを経ています。徹底的な分析により、NewsQAが単純な単語のマッチングやテキストの含意の認識以上の能力を要求することがわかりました。このデータセットは、人間のパフォーマンスと機械のパフォーマンスの差を測定し、将来の研究の進歩を示しています。データセットは無料で利用できます。 CommentSQuADよりも回答をするために複雑な推論を必要とするQAデータセット。規模感はSQuADと同等レベル。 WordMatchingにとどまらず、回答が存在しない、あるいは記事中でユニークではないものも含まれる。 ...

#NeuralNetwork #NaturalLanguageGeneration #NLP #ConceptToTextGeneration #EMNLP
Issue Date: 2017-12-31 Neural Text Generation from Structured Data with Application to the Biography Domain, Lebret+, Lebret+, EMNLP16 #Single #DocumentSummarization #NeuralNetwork #Sentence #Document #NLP #Abstractive #EMNLP #Admin'sPick
Issue Date: 2017-12-28 LCSTS: A large scale chinese short text summarizatino dataset, Hu+, EMNLP15 CommentLarge Chinese Short Text Summarization (LCSTS) datasetを作成データセットを作成する際は、Weibo上の特定のorganizationの投稿の特徴を利用。 Weiboにニュースを投稿する際に、投稿の冒頭にニュースのvery short sCop ... #Multi #DocumentSummarization #NLP #QueryBiased #Extractive #ACL #Admin'sPick
Issue Date: 2017-12-28 Query-Chain Focused Summarization, Baumel+, ACL14 Comment[Query-Chain Focused Summarization.pdf](https://github.com/AkihikoWatanabe/paper_notes/files/1590916/Query-Chain.Focused.Summarization.pdf)上記スライドは私が当時 ... #ComputerVision #Admin'sPick #ImageClassification #ObjectRecognition #ObjectLocalization
Issue Date: 2025-05-13 ImageNet: A Large-Scale Hierarchical Image Database, Deng+, CVPR09 #Article #Tutorial #Pretraining #NLP #LanguageModel #Evaluation #Blog #OpenWeight #Japanese #PostTraining
Issue Date: 2025-06-25 LLM-jp-3.1 シリーズ instruct4 の公開, LLM-jp, 2025.05 Comment関連#2089#2090#2091 ... #Article #TimeSeriesDataProcessing #MachineLearning #Evaluation
Issue Date: 2025-05-25 Datadog_BOOM, Datadog, 2025.05 Comment元ポスト:https://x.com/huggingpapers/status/1926310678060466370?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Article #ComputerVision #NLP #LanguageModel #AWS #MulltiModal #Blog #Japanese
Issue Date: 2025-05-20 Webスケールの日本語-画像のインターリーブデータセット「MOMIJI」の構築 _巨大テキストデータをAWSで高速に処理するパイプライン, Turing （studio_graph）, 2025.05 Comment貴重なVLMデータセット構築ノウハウ青塗りのフィルタリングタスクを具体的にどうやっているのか気になる ... #Article #NLP #LanguageModel #Evaluation #LongSequence
Issue Date: 2025-04-09 Fiction.liveBench, 2025.04 Commentlong contextではGemini-2.5-proの圧勝 ... #Article #Tools #NLP #LanguageModel #API
Issue Date: 2025-04-08 BFCLv2, UC Berkeley, 2024.08 CommentLLMのTool Useを評価するための現在のデファクトスタンダードとなるベンチマーク ... #Article #NLP #LanguageModel #Reasoning
Issue Date: 2025-03-21 Sudoku-bench, SakanaAI, 2025.03 CommentSudoku-Bench features the kind of Sudoku puzzles featured on Cracking the Cryptic (CTC). These Sudoku variants employ unique rulesets to evoke creativ ... #Article #NLP #LanguageModel #LLMAgent
Issue Date: 2025-03-12 GAIA, gaia-bemchmark, 2023.11 CommentWe introduce GAIA, a benchmark for General AI Assistants that, if solved, would represent a milestone in AI research. GAIA proposes real-world questio ... #Article #NLP #LanguageModel #LLMAgent
Issue Date: 2025-03-02 Introducing the SWE-Lancer benchmark, OpenAI, 2025.02 Comment元ポスト:https://x.com/dair_ai/status/1893698290174108113?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q1400以上のフリーランスソフトウェアエンジニアリングタスクを集めたベンチマーク。タスクはバグ修正から機能実装まで多岐にわたり、経験豊 ... #Article #ComputerVision #NLP #LanguageModel #Evaluation
Issue Date: 2025-01-25 Humanitys Last Exam, 2025.01 Commento1, DeepSeekR1の正解率が10%未満の新たなベンチマークBenchmarks are important tools for tracking the rapid advancements in large language model (LLM) capabilities. Howev ... #Article #NLP #LanguageModel #Supervised-FineTuning (SFT)#Repository
Issue Date: 2025-01-25 LLM Datasets, mlabonne, 2025.01 CommentLLMの事後学習用のデータをまとめたリポジトリ ... #Article #NLP #LanguageModel #InstructionTuning
Issue Date: 2025-01-07 tokyotech-llm_swallow-magpie-ultra-v0.1, tokyotech-llm, 2025.01 #Article #ComputerVision #NLP #LanguageModel #Evaluation
Issue Date: 2025-01-05 Killed by LLM, R0bk CommentSaturationとなっているベンチマークは、最先端の性能をすでに測定できなくなってしまったベンチマークとのこと。 ... #Article #NLP #LanguageModel #Evaluation #Japanese
Issue Date: 2024-12-30 Preferred Generation Benchmark, pfnet-research, 2024.12 Comment参考:https://x.com/bilzrd/status/1873167934564311133?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q日本語プレプリント:https://jxiv.jst.go.jp/index.php/jxiv/preprint/view/1008arXi ... #Article #Tools #NLP #LanguageModel #Blog #OpenWeight #Japanese
Issue Date: 2024-12-24 完全にオープンな約1,720億パラメータ（GPT-3級）の大規模言語モデル「llm-jp-3-172b-instruct3」を一般公開～GPT-3.5を超える性能を達成～ , NII, 2024.12 CommentGPT3.5と同程度のパラメータ数のコーパス、モデル、ツール、全てを公開。学習データまで含めてオープンなモデルとしては世界最大規模とのこと。Instructionチューニング済みのモデルはライセンスを読むと、ライセンスに記述されている内容を遵守すれば、誰でも（日本人なら18歳以上とかはあるが）アクセ ... #Article #Survey #NLP #LanguageModel #Evaluation #Repository #OpenWeight #Japanese #OpenSource
Issue Date: 2024-12-02 日本語LLMまとめ, LLM-jp, 2024.12 CommentLLM-jpによる日本語LLM（Encoder-Decoder系, BERT系, Bi-Encoders, Cross-Encodersを含む）のまとめ。テキスト生成に使うモデル、入力テキスト処理に使うモデル、Embedding作成に特化したモデル、視覚言語モデル、音声言語モデル、日本語LLM評価 ... #Article #NLP #InstructionTuning #SyntheticData #PostTraining
Issue Date: 2024-11-21 SmolLM2, 2024.11 Comment元ポスト:https://x.com/_philschmid/status/1859598525723488478?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QOrca-AgenInstruct-1M #1521 よりもSmolLMのSFTで各種ベンチで高い性能を獲得![image]( ... #Article #MachineTranslation #NLP #Zero/FewShotPrompting
Issue Date: 2024-11-20 Datasets: hpprc_honyaku, hpprc, 2024.11 Comment元ポスト: https://x.com/hpp_ricecake/status/1859118112672780401?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q英語Wikipediaを冒頭数文を抽出し日本語に人手で翻訳（Apache2.0ライセンスであるCalmやQwenの出力を参 ... #Article #NLP #LanguageModel #Supervised-FineTuning (SFT)#InstructionTuning
Issue Date: 2024-11-16 microsoft_orca-agentinstruct-1M-v1, Microsoft, 2024.11 #Article #NLP #LanguageModel #LLMAgent #Evaluation
Issue Date: 2024-10-20 MLE-Bench, OpenAI, 2024.10 CommentWe introduce MLE-bench, a benchmark for measuring how well AI agents perform at machine learning engineering. To this end, we curate 75 ML engineering ... #Article #NLP #LanguageModel #Japanese
Issue Date: 2024-09-25 LLM-jp Corpus v3, LLM.jp, 2024.09 CommentLLM-jp-3 #1418 の学習に利用されているコーパス ... #Article #LanguageModel #Repository
Issue Date: 2024-08-30 Firecrawl, 2024.09 CommentsitemapなしでWebサイト全体をクローリングできるAPI。LLMで利用可能なマークダウンや、構造化データに変換もしてくれる模様。 ... #Article #Pretraining #Pocket #NLP #LanguageModel #InstructionTuning #Repository #Japanese
Issue Date: 2023-12-11 A Review of Public Japanese Training Sets, shisa, 2023.12 #Article #Tutorial #LanguageModel #Evaluation
Issue Date: 2023-11-16 JGLUEの構築そして日本語LLM評価のこれから, 2023 CommentJGLUEのexample付きの詳細、構築の経緯のみならず、最近の英語・日本語LLMの代表的な評価データ（方法）がまとまっている（AlpacaEval, MTBenchなど）。また、LLMにおける自動評価の課題（図は資料より引用）が興味深く、LLM評価で生じるバイアスについても記述されている。Nam ...

#Article #Survey #NaturalLanguageGeneration #NLP #DataToTextGeneration #Blog
Issue Date: 2023-11-08 Data-to-Text Datasetまとめ, 2022 CommentData-to-Textのデータセットを自分用に調べていたのですが、せっかくなのでスライドにまとめてみました。特にMR-to-Text, Table-to-Textあたりは網羅的にサーベイし、データセットの概要を紹介しているので、全体像を把握するのに良いのかなぁと思います。ただし、2022年12月時 ... #Article #MachineLearning #SpeechProcessing
Issue Date: 2023-08-16 CommonVoice Comment音声対応のアプリケーションをトレーニングするために誰でも使用できるオープンソースの多言語音声データセット ...

#Article #NLP #LanguageModel #DialogueGeneration
Issue Date: 2023-07-22 ChatBot Arenaのデータセット Comment33kのconversation、2つのレスポンスに対する人間のpreferenceスコア付き20種類のSoTAモデルのレスポンスを含み、13kのユニークIPからのアクセスがあり、3Kのエキスパートによるアノテーション付き ... #Article #RecommenderSystems #NLP #NaturalLanguageUnderstanding
Issue Date: 2023-07-18 DataFinder: Scientific Dataset Recommendation from Natural Language Descriptions Summaryデータセットの推奨タスクを操作化し、DataFinderデータセットを構築した。DataFinderデータセットは、自動的に構築された大規模なトレーニングセットと専門家による評価セットを含んでいる。このデータセットを使用して、テキストベースのデータセット推奨のための優れたバイエンコーダリトリーバを提案し、関連する検索結果を見つけることができることを示した。データセットとモデルは一般に公開される。 #Article #RecommenderSystems #NLP
Issue Date: 2023-05-06 SNAP: Web data: Amazon reviews #Article #NLP #InstructionTuning #DataDistillation
Issue Date: 2023-04-26 LaMini-instruction Summary私たちは、大規模言語モデルからの知識を抽出するために、文/オフライン蒸留を行います。具体的には、いくつかの既存のプロンプトリソースに基づいて、合計258万ペアの指示と応答を生成します。詳細は論文を参照してください。 Comment既存のInstruction DatasetのInstructionをseedとして、gpt-3.5-turboで新たなInstructionとresponseを生成したデータセット ...

#Article #Education #AdaptiveLearning #EducationalDataMining #ScorePrediction
Issue Date: 2022-08-23 Score Prediction dataset #Article #RecommenderSystems #CTRPrediction
Issue Date: 2021-06-01 Criteo Dataset, Display Advertising Challenge, Kaggle, 2014 CommentCriteo Dataset (https://www.kaggle.com/c/criteo-display-ad-challenge/data) DeepFM等のモデルで利用されているCTR Predictionのためのデータセット # Data Description traAvazu D ... #Article #Survey #EducationalDataMining #LearningAnalytics #StudentPerformancePrediction #KnowledgeTracing
Issue Date: 2021-05-29 Student Performance Prediction _ Knowledge Tracing Dataset #Article #Tutorial #NLP #Evaluation #Blog
Issue Date: 2021-05-19 GLUE - 英語圏における自然言語処理の標準ベンチマーク, npaka, 2020 Comment各タスクごとにサンプルとその説明が付与されており、ぱっと見でどんなタスクかすぐ分かる ... #Article #RecommenderSystems #Tutorial #Tools #Slide
Issue Date: 2020-08-29 Off Policy Evaluation の基礎とOpen Bandit Dataset & Pipelineの紹介, Yuta Saito, 2020 Comment機械学習による予測精度ではなく、機械学習モデルによって生じる意思決定を、過去の蓄積されたデータから評価する（Off policy Evaluation）の、tutorialおよび実装、データセットについて紹介。このような観点は実務上あるし、見落としがちだと思うので、とても興味深い。 ... #Article #RecommenderSystems #Blog
Issue Date: 2020-08-29 Open Bandit Dataset, ZOZO RESEARCH, 2020 CommentOpen Bandit pipelineも参照資料: https://speakerdeck.com/usaito/off-policy-evaluationfalseji-chu-toopen-bandit-dataset-and-pipelinefalseshao-jie ... #Article #NeuralNetwork #Tools #NLP #LanguageModel #Library #Blog
Issue Date: 2020-03-13 BERT 日本語Pre-trained Model, NICT, 2020 CommentNICTが公開。既に公開されているBERTモデルとのベンチマークデータでの性能比較も行なっており、その他の公開済みBERTモデルをoutperformしている。 ... #Article #RecommenderSystems #Admin'sPick
Issue Date: 2019-04-12 Recommender System Datasets, Julian McAuley CommentRecommender Systems研究に利用できる各種データセットを、Julian McAuley氏がまとめている。氏が独自にクロールしたデータ等も含まれている。非常に有用。 ... #Article #Tutorial #Survey
Issue Date: 2019-02-12 NLP-Progress CommentNLPの様々なタスクのデータセット, およびSOTA(2018年時点)がまとめられている。 ... #Article #DocumentSummarization #NLP #Update
Issue Date: 2017-12-28 DUC 2007, Update Summarization Dataset CommentDUC 2007:https://duc.nist.gov/duc2007/tasks.html ...