ReadingComprehension


Paper/Blog Link My Issue
#NLP #Dataset #QuestionAnswering #Evaluation #Factuality Issue Date: 2025-08-16 GPT Summary- Natural Questionsコーパスは、Google検索エンジンからの実際の匿名化されたクエリを基にした質問応答データセットで、307,373のトレーニング例と7,830の開発例、7,842のテスト例が含まれています。アノテーターは、質問に対してWikipediaページから長い回答と短い回答を注釈し、質の検証実験や人間の変動性に関する分析を行っています。また、質問応答システムの評価のためのメトリクスを導入し、競争的手法を用いてベースライン結果を確立しています。

Paper/Blog Link My Issue
#NeuralNetwork #Dataset #InformationExtraction #Zero/FewShotLearning #CoNLL #KnowledgeEditing #FactualKnowledge #RelationExtraction Issue Date: 2025-08-26 GPT Summary- 関係抽出を自然言語の質問に還元することで、ニューラル読解理解技術を活用し、大規模なトレーニングセットを構築可能にする。これにより、ゼロショット学習も実現。ウィキペディアのスロットフィリングタスクで、既知の関係タイプに対する高精度な一般化と未知の関係タイプへのゼロショット一般化が示されたが、後者の精度は低く、今後の研究の基準を設定。 Comment

Knowledge Editingのベンチマークとしても利用される




Paper/Blog Link My Issue
#NLP #Dataset #QuestionAnswering #Factuality Issue Date: 2025-08-16 GPT Summary- TriviaQAは、650K以上の質問-回答-証拠トリプルを含む読解理解データセットで、95Kの質問-回答ペアと平均6つの証拠文書を提供。複雑な質問や構文的変動があり、文を超えた推論が必要。特徴ベースの分類器と最先端のニューラルネットワークの2つのベースラインアルゴリズムを評価したが、人間のパフォーマンスには及ばず、TriviaQAは今後の研究における重要なテストベッドである。

Paper/Blog Link My Issue
#NLP #Dataset #QuestionAnswering #KeyPoint Notes #needs-revision Issue Date: 2023-11-19 GPT Summary- NewsQAは10万件以上の人間生成の質問・回答ペアからなる機械読解データセットで、CNNの10,000件以上のニュース記事を基にクラウドワーカーによって構築されました。データセットは、推論を必要とする探索的な質問を引き出す4段階プロセスで収集され、単純な語彙一致やテキスト含意を超えた能力が要求されます。人間のパフォーマンスと強力なニューラルモデルとの比較により、F1でのパフォーマンス差(0.198)が示され、将来の研究における顕著な進歩の可能性を示唆しています。データセットは自由に利用可能です。 Comment

SQuADよりも回答をするために複雑な推論を必要とするQAデータセット。規模感はSQuADと同等レベル。

image

WordMatchingにとどまらず、回答が存在しない、あるいは記事中でユニークではないものも含まれる。

image