DialogueGenerationに関する論文・技術記事メモの一覧

DialogueGeneration

#Multi #Pocket #NLP #Dataset #Conversation
Issue Date: 2025-09-05 Multi-Relational Multi-Party Chat Corpus: 話者間の関係性に着目したマルチパーティ雑談対話コーパス, 津田+, NLP'25 Comment

コーパス: https://github.com/nu-dialogue/multi-relational-multi-party-chat-corpus

元ポスト:

Loading…

3人以上のマルチパーティに対応したダイアログコーパスで、話者間の関係性として「初対面」と「家族」に着目し、初対面対話や家族入り対話の2種類の対話を収集したコーパス。

#NLP #LanguageModel #QuestionAnswering
Issue Date: 2023-04-28 q2d: Turning Questions into Dialogs to Teach Models How to Search, Bitton+, The Hebrew University of Jerusalem （w_ Google Research）, arXiv'23 Comment

LLMにquestionを与え、questionを解決するためのinformation seekingの対話ログを生成させる。このデータを用いて、dialogueからquestionを生成するモデルを訓練し、検索APIなどに渡せるようにした研究。全く対話のログがないドメインのデータに対しても、人間と遜色ない高品質な対話が生成可能。これにより、query generationモデルの更なる高性能化が実現できる。

#NaturalLanguageGeneration #Metrics #NLP #Evaluation #Reference-free #QA-based #Factuality
Issue Date: 2023-08-13 Q2: Evaluating Factual Consistency in Knowledge-Grounded Dialogues via Question Generation and Question Answering, Honovich+, EMNLP'21 GPT Summary- 本研究では、ニューラルな知識に基づく対話生成モデルの信頼性と適用範囲の制限についての問題を解決するため、自動的な質問生成と質問応答を使用した事実的な整合性の自動評価尺度を提案します。この尺度は、自然言語推論を使用して回答スパンを比較することで、以前のトークンベースのマッチングよりも優れた評価を行います。また、新しいデータセットを作成し、事実的な整合性の手動アノテーションを行い、他の尺度とのメタ評価を行いました。結果として、提案手法が人間の判断と高い相関を示しました。 Comment

（knowledge-grounded; 知識に基づいた）対話に対するFactual ConsistencyをReference-freeで評価できるQGQA手法。機械翻訳やAbstractive Summarizationの分野で研究が進んできたが、対話では

- 対話履歴、個人の意見、ユーザに対する質問、そして雑談

といった外部知識に対するconsistencyが適切ではない要素が多く存在し、よりチャレンジングなタスクとなっている。

また、そもそも対話タスクはopen-endedなタスクなため、Reference-basedな手法は現実的ではなく、Reference-freeな手法が必要と主張。

手法の概要としては以下。ユーザの発話からQuestion Generation (QG)を実施し、Question-Answer Candidate Pairを作成する。そして、生成したQuestionをベースとなる知識から回答させ（QA）、その回答結果とAnswer Candidateを比較することでFactual Consistencyを測定する。

#PersonalizedDocumentSummarization #DocumentSummarization #NaturalLanguageGeneration #Metrics #NLP #DataToTextGeneration #ConceptToTextGeneration #PersonalizedGeneration Issue Date: 2021-06-02 NUBIA, EvalNLGEval'20 Comment

TextGenerationに関するSoTAの性能指標。BLEU, ROUGE等と比較して、人間との相関が高い。

pretrainedされたlanguage model（GPT-2=sentence legibility, RoBERTa_MNLI=logical inference, RoBERTa_STS=semantic similarity）を使い、Fully Connected Layerを利用してquality スコアを算出する。算出したスコアは最終的にcalibrationで0~1の値域に収まるように補正される。

意味的に同等の内容を述べた文間でのexample

BLEU, ROUGE, BERTのスコアは低いが、NUBIAでは非常に高いスコアを出せている。

#Pocket #NLP #EMNLP Issue Date: 2019-01-24 [Paper Note] Training Millions of Personalized Dialogue Agents, Pierre-Emmanuel Mazaré+, EMNLP'18, 2018.09 GPT Summary- 新しいデータセットを用いて、500万のペルソナと7億のペルソナベースの対話を提供。これにより、エンドツーエンドの対話システムの性能が向上し、Zhangら（2018）のデータでファインチューニングすることで他のタスクでも最先端の結果を達成。 #NeuralNetwork #Pocket #NLP #ACL Issue Date: 2018-02-08 [Paper Note] Personalizing Dialogue Agents: I have a dog, do you have pets too?, Saizheng Zhang+, ACL'18 GPT Summary- プロフィール情報を基にchit-chatを魅力的にするタスクを提案。モデルはプロフィールに基づく条件付けと相手の情報を考慮し、次の発話を予測することで対話を改善。対話者のプロフィール情報を予測するために、個人的な話題で引き込むように訓練された。 #Article #NLP #SpeechProcessing #Japanese Issue Date: 2025-01-28 日本語Full-duplex音声対話システムの試作, 大橋+, J-Moshi #Article #NLP #Dataset #LanguageModel Issue Date: 2023-07-22 ChatBot Arenaのデータセット Comment

33kのconversation、2つのレスポンスに対する人間のpreferenceスコア付き
20種類のSoTAモデルのレスポンスを含み、13kのユニークIPからのアクセスがあり、3Kのエキスパートによるアノテーション付き