Conversation

#Pocket #NLP #Dataset #LanguageModel #UserBased #Evaluation #ACL
Issue Date: 2025-11-15 [Paper Note] ChatBench: From Static Benchmarks to Human-AI Evaluation, Serina Chang+, ACL'25, 2025.03 GPT Summary- LLMベースのチャットボットの能力を評価するために、ユーザーとAIの会話を通じてMMLUの質問を変換する研究を実施。新しいデータセット「ChatBench」には396の質問と144Kの回答、7,336のユーザー-AI会話が含まれ、AI単独の精度はユーザー-AIの精度を予測できないことが示された。ユーザー-AIの会話分析により、AI単独のベンチマークとの違いが明らかになり、ユーザーシミュレーターのファインチューニングにより精度推定能力が向上した。 Comment

日本語解説:
- ACL2025@ウィーン 参加報告, shirotaro, 2025.10



#Multi #Metrics #Pocket #NLP #LanguageModel #ReinforcementLearning #Evaluation #NeurIPS #Personality
Issue Date: 2025-11-06 [Paper Note] Consistently Simulating Human Personas with Multi-Turn Reinforcement Learning, Marwa Abdulhai+, arXiv'25, 2025.10 GPT Summary- LLMを用いた対話におけるペルソナの一貫性を評価・改善するフレームワークを提案。3つの自動メトリックを定義し、マルチターン強化学習でファインチューニングを行うことで、一貫性を55%以上向上させる。 Comment

pj page: https://sites.google.com/view/consistent-llms

元ポスト:

Loading…


#Multi #ComputerVision #Pocket #NLP #Dataset #QuestionAnswering #MultiModal #VisionLanguageModel #2D (Image)
Issue Date: 2025-10-22 [Paper Note] FineVision: Open Data Is All You Need, Luis Wiedmann+, arXiv'25, 2025.09 GPT Summary- 本研究では、視覚と言語のモデル(VLM)のために、24百万サンプルからなる統一コーパス「FineVision」を紹介。これは200以上のソースを統合し、半自動化されたパイプラインでキュレーションされている。データの衛生と重複排除が行われ、66の公的ベンチマークに対する汚染除去も適用。FineVisionで訓練されたモデルは、既存のオープンミックスモデルを上回る性能を示し、データ中心のVLM研究の加速を目指す。 Comment

pj page: https://huggingface.co/spaces/HuggingFaceM4/FineVision

関連:
- [Paper Note] Grounding Multilingual Multimodal LLMs With Cultural Knowledge, Jean de Dieu Nyandwi+, EMNLP'25

ポイント解説:

Loading…

著者ポスト:

Loading…


#Multi #Pocket #NLP #UserModeling #LanguageModel #UserBased #Evaluation #EMNLP #One-Line Notes Issue Date: 2025-10-16 [Paper Note] SimulatorArena: Are User Simulators Reliable Proxies for Multi-Turn Evaluation of AI Assistants?, Yao Dou+, arXiv'25, 2025.10 GPT Summary- SimulatorArenaを導入し、909件の人間-LLM会話を用いて、数学指導と文書作成の2つのタスクにおけるシミュレーターの評価を行う。シミュレーターのメッセージが人間の行動と一致する度合いや、アシスタント評価が人間の判断と整合する度合いを基に評価。条件付けされたシミュレーターが人間の判断と高い相関を示し、実用的な代替手段を提供。最新の18のLLMをベンチマーク。 Comment

元ポスト:

Loading…

マルチターンの会話においてAIと人間との対話(数学のtutoring, 文書の作成支援)を評価する際に、実際の人間はコストがかかりスケールしないのでLLMを人間の代替とし評価ができるか?どのようにすればLLMを人間の振る舞いと整合させられるか?といった話しで、25種類以上のattributeによるユーザプロファイルを用いることが有効だった(人間の評価結果に対して、ユーザプロファイルを用いたLLMシミュレーターがより高い相関を示した)というような話しらしい。



#Pocket #NLP #UserModeling #LanguageModel #UserBased #Evaluation #Robustness Issue Date: 2025-10-12 [Paper Note] Flipping the Dialogue: Training and Evaluating User Language Models, Tarek Naous+, arXiv'25, 2025.10 GPT Summary- LMとの会話には人間のユーザーとLMアシスタントが参加し、LMは構造化された応答を生成するよう最適化されている。しかし、ユーザーの発話は完璧ではなく、従来の研究ではアシスタントLMがユーザーをシミュレートすることが試みられたが、効果的ではないことが示された。そこで、目的特化型ユーザー言語モデル(User LMs)を導入し、これが人間の行動とより一致し、シミュレーションの堅牢性を向上させることを示した。User LMsを用いたコーディングや数学の会話シミュレーションでは、強力なアシスタントのパフォーマンスが低下し、現実的なシミュレーション環境がアシスタントの苦戦を引き起こすことが確認された。 Comment

HF: https://huggingface.co/microsoft/UserLM-8b

元ポスト:

Loading…

興味深い

所見:

Loading…


#Multi #Pocket #NLP #Dataset #LanguageModel #Evaluation #Safety #COLM Issue Date: 2025-10-08 [Paper Note] X-Teaming: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents, Salman Rahman+, COLM'25, 2025.04 GPT Summary- X-Teamingを提案し、無害なインタラクションが有害な結果にエスカレートする過程を探求。協力的なエージェントを用いて、最大98.1%の成功率でマルチターン攻撃を実現。特に、Claude 3.7 Sonnetモデルに対して96.2%の成功率を達成。さらに、30Kの脱獄を含むオープンソースのトレーニングデータセットXGuard-Trainを導入し、LMのマルチターン安全性を向上させる。 Comment

openreview: https://openreview.net/forum?id=gKfj7Jb1kj#discussion

元ポスト:

Loading…


#Pocket #NLP #Dataset #ReinforcementLearning #Evaluation #MultiLingual #LLM-as-a-Judge #RewardModel #One-Line Notes Issue Date: 2025-10-03 [Paper Note] MENLO: From Preferences to Proficiency -- Evaluating and Modeling Native-like Quality Across 47 Languages, Chenxi Whitehouse+, arXiv'25, 2025.09 GPT Summary- MENLOフレームワークを用いて、47言語の6,423のプロンプト-応答ペアのデータセットを作成し、LLMの応答品質を評価。ゼロショット評価者はペアワイズ評価から利益を得るが、人間には及ばず。強化学習によるファインチューニングで改善を示し、RL訓練評価者がLLMの多言語能力向上に寄与することを確認。ただし、人間の判断との不一致は残る。データセットと評価フレームワークを公開し、多言語LLM評価の研究を支援。 Comment

元ポスト:

Loading…

LLMの応答を多言語でよりnativeに近いものにするための取り組み、および評価のフレームワーク(MENLO, データセット含む)な模様。nativeらしさを測るために重要な次元としてFluency, Tone, Localized Tone, Localized Factualityと呼ばれる軸を定義している模様。その上で47言語における6423の人手でアノテーションされたpreference dataを作成し評価をしたところ、既存のLLM-as-a-judgeやSFT/RLされたReward Modelでは、人間による評価にはまだまだ及ばないことが明らかになり、MENLOを用いてRL/SFTすることでLLM JudgeやReward Modelの性能を改善できる、といった話な模様。

4つの次元については以下の表を参照のこと。
それぞれ
- Fluency: 専門家レベルのnative speakerと比較した時のproficiency
- Tone: 全体的なwriting stvleや語り口
- Localized Tone: 文化的、地域的な言葉のニュアンス
- Localized Factuality: 地域固有のコンテキストに沿った事実性や網羅性

image



#Pocket #NLP #UserModeling #Dataset #LanguageModel #UserBased #Personalization #Evaluation #read-later #One-Line Notes Issue Date: 2025-10-03 [Paper Note] Personalized Reasoning: Just-In-Time Personalization and Why LLMs Fail At It, Shuyue Stella Li+, arXiv'25, 2025.09 GPT Summary- 現在のLLMは、タスク解決とユーザーの好みの整合性を別々に扱っており、特にジャストインタイムのシナリオでは効果的ではない。ユーザーの好みを引き出し、応答を適応させる「パーソナライズド推論」が必要である。新たに提案された評価手法「PREFDISCO」は、ユーザーのコンテキストに応じた異なる推論チェーンを生成し、パーソナライズの重要性を示す。評価結果から、単純なパーソナライズが一般的な応答よりも劣ることが明らかになり、専用の開発が必要であることが示唆された。PREFDISCOは、教育や医療などの分野でのパーソナライズの重要性を強調する基盤を提供する。 Comment

元ポスト:

Loading…

ざーっとしか読めていないのが、ユーザから与えられたタスクとマルチターンの会話の履歴に基づいて、LLM側が質問を投げかけて、Personalizationに必要なattributeを取得する。つまり、ユーザプロファイルは (attribute, value, weight)のタプルによって構成され、この情報に基づいて生成がユーザプロファイルにalignするように生成する、といった話に見える。膨大なとりうるattributeの中から、ユーザのタスクとcontextに合わせてどのattributeに関する情報を取得するかが鍵となると思われる。また、セッション中でユーザプロファイルを更新し、保持はしない前提な話に見えるので、Personalizationのカテゴリとしては一時的個人化に相当すると思われる。
Personalizationの研究は評価が非常に難しいので、どのような評価をしているかは注意して読んだ方が良いと思われる。
Imagehttps://github.com/user-attachments/assets/3d411a63-f8de-4267-b6c0-edfe3143d4ac" />



#Multi #Pocket #NLP #Dataset #DialogueGeneration Issue Date: 2025-09-05 Multi-Relational Multi-Party Chat Corpus: 話者間の関係性に着目したマルチパーティ雑談対話コーパス, 津田+, NLP'25 Comment

コーパス: https://github.com/nu-dialogue/multi-relational-multi-party-chat-corpus

元ポスト:

Loading…

3人以上のマルチパーティに対応したダイアログコーパスで、話者間の関係性として「初対面」と「家族」に着目し、初対面対話や家族入り対話の2種類の対話を収集したコーパス。



#Analysis #Pocket #NLP #LanguageModel #AIAgents #ContextEngineering Issue Date: 2025-05-24 LLMs Get Lost In Multi-Turn Conversation, Philippe Laban+, arXiv'25 GPT Summary- LLMsは会話型インターフェースとして、ユーザーがタスクを定義するのを支援するが、マルチターンの会話ではパフォーマンスが低下する。シミュレーション実験の結果、マルチターンで39%のパフォーマンス低下が見られ、初期のターンでの仮定に依存しすぎることが原因と判明。LLMsは会話中に誤った方向に進むと、回復が難しくなることが示された。 Comment

元ポスト:

Loading…

Lost in the MiddleならぬLost in Conversation
image

関連:
- Lost in the Middle: How Language Models Use Long Contexts, Nelson F. Liu+, N/A, TACL'24



#NLP #Dataset #Factuality Issue Date: 2024-12-05 事実正誤判定が不要な生成応答の検出に向けた データセットの収集と分析, rryohei Kamei+, NLP'24, 2024.03 #Pocket #NLP #Dataset #LanguageModel #Alignment Issue Date: 2023-10-09 RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models, Zekun Moore Wang+, N_A, arXiv'23 GPT Summary- 本研究では、大規模言語モデル(LLMs)を使用して役割演技の能力を向上させるためのフレームワークであるRoleLLMを提案しています。RoleLLMは、役割プロファイルの構築、コンテキストベースの指示生成、役割プロンプトによる話し方の模倣、オープンソースモデルの微調整と役割のカスタマイズの4つのステージで構成されています。さらに、RoleBenchと呼ばれる役割演技のためのベンチマークデータセットを作成し、RoleLLaMAとRoleGLMというモデルを開発しました。これにより、役割演技の能力が大幅に向上し、GPT-4と同等の結果を達成しました。 Comment

# Overview

image

# RoleBench

image



#DocumentSummarization #NaturalLanguageGeneration #NLP #Dataset Issue Date: 2023-07-15 MeetingBank: A Benchmark Dataset for Meeting Summarization, ACL'23 GPT Summary- 会議の要約技術の開発には注釈付きの会議コーパスが必要ですが、その欠如が問題となっています。本研究では、新しいベンチマークデータセットであるMeetingBankを提案しました。MeetingBankは、会議議事録を短いパッセージに分割し、特定のセグメントと対応させることで、会議の要約プロセスを管理しやすいタスクに分割することができます。このデータセットは、会議要約システムのテストベッドとして利用できるだけでなく、一般の人々が議会の意思決定の仕組みを理解するのにも役立ちます。ビデオリンク、トランスクリプト、参照要約などのデータを一般に公開し、会議要約技術の開発を促進します。 #RecommenderSystems #NLP Issue Date: 2023-07-15 TREA: Tree-Structure Reasoning Schema for Conversational Recommendation, ACL'23 GPT Summary- 会話型の推薦システム(CRS)では、外部知識を活用して対話の文脈を理解し、関連するアイテムを推薦することが求められている。しかし、現在の推論モデルは複雑な関係を完全に把握できないため、新しいツリー構造の推論スキーマであるTREAを提案する。TREAは多階層のツリーを使用して因果関係を明確にし、過去の対話を活用してより合理的な応答を生成する。幅広い実験により、TREAの有効性が示された。 #ComputerVision #NLP #Dataset #Personalization #MultiModal Issue Date: 2023-07-15 MPCHAT: Towards Multimodal Persona-Grounded Conversation, ACL'23 GPT Summary- 本研究では、テキストと画像の両方を使用してパーソナを拡張し、マルチモーダルな対話エージェントを構築するためのデータセットであるMPCHATを提案します。さらに、マルチモーダルパーソナを組み込むことで、応答予測、パーソナのグラウンディング予測、話者の識別といったタスクのパフォーマンスを統計的に有意に改善できることを示します。この研究は、マルチモーダルな対話理解においてマルチモーダルパーソナの重要性を強調し、MPCHATが高品質なリソースとして役立つことを示しています。 #DocumentSummarization #Survey #NLP #Abstractive Issue Date: 2023-07-15 [TACL] Abstractive Meeting Summarization: A Survey, TACL'23 GPT Summary- 会議の要約化において、深層学習の進歩により抽象的要約が改善された。本論文では、抽象的な会議の要約化の課題と、使用されているデータセット、モデル、評価指標について概説する。 #Article #GenerativeAI #read-later #Selected Papers/Blogs Issue Date: 2025-11-26 Estimating AI productivity gains from Claude conversations, Anthropic, 2025.11 Comment

元ポスト:

Loading…

うーん気になる!



#Article #NLP #Dataset #LanguageModel #Evaluation #Live Issue Date: 2025-09-10 From Live Data to High-Quality Benchmarks: The Arena-Hard Pipeline, Li+, 2024.04 Comment

ArenaHardデータセット

ChatbotArenaのデータからコンタミネーションに考慮して定期的に抽出される高品質なreal worldに近いのconversationデータセット。抽出プロセスではpromptの多様性とqualityが担保される形で、200,000のユーザからのpromptが抽出されフィルタリングにかけられる。
多様性という観点では、全てのpromptを OpenAI の `text-embedding-3-small` によってembeddingに変換し、UMAPによって次元圧縮をした後に階層的クラスタリング手法によってトピッククラスタを形成する。各クラスタにはGPT-4-turboで要約が付与され、要約を活用して4000のトピッククラスタを選定する。
続いて、各クラスタに含まれるクエリは品質がバラバラなので、高品質なものを抽出するために以下の観点からLLM-as-a-Judge(GPT-3.5-Turbo, GPT-4-turbo)を用いてフィルタリングを実施する:
```
1. Specificity: Does the prompt ask for a specific output?
2. Domain Knowledge: Does the prompt cover one or more specific domains?
3. Complexity: Does the prompt have multiple levels of reasoning, components, or variables?
4. Problem-Solving: Does the prompt directly involve the AI to demonstrate active problem-solving skills?
5. Creativity: Does the prompt involve a level of creativity in approaching the problem?
6. Technical Accuracy: Does the prompt require technical accuracy in the response?
7. Real-world Application: Does the prompt relate to real-world applications?
```
(観点は元記事から引用)

各観点を満たしていたら1ポイントとし、各promptごとに[0, 7]のスコアが付与される。各トピッククラスタはクラスタ中のpromptの平均スコアによってスコアリングされフィルタリングに活用される。
最終的に250のhigh-qualityなトピッククラスタ(すなわち、スコアが>=6のクラスタ)が選ばれ、各クラスタから2つのサンプルをサンプリングして合計500個のbenchmark promptを得る。
評価をする際は、評価対象のモデルとstrong baseline(GPT-4-0314)のレスポンスを比較し、LLM-as-a-Judge(GPT-4-Turbo, Claude-3-Opus)によってペアワイズの品質データを取得する。position biasに配慮するためにreaponseの位置を入れ替えて各サンプルごとに2回評価するので、このデータは1000個のペアワイズデータとなる。
このペアワイズデータをbootstrap resamplingした上で、Bradley-Terryモデル(=勝敗データからプレイヤーの強さを数値化する統計モデル)でスコアを計算することでスコアを得る。

ArenaHardはMT Benchよりも高い識別力を獲得している。

Imagehttps://github.com/user-attachments/assets/a9bca283-31c2-4606-b59d-b7df60af43f1" />

関連:
- ChatBot Arena, lmsys org, 2023.05
- ChatBot Arenaのデータセット



#Article #Transformer #SpeechProcessing #Slide #read-later Issue Date: 2025-07-15 【輪講資料】Moshi: a speech-text foundation model for real-time dialogue, Hayato Tsukagoshi, 2025.07 #Article #AIAgents #Repository Issue Date: 2024-10-02 AutoGen, Microsoft, 2024.10 GPT Summary- AutoGenは、AIエージェントの構築と協力を促進するオープンソースのプログラミングフレームワークで、エージェント間の相互作用や多様なLLMの使用をサポートします。これにより、次世代LLMアプリケーションの開発が容易になり、複雑なワークフローのオーケストレーションや最適化が簡素化されます。カスタマイズ可能なエージェントを用いて多様な会話パターンを構築でき、強化されたLLM推論や高度なユーティリティ機能も提供します。AutoGenは、Microsoftや大学との共同研究から生まれました。