Culturalに関する論文・技術記事メモの一覧

Cultural

[Paper Note] Vision Language Models are Confused Tourists, Patrick Amadeus Irawan+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#ComputerVision #Dataset #Evaluation #Bias #VisionLanguageModel #Robustness Issue Date: 2025-12-25 GPT Summary- 文化的次元はVLMの評価において重要だが、多様な文化的入力に対する安定性は未検証。既存の評価は単一の文化的概念に依存し、複数の文化的手がかりを考慮していない。これに対処するため、ConfusedTouristという新しい評価手法を導入し、VLMの安定性を評価。実験で、画像スタッキングの摂動下で精度が低下し、注意が気を散らす手がかりにシフトすることが明らかに。これにより、視覚的文化概念の混合がVLMに大きな影響を与えることが示され、文化的にロバストな理解の必要性が強調された。 Comment

元ポスト:

Loading…

VLMの文化的な物体の認識に関するロバスト性を全く異なる国の国旗やランドマークをルールベース、あるいはimage editingなどによって敵対的に挿入する（distractor)ことで測るベンチマークで、distractorによって性能が低下することからVLMに地理的・文化的バイアスが存在することを示した研究、のように見える。

[Paper Note] Culture Cartography: Mapping the Landscape of Cultural Knowledge, Caleb Ziems+, EMNLP'25, 2025.10

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Dataset #LanguageModel #Supervised-FineTuning (SFT) #EMNLP #DPO Issue Date: 2025-11-06 GPT Summary- LLMは文化特有の知識を必要とし、CultureCartographyという混合イニシアティブを提案。LLMが自信の低い質問をアノテーションし、人間がそのギャップを埋めることで重要なトピックに導く。CultureExplorerツールを用いた実験で、従来のモデルよりも効果的に知識を生成し、Llama-3.1-8Bの精度を最大19.2%向上させることが示された。 Comment

元ポスト:

Loading…

効率的にLLMにとって未知、かつ重要な文化的な知識バンクを作成する話な模様。アクティブラーニングに似たような思想に見える。

[Paper Note] Global PIQA: Evaluating Physical Commonsense Reasoning Across 100+ Languages and Cultures, Tyler A. Chang+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #MultiLingual #CommonsenseReasoning Issue Date: 2025-11-03 GPT Summary- 「Global PIQA」は、65カ国の335人の研究者によって構築された、100以上の言語に対応した常識推論ベンチマークであり、116の言語バリエーションを含む。多くの例が文化特有の要素に関連しており、LLMは全体で良好なパフォーマンスを示すが、リソースが限られた言語では精度が低下することが発見された。Global PIQAは、言語と文化における日常的な知識の改善の必要性を示し、LLMの評価や文化の多様性の理解に寄与することを期待されている。 Comment

dataset: https://huggingface.co/datasets/mrlbenchmarks/global-piqa-nonparallel

元ポスト:

Loading…

[Paper Note] Grounding Multilingual Multimodal LLMs With Cultural Knowledge, Jean de Dieu Nyandwi+, EMNLP'25

Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #EMNLP #PostTraining #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-08-13 GPT Summary- MLLMsは高リソース環境で優れた性能を示すが、低リソース言語や文化的エンティティに対しては課題がある。これに対処するため、Wikidataを活用し、文化的に重要なエンティティを表す画像を用いた多言語視覚質問応答データセット「CulturalGround」を生成。CulturalPangeaというオープンソースのMLLMを訓練し、文化に基づいたアプローチがMLLMsの文化的ギャップを縮小することを示した。CulturalPangeaは、従来のモデルを平均5.0ポイント上回る性能を達成。 Comment

元ポスト:

Loading…

pj page: https://neulab.github.io/CulturalGround/

VQAデータセット中の日本語データは3.1%程度で、の3つ組で構成される。wikidataから特定の文化と紐づいたエンティティ（42カ国; 人,場所,組織,アーティファクトにフォーカス）を抽出し、関連するimage dataを1--3個程度wikimediaから収集。76種類のテンプレートを用いて、draftのQAを生成し、LLMを用いて洗練（文化的な自然さ、流暢さ）させる。最終的にVLM(Qwen2.5-VL-32B/72B or Gemma-3-12B/72B-Instructを文化ごとに強い方を選択して利用)を用いてirrelevantなimage, question, answerの三つ組をフィルタリング（relevanceのスコアリングと事実情報のverification)する。

ベースモデルとして
- [Paper Note] Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages, Xiang Yue+, arXiv'24

を利用(Qwen2-7Bに対してCLIPベースのvision encoderを利用したVLM)し、Vision Encoderはfrozenし、LLMとconnector（テキストと画像のモダリティの橋渡しをする（大抵は）MLP)のみをfinetuningした。catastrophic forgettingを防ぐために事前学習データの一部を補完しfinetuningでも利用し、エンティティの認識力を高めるためにM3LSデータなるものをフィルタリングして追加している。

Finetuningの結果、文化的な多様性を持つ評価データ（e.g., [Paper Note] CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark, David Romero+, arXiv'24 Figure1のJapaneseのサンプルを見ると一目でどのようなベンチか分かる）と一般的なマルチリンガルな評価データの双方でgainがあることを確認。

VQAによるフィルタリングで利用されたpromptは下記

[Paper Note] CARE: Assessing the Impact of Multilingual Human Preference Learning on Cultural Awareness, Geyang Guo+, arXiv'25

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Alignment #Supervised-FineTuning (SFT) #MultiLingual #DPO #PostTraining Issue Date: 2025-07-04 GPT Summary- 本論文では、文化的多様性を考慮した言語モデル（LM）の訓練方法を分析し、ネイティブな文化的好みを取り入れることで、LMの文化的認識を向上させることを目指します。3,490の文化特有の質問と31,700のネイティブな判断を含むリソース「CARE」を紹介し、高品質なネイティブの好みを少量取り入れることで、さまざまなLMの性能が向上することを示します。また、文化的パフォーマンスが強いモデルはアラインメントからの恩恵を受けやすく、地域間でのデータアクセスの違いがモデル間のギャップを生むことが明らかになりました。CAREは一般に公開される予定です。 Comment

元ポスト:

Loading…

[Paper Note] CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark, David Romero+, arXiv'24

Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #QuestionAnswering #Evaluation #MultiModal #MultiLingual #VisionLanguageModel Issue Date: 2025-08-18 GPT Summary- CVQAは、文化的に多様な多言語のVisual Question Answeringベンチマークで、30か国からの画像と質問を含み、31の言語と13のスクリプトをカバー。データ収集にはネイティブスピーカーを関与させ、合計10,000の質問を提供。マルチモーダル大規模言語モデルをベンチマークし、文化的能力とバイアスを評価するための新たな基準を示す。

Sarashina2.2-Vision-3B: コンパクトかつ性能が高いVLMの公開, SB Intuitions, 2025.11

Paper/Blog Link My Issue
#Article #NLP #Blog #SmallModel #Japanese #VisionLanguageModel Issue Date: 2025-11-25 Comment

元ポスト:

Loading…

HF: https://huggingface.co/sbintuitions/sarashina2.2-vision-3b

Andrej Karpathy — AGI is still a decade away, DWARKESH PATEL, 2025.10

Paper/Blog Link My Issue
#Article #Pretraining #MachineLearning #NLP #LanguageModel #ReinforcementLearning #AIAgents #In-ContextLearning #Blog #RewardHacking #PostTraining #Diversity #Selected Papers/Blogs #PRM #Generalization #Emotion Issue Date: 2025-10-20 Comment

元ポスト:

Loading…

関連:
- In-context Steerbility: [Paper Note] Spectrum Tuning: Post-Training for Distributional Coverage and In-Context Steerability, Taylor Sorensen+, arXiv'25, 2025.10

（整理すると楽しそうなので後で関連しそうな研究を他にもまとめる）

とても勉強になる！AIに代替されない20%, 1%になるには果たして

所見:

Loading…

Nemotron-Personas-Japan: Synthesized Data for Sovereign AI, Nvidia, 2025.09

Paper/Blog Link My Issue
#Article #NLP #Dataset #MultiLingual #Japanese #One-Line Notes Issue Date: 2025-09-24 Comment

dataset: https://huggingface.co/datasets/nvidia/Nemotron-Personas-Japan

元ポスト:

Loading…

国勢調査の統計情報や名字由来netをシードとし、LLM Aによってペルソナに必要な各種属性（文化的背景、スキルと専門知識、キャリア目標と野望、趣味と興味等）を合成し、それらがgivenな状態で、複数のタイプのペルソナ（全体、職業、芸術、スポーツ）を説明するテキストを合成している模様？細かい生成手法はよくわからなかった。実世界の分布（人口統計、地理的分布、性格特性など）を反映した上でペルソナが合成されており、地域固有の人口統計、文化的背景を取り入れたソブリンAIの開発を支援するとのこと。

アメリカやインドの合成されたペルソナもある:

Loading…

MECHA-ja, llm-jp, 2025.09

Paper/Blog Link My Issue
#Article #NLP #Dataset #LanguageModel #Evaluation #Japanese Issue Date: 2025-09-07 Comment

元ポスト:

Loading…