Cultural
Issue Date: 2025-11-06 [Paper Note] Culture Cartography: Mapping the Landscape of Cultural Knowledge, Caleb Ziems+, EMNLP'25, 2025.10 GPT Summary- LLMは文化特有の知識を必要とし、CultureCartographyという混合イニシアティブを提案。LLMが自信の低い質問をアノテーションし、人間がそのギャップを埋めることで重要なトピックに導く。CultureExplorerツールを用いた実験で、従来のモデルよりも効果的に知識を生成し、Llama-3.1-8Bの精度を最大19.2%向上させることが示された。 Comment
元ポスト:
効率的にLLMにとって未知、かつ重要な文化的な知識バンクを作成する話な模様。アクティブラーニングに似たような思想に見える。
#Pocket #NLP #Dataset #LanguageModel #Evaluation #MultiLingual #CommonsenseReasoning
Issue Date: 2025-11-03 [Paper Note] Global PIQA: Evaluating Physical Commonsense Reasoning Across 100+ Languages and Cultures, Tyler A. Chang+, arXiv'25, 2025.10 GPT Summary- 「Global PIQA」は、65カ国の335人の研究者によって構築された、100以上の言語に対応した常識推論ベンチマークであり、116の言語バリエーションを含む。多くの例が文化特有の要素に関連しており、LLMは全体で良好なパフォーマンスを示すが、リソースが限られた言語では精度が低下することが発見された。Global PIQAは、言語と文化における日常的な知識の改善の必要性を示し、LLMの評価や文化の多様性の理解に寄与することを期待されている。 Comment
dataset: https://huggingface.co/datasets/mrlbenchmarks/global-piqa-nonparallel
元ポスト:
#ComputerVision #Pocket #NLP #Dataset #EMNLP #PostTraining #Selected Papers/Blogs #VisionLanguageModel
Issue Date: 2025-08-13 [Paper Note] Grounding Multilingual Multimodal LLMs With Cultural Knowledge, Jean de Dieu Nyandwi+, EMNLP'25 GPT Summary- MLLMsは高リソース環境で優れた性能を示すが、低リソース言語や文化的エンティティに対しては課題がある。これに対処するため、Wikidataを活用し、文化的に重要なエンティティを表す画像を用いた多言語視覚質問応答データセット「CulturalGround」を生成。CulturalPangeaというオープンソースのMLLMを訓練し、文化に基づいたアプローチがMLLMsの文化的ギャップを縮小することを示した。CulturalPangeaは、従来のモデルを平均5.0ポイント上回る性能を達成。 Comment
元ポスト:
pj page:
https://neulab.github.io/CulturalGround/
VQAデータセット中の日本語データは3.1%程度で、
ベースモデルとして
- [Paper Note] Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages, Xiang Yue+, arXiv'24
を利用(Qwen2-7Bに対してCLIPベースのvision encoderを利用したVLM)し、Vision Encoderはfrozenし、LLMとconnector(テキストと画像のモダリティの橋渡しをする(大抵は)MLP)のみをfinetuningした。catastrophic forgettingを防ぐために事前学習データの一部を補完しfinetuningでも利用し、エンティティの認識力を高めるためにM3LSデータなるものをフィルタリングして追加している。
Finetuningの結果、文化的な多様性を持つ評価データ(e.g., [Paper Note] CVQA: Culturally-diverse Multilingual Visual Question Answering
Benchmark, David Romero+, arXiv'24
Figure1のJapaneseのサンプルを見ると一目でどのようなベンチか分かる)と一般的なマルチリンガルな評価データの双方でgainがあることを確認。
VQAによるフィルタリングで利用されたpromptは下記
元ポスト:
#ComputerVision #Pocket #NLP #Dataset #QuestionAnswering #Evaluation #MultiModal #MultiLingual #VisionLanguageModel Issue Date: 2025-08-18 [Paper Note] CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark, David Romero+, arXiv'24 GPT Summary- CVQAは、文化的に多様な多言語のVisual Question Answeringベンチマークで、30か国からの画像と質問を含み、31の言語と13のスクリプトをカバー。データ収集にはネイティブスピーカーを関与させ、合計10,000の質問を提供。マルチモーダル大規模言語モデルをベンチマークし、文化的能力とバイアスを評価するための新たな基準を示す。 #Article #NLP #Blog #SmallModel #Japanese #VisionLanguageModel Issue Date: 2025-11-25 Sarashina2.2-Vision-3B: コンパクトかつ性能が高いVLMの公開, SB Intuitions, 2025.11 Comment
元ポスト:
HF: https://huggingface.co/sbintuitions/sarashina2.2-vision-3b
#Article #Pretraining #MachineLearning #NLP #LanguageModel #ReinforcementLearning #AIAgents #In-ContextLearning #Blog #RewardHacking #PostTraining #Diversity #Selected Papers/Blogs #PRM #Generalization #Emotion Issue Date: 2025-10-20 Andrej Karpathy — AGI is still a decade away, DWARKESH PATEL, 2025.10 Comment
元ポスト:
関連:
- In-context Steerbility: [Paper Note] Spectrum Tuning: Post-Training for Distributional Coverage and
In-Context Steerability, Taylor Sorensen+, arXiv'25, 2025.10
(整理すると楽しそうなので後で関連しそうな研究を他にもまとめる)
とても勉強になる!AIに代替されない20%, 1%になるには果たして
所見:
#Article #NLP #Dataset #MultiLingual #Japanese #One-Line Notes Issue Date: 2025-09-24 Nemotron-Personas-Japan: Synthesized Data for Sovereign AI, Nvidia, 2025.09 Comment
dataset: https://huggingface.co/datasets/nvidia/Nemotron-Personas-Japan
元ポスト:
国勢調査の統計情報や名字由来netをシードとし、LLM Aによってペルソナに必要な各種属性(文化的背景、スキルと専門知識、キャリア目標と野望、趣味と興味等)を合成し、それらがgivenな状態で、複数のタイプのペルソナ(全体、職業、芸術、スポーツ)を説明するテキストを合成している模様?細かい生成手法はよくわからなかった。実世界の分布(人口統計、地理的分布、性格特性など)を反映した上でペルソナが合成されており、地域固有の人口統計、文化的背景を取り入れたソブリンAIの開発を支援するとのこと。
アメリカやインドの合成されたペルソナもある:
#Article #NLP #Dataset #LanguageModel #Evaluation #Japanese Issue Date: 2025-09-07 MECHA-ja, llm-jp, 2025.09 Comment
元ポスト: