Tutorialに関する論文・技術記事メモの一覧

Tutorial

[Paper Note] Context Engineering 2.0: The Context of Context Engineering, Qishuo Hua+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #AIAgents #ContextEngineering Issue Date: 2025-11-05 GPT Summary- 本論文では、カール・マルクスの「人間の本質は社会関係の総体である」という考えを基に、機械と人間の相互作用における文脈の重要性を探求します。特に「コンテキストエンジニアリング」という概念を導入し、その歴史的背景や設計考慮事項を体系的に定義します。これにより、AIシステムにおけるコンテキストエンジニアリングの基盤を提供し、将来の可能性を示唆します。 Comment

元ポスト:

Loading…

[Paper Note] The Principles of Diffusion Models, Chieh-Hsin Lai+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#ComputerVision #Pocket #DiffusionModel Issue Date: 2025-10-29 GPT Summary- このモノグラフでは、拡散モデルの核心原則とその多様な定式化の起源を探ります。拡散モデリングは、データをノイズに腐敗させる前方プロセスから始まり、逆プロセスを学習してノイズをデータに戻すことを目的としています。三つの視点（変分的、スコアベース、フローベース）を通じて、ノイズ除去やデータ生成の方法を説明し、共通の基盤として時間依存の速度場を提案します。さらに、制御可能な生成や効率的な数値ソルバーについても議論し、深層学習の知識を持つ読者に拡散モデルの理解を提供します。 Comment

元ポスト:

Loading…

[Paper Note] Fundamentals of Building Autonomous LLM Agents, Victor de Lamo Castrillo+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #AIAgents #SoftwareEngineering Issue Date: 2025-10-26 GPT Summary- 本論文では、LLMsを基にしたエージェントのアーキテクチャと実装をレビューし、複雑なタスクの自動化を目指す。主要な構成要素には、知覚システム、推論システム、記憶システム、実行システムが含まれ、これらを統合することで人間の認知プロセスを模倣する高性能なソフトウェアボットの実現を示す。 Comment

元ポスト:

Loading…

言語モデルの内部機序：解析と解釈, HEINZERLING+, NLP'25, 2025.03

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Slide #Selected Papers/Blogs #reading Issue Date: 2025-10-07 Comment

元ポスト:

Loading…

[Paper Note] The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities, Venkatesh Balavadhani Parthasarathy+, arXiv'24, 2024.08

Paper/Blog Link My Issue
#MachineLearning #Pocket #NLP #LanguageModel #PostTraining Issue Date: 2025-10-17 GPT Summary- 本報告書では、大規模言語モデル（LLMs）のファインチューニングに関する理論と実践を統合的に検討し、歴史的な進化やファインチューニング手法の比較を行っています。7段階の構造化されたパイプラインを紹介し、不均衡データセットの管理やパラメータ効率の良い手法（LoRA、Half Fine-Tuning）に重点を置いています。また、PPOやDPOなどの新しいアプローチや、検証フレームワーク、デプロイ後のモニタリングについても議論し、マルチモーダルLLMsやプライバシー、説明責任に関する課題にも触れています。研究者や実務者に実用的な洞察を提供する内容です。 Comment

元ポスト:

Loading…

Reinforcement Learning: An Overview, Kevin Murphy, arXiv'24

Paper/Blog Link My Issue
#MachineLearning #Pocket #ReinforcementLearning Issue Date: 2024-12-10 GPT Summary- この原稿は、深層強化学習と逐次的意思決定に関する最新の全体像を提供し、価値ベースのRL、ポリシー勾配法、モデルベース手法、RLとLLMsの統合について簡潔に議論しています。 Comment

あのMurphy本で有名なMurphy氏の強化学習の教科書…だと…

Tutorial on Diffusion Models for Imaging and Vision, Stanley H. Chan, arXiv'24

Paper/Blog Link My Issue
#ComputerVision #Pocket #DiffusionModel Issue Date: 2024-11-17 GPT Summary- 生成ツールの成長により、テキストから画像や動画を生成する新しいアプリケーションが可能に。拡散モデルの原理がこれらの生成ツールの基盤であり、従来のアプローチの欠点を克服。チュートリアルでは、拡散モデルの基本的なアイデアを学部生や大学院生向けに解説。 Comment

いつか読まなければならない

Recommendation with Generative Models, Yashar Deldjoo+, N_A, arXiv'24

Paper/Blog Link My Issue
#RecommenderSystems #LanguageModel #GenerativeAI #DiffusionModel Issue Date: 2024-09-24 GPT Summary- 生成モデルは新しいデータを生成するAIモデルであり、GANやVAE、トランスフォーマーに基づくアーキテクチャが注目されている。特にレコメンダーシステムにおいては、Gen-RecSysが推薦の精度と多様性を向上させ、パーソナライズされたユーザー体験を提供する。本書では、深層生成モデルをID駆動モデル、LLM、マルチモーダルモデルの3つに分類し、それぞれの技術的進展を紹介。生成モデルの影響やリスクについても考察し、評価フレームワークの重要性を強調する。 Comment

生成モデルやGenerativeAIによるRecSysの教科書

Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond, Yang+, Amazon, TKDD'24

Paper/Blog Link My Issue
#Pocket #LanguageModel Issue Date: 2023-04-27 GPT Summary- 本記事は、自然言語処理（NLP）タスクにおける大規模言語モデル（LLMs）の実践的なガイドを提供し、モデルやデータ、タスクに関する洞察を示します。LLMsの概要、データの影響、知識集約型タスクや生成タスクにおける使用ケースと非使用ケースを詳述し、実用的な応用と限界を探ります。また、虚偽のバイアスや展開時の考慮事項についても言及し、研究者や実務者に役立つベストプラクティスを提供します。関連リソースは定期的に更新され、オンラインでアクセス可能です。 Comment

LLMに関するチュートリアル

encoder-onlyとまとめられているものの中には、デコーダーがあるものがあり（autoregressive decoderではない）、
encoder-decoderは正しい意味としてはencoder with autoregressive decoderであり、
decoder-onlyは正しい意味としてはautoregressive encoder-decoder
とのこと。

Loading…

Igniting Language Intelligence: The Hitchhiker's Guide From Chain-of-Thought Reasoning to Language Agents, Zhuosheng Zhang+, N_A, arXiv'23

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Chain-of-Thought Issue Date: 2023-11-21 GPT Summary- 大規模言語モデル（LLMs）は、言語知能の分野で劇的な進歩を遂げており、複雑な推論タスクにおいて高いパフォーマンスを示しています。特に、chain-of-thought（CoT）推論技術を活用することで、中間ステップを形成し、解釈可能性や制御可能性を向上させることができます。この論文では、CoT技術の基本的なメカニズムやその効果について詳しく解説し、言語エージェントの開発における応用例を紹介しています。将来の研究の展望にも触れており、初心者から経験豊富な研究者まで幅広い読者に対応しています。関連論文のリポジトリも提供されています。 Comment

CoTに関するチュートリアル論文

Challenges and Applications of Large Language Models, Jean Kaddour+, N_A, arXiv'23

Paper/Blog Link My Issue
#Survey #NLP #LanguageModel Issue Date: 2023-07-22 GPT Summary- 本論文では、大規模言語モデル（LLMs）の普及により、研究者が分野の現状を理解し、生産的になるための問題と応用成功例を確立することを目指しています。 Comment

LLMのここ数年の進化早すぎわろたでキャッチアップむずいので、未解決の課題や、すでに良い感じのアプリケーションの分野分かりづらいので、まとめました論文

コミュニティサービスにおけるレコメンデーションの変遷とMLパイプラインについて, PyCon'21

Paper/Blog Link My Issue
#RecommenderSystems #Infrastructure #python #Slide Issue Date: 2021-10-21 Comment

・ママ向けのQ&AサービスにおけるレコメンドとMLパイプラインについて紹介

◆レコメンドエンジンの変遷

　・Tensorflowで実装したMFから始まり、その後トピックを絞り込んだ上で推薦するためにLDAを活用したレコメンド、最終的にSoftmax Recommendationを開発

　　* Softmax Recommendation: https://developers.google.com/machine-learning/recommendation/dnn/softmax

　　* ユーザプロファイル（e.g. 行動ベクトル, ユーザの属性情報）等を入力とし、hidden layerをかませて最終的にアイテム次元数分のスコアベクトルを得る手法

　　* 行動ベクトル=ユーザが過去にクリックしたQ&Aだが、質問ベクトルを得るために内容テキストは利用せず行動ログ+word2vecで学習

　　* 類似質問検索による定性評価の結果良い結果、関連質問を抽出できるベクトルとなっていることを確認

　→ レコメンド手法の変遷につれ、ベンチマークを上回るようになっていった

◆MLパイプラインについて

　・AWS Step FunctionsとAmazon Sagemakerを利用

　・AWS Step Functions

　　* AWS上の様々なサービスをワークフローとして定義できる（json形式でワークフローを記述）

　・Amazon Sagemaker

　　* 機械学習向けのIDE

　　* notebook上でのデータ分析・モデル学習、実験管理や学習済みモデルのデプロイが可能

　　* Sagemaker Processingを用いることで、実行したい処理やインスタンスタイプを指定することで、notebookとは別の実行環境（コンテナ）で任意のpythonスクリプトを実行可

　　

　・ワークフローの定義=AWS Stepfunctions, スクリプト実行のリソース=Sagemaker Processingとして利用

MLパイプラインについては下記資料により詳しい情報が書かれている

https://speakerdeck.com/takapy/sagemaker-studiotostep-functionswoyong-itemlopshefalse-bu-wota-michu-sou

WikiAsp: A Dataset for Multi-domain Aspect-based Summarization, Hayashi+, CMU, TACL'21, NLPコロキウム

Paper/Blog Link My Issue
#DocumentSummarization #NLP #Dataset #TACL Issue Date: 2021-10-20 Comment

◆Aspect-based summarizationのモチベーション

・same source対して、異なるユーザニーズが存在するので、ニーズに関して要約したい

◆Aspect: あるobjectに対する、attributeのようなものを指定？

　object: Attention Is All You Need

　aspect: Multi-Head Attention

◆Aspect Based Summarizationの歴史

・はじめは”feature”という文言で研究され（04年頃？）

・続いて*keywords*という単語で研究され

・その後Aspectという文言で研究されるようになった

・2008年頃にMcDonaldsらがAspect-Based Summarizationを提案した

・2014年以後？とかにNeural Basedな手法が盛んに研究

◆WikiAspデータセットについて

・Wikipediaを使ったAspect-based dataset

・Wikipediaを書かれるのに利用されたsource document（wikipediaにソースとして引用されているもの）に対し、aspectを各節の見出しとみなし、節のテキストを要約文とみなすことで、データセット生成

・他のAspect-basedデータセットと異なり、ソースデータが長く、要約長も5~6倍程度

・ドメイン数が他データセットは5,6程度に対し、20と膨大

◆ベースラインとして2-stageモデルを採用

first-stage: ソーステキストからROBERTaベースドなclassifierを用いて、sentencesから内包するAspectを閾値を用いて決定

　　　　　それらをgrouped sentencesとする

two-stage: 各aspectごとにまとまったテキスト集合に対して、要約モデルを適用し、要約を実施する

・要約モデルはUnsupervisedな手法であるTextRankと、Supervisedな手法であるBERTベースな手法を採用

・ドメインごとに評価した結果を見ると、BERTが強いドメインがある一方で、TextRankが強いドメインもあった

　-> Extractiveな形で要約されているドメインではTextRankが強く、Abstractiveに要約されているドメインではBERTが強い

　-> またBERTは比較的短い要約であればTextRankよりもはるかに良いが、長い要約文になるとTextRankとcomprable（あるいはTextRankの方が良い）程度の性能になる

・ROUGE-2の値がsentence-basedなORACLEを見た時に、他データセットと比較して低いので、Abstractiveな手法が必要なデータセット？

（後からのメモなので少しうろ覚えな部分あり）

Q. ROUGE-2が30とかって直観的にどのくらいのレベルのものなの？ROUGE-2が30とか40とかは高い

・最先端の要約モデルをニュース記事に適用すると、35~40くらいになる。

・このレベルの数値になると、人間が呼んでも違和感がないレベルの要約となっている

Q. 実際に要約文をチェックしてみて、どういう課題を感じるか？

A. Factual Consistencyがすぐに目につく問題で、特にBERTベースな要約文はそう。TextRankはソース文書がノイジーなので、ソース文章を適当に拾ってきただけではFactual Consistencyが良くない（元の文書がかっちりしていない）。流暢性の問題はAbstractiveモデルだと特に問題なくBERT-baseでできる。Aspect-based要約のエラー例としてAspectに則っていないということがある。たとえばオバマの大統領時代の話をきいているのに、幼少時代の話をしているとか。Aspect情報をうまくモデルを扱えていないという点が課題としてある。

出典元（リアルタイムに聴講）: 第13回 WikiAsp: A Dataset for Multi-domain Aspect-based Summarization, NLPコロキウム
https://youtu.be/3PIJotX6i_w?si=hX5pXwNL-ovkGSF5

Explainable AI in Industry, KDD'19

Paper/Blog Link My Issue
#RecommenderSystems #Explanation #Slide #SIGKDD Issue Date: 2019-08-19

[Paper Note] Representation Learning on Graphs: Methods and Applications, William L. Hamilton+, arXiv'17

Paper/Blog Link My Issue
#NeuralNetwork #GraphBased #Pocket Issue Date: 2019-05-31 GPT Summary- グラフ上の機械学習は多様な応用があり、主な課題はグラフ構造の表現方法を見つけることです。従来はユーザー定義のヒューリスティックに依存していましたが、最近では深層学習や非線形次元削減を用いた自動学習アプローチが増加しています。本稿では、行列分解、ランダムウォーク、グラフニューラルネットワークに基づく表現学習の進展をレビューし、ノードとグラフの埋め込み方法を統一的なフレームワークで説明し、応用と今後の研究方向を示します。

Deep Learning for Personalized Search and Recommender Systems, KDD'17

Paper/Blog Link My Issue
#RecommenderSystems #NeuralNetwork #InformationRetrieval #Slide #SIGKDD Issue Date: 2018-02-16

Deep Learning: Practice and Trends, NIPS'17

Paper/Blog Link My Issue
#NeuralNetwork #Slide #NeurIPS Issue Date: 2018-02-06 Comment

基礎から最新まで幅広いトピックがまとまったtutorial

[Paper Note] An Overview of Multi-Task Learning in Deep Neural Networks, Sebastian Ruder, arXiv'17

Paper/Blog Link My Issue
#MachineLearning #Pocket #MultitaskLearning Issue Date: 2018-02-05 GPT Summary- マルチタスク学習（MTL）の深層ニューラルネットワークにおける概要を提供し、一般的な手法や文献を紹介。MTLの機能を明らかにし、補助タスク選択のガイドラインを示すことで、実務者のMTL適用を支援することを目指す。

ゼロから始めるニューラルネットワーク機械翻訳, 中澤敏明, NLP'17

Paper/Blog Link My Issue
#NeuralNetwork #MachineTranslation #NLP Issue Date: 2018-01-15

[Paper Note] Generative Adversarial Networks: An Overview, Antonia Creswell+, IEEE-SPM'17, 2017.10

Paper/Blog Link My Issue
#NeuralNetwork #ComputerVision #Pocket #GenerativeAdversarialNetwork Issue Date: 2017-12-28 GPT Summary- GANは、注釈なしのデータで深い表現を学習する手法で、競争プロセスを通じて逆伝播信号を導出します。画像合成やスタイル転送など多様な応用が可能です。本レビューは、信号処理コミュニティ向けにGANの概要を提供し、トレーニング方法や残された課題についても言及します。

[Paper Note] An overview of gradient descent optimization algorithms, Sebastian Ruder, arXiv'16

Paper/Blog Link My Issue
#NeuralNetwork #MachineLearning #Pocket #NLP #Optimizer Issue Date: 2025-08-02 GPT Summary- 勾配降下法の最適化アルゴリズムの挙動を理解し、活用するための直感を提供することを目的とした記事。さまざまなバリエーションや課題を要約し、一般的な最適化アルゴリズム、並列・分散設定のアーキテクチャ、追加戦略をレビュー。 Comment

元ポスト:

Loading…

勉強用にメモ

Tutorial: Deep Reinforcement Learning, David Silver, ICML'16

Paper/Blog Link My Issue
#NeuralNetwork #MachineLearning #Slide #ICML Issue Date: 2018-02-22

Generative Adversarial Networks （GANS）, NIPS'16

Paper/Blog Link My Issue
#NeuralNetwork #GenerativeAdversarialNetwork #NeurIPS Issue Date: 2018-02-06 Comment

Goodfellow氏によるGANチュートリアル

[Paper Note] An overview of gradient descent optimization algorithms, Sebastian Ruder, arXiv'16

Paper/Blog Link My Issue
#NeuralNetwork #MachineLearning #Pocket #Optimizer Issue Date: 2018-02-05 GPT Summary- 勾配降下最適化アルゴリズムの理解を深めるため、さまざまなバリエーションや課題を要約し、一般的なアルゴリズムを紹介。並列・分散設定のアーキテクチャや最適化戦略も検討。

Neural Network for Sentiment Analysis, Zhang+, EMNLP'16

Paper/Blog Link My Issue
#NeuralNetwork #SentimentAnalysis #NLP #Slide #EMNLP Issue Date: 2018-01-01 GPT Summary- 感情分析におけるニューラルネットワークモデルの紹介を行うチュートリアル。単語埋め込み、シーケンスモデル、ツリー構造モデルの数学的側面と利用方法を議論し、感情指向の埋め込みや文・文書レベルの感情分析に焦点を当てる。内容は3つのセクションに分かれ、基本概念から具体的なモデル（CNN、RNN、LSTMなど）までをカバーする。

[Paper Note] Online Learning to Rank for Information Retrieval, Grotov+, SIGIR'16

Paper/Blog Link My Issue
#InformationRetrieval #LearningToRank #Online/Interactive #SIGIR Issue Date: 2018-01-01

AdomaviciusらによるContext Aware Recsysチュートリアル

Practical Online Retrieval Evaluation, SIGIR'11, Tutorial

Paper/Blog Link My Issue
#InformationRetrieval #OnlineEvaluation #Slide #SIGIR Issue Date: 2018-01-01

10,924x: The Instability Bomb at 1.7B Scale, TayKolasinski, 2026.01

Paper/Blog Link My Issue
#Article #MachineLearning #NLP #LanguageModel #Blog #Selected Papers/Blogs #Reproducibility #ResidualStream Issue Date: 2026-01-19 Comment

元ポスト:

Loading…

part1: https://taylorkolasinski.com/notes/mhc-reproduction/

HC, mHCの説明が美しい図解と数式で説明されている。分かりやすい！

HCの課題とmHCがどのように解決したかを数式的、直感的に理解でき非常に有用

A Visual Introduction to Rectified Flows, Alec Helbling, 2026.01

Paper/Blog Link My Issue
#Article #ComputerVision #MachineLearning #Blog #read-later #FlowMatching #RectifiedFlow Issue Date: 2026-01-19 Comment

元ポスト:

Loading…

Demystifying evals for AI agents, Anthropic, 2026.01

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Evaluation #Blog #Selected Papers/Blogs Issue Date: 2026-01-10 Comment

元ポスト:

Loading…

Production-Grade Agentic AI System, FareedKhan-dev, 2025.12

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #SoftwareEngineering #read-later Issue Date: 2026-01-03 Comment

元ポスト:

Loading…

Deriving the DPO Loss from First Principles, aayush garg, 2025.12

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #Blog #DPO #read-later Issue Date: 2025-12-31 Comment

元ポスト:

Loading…

Deriving the PPO Loss from First Principles, aayush garg, 2025.12

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #Blog #read-later Issue Date: 2025-12-27 Comment

元ポスト:

Loading…

【LLM強化学習④】強化学習のコツ（後編）, Yuu Jinnai, JSAI公式チャンネル

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #Video #read-later Issue Date: 2025-12-25 Comment

元ポスト:

Loading…

Prompt caching: 10x cheaper LLM tokens, but how?, Sam Rose, ngrok, 2025.12

Paper/Blog Link My Issue
#Article #NLP #LanguageModel Issue Date: 2025-12-22 Comment

元ポスト:

Loading…

LLMの基礎を勉強してもらう時に用語説明、コード、数式だけでなく、分かりやすい図解やmatrixの具体例まで含めて解説されているので非常に良さそう。

Equipping agents for the real world with Agent Skills, Anthropic, 2025.10

Paper/Blog Link My Issue
#Article #NLP #AIAgents #Blog #Selected Papers/Blogs #AgentSkills Issue Date: 2025-12-21

2025 Open Models Year in Review, Interconnects AI, 2025.12

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog Issue Date: 2025-12-15 Comment

元ポスト:

Loading…

深層強化学習アルゴリズムまとめ, Shion Honda, 2020.09

Paper/Blog Link My Issue
#Article #MachineLearning #ReinforcementLearning #Selected Papers/Blogs #reading Issue Date: 2025-12-14

言語生成の強化学習をやっていく（手法紹介 REINFORCE編）, Seitaro Shinagawa, 2020.12

Paper/Blog Link My Issue
#Article #NLP #ReinforcementLearning #Blog Issue Date: 2025-12-14

The LLM Evaluation Guidebook, Fourrier+, HuggingFace, 2025.12

Paper/Blog Link My Issue
#Article #LanguageModel #Evaluation #Blog #read-later #Selected Papers/Blogs Issue Date: 2025-12-05 Comment

元ポスト:

Loading…

LLMのための強化学習手法 2025 -PPO・DPO・GRPO・DAPO一気に理解する-, Keisuke Kamata, 2025.11

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #Blog #Selected Papers/Blogs Issue Date: 2025-11-29 Comment

元ポスト:

Loading…

TAURO Project, note, 2024.10

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Blog #ScientificDiscovery #Japanese #Robotics Issue Date: 2025-11-20 Comment

元ポスト:

Loading…

👀👀👀

Distributed Inference Serving - vLLM, LMCache, NIXL and llm-d, Mikiya Michishita, 2025.06

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #LLMServing #Slide #SoftwareEngineering #read-later #Selected Papers/Blogs Issue Date: 2025-11-20 Comment

元ポスト:

Loading…

vLLM, paged attention, prefix caching, continuous batching, 分散環境でのKV Cacheの共有, ...おおお、、読まねば

[IBIS 2025] 深層基盤モデルのための強化学習驚きから理論にもとづく納得へ, Akifumi Wachi, 2025.11

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #Slide #Selected Papers/Blogs Issue Date: 2025-11-15 Comment

元ポスト:

Loading…

ACL2025@ウィーン参加報告, shirotaro, 2025.10

Paper/Blog Link My Issue
#Article #NLP #Blog #ACL Issue Date: 2025-11-15

Mapping LLMs with Sparse Autoencoders, Hussein+, 2025.11

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #One-Line Notes #SparseAutoEncoder Issue Date: 2025-11-06 Comment

SparseAutoEncoderを用いた機械学習モデルの特徴の可視化方法に関するチュートリアル

Do we still need geometry for Visual Localization and Mapping?, Paul-Edouard Sarlin, 50th Pattern Recognition and Computer Vision Colloquium - CVUT, 2025.10

Paper/Blog Link My Issue
#Article #ComputerVision #Slide #ObjectLocalization #Geometric #Mapping Issue Date: 2025-11-04 Comment

元ポスト:

Loading…

進化する大規模言語モデル評価: Swallowプロジェクトにおける実践と知見, Naoaki Okazaki, 2025.10

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Evaluation #Slide #One-Line Notes Issue Date: 2025-11-02 Comment

元ポスト:

Loading…

LLMの評価は些細な評価設定の違いで大きな変動が生じるだけでなく、事後学習済みモデルやreasoningモデルが主流になってきた現在では評価方法もアップデートが必要という話。たとえばreasoningモデルはfew-shotで評価すると性能が低下することが知られているなど。

戦えるAIエージェントの作り方, Takuya Akiba, SakanaAI, 2025.10

Paper/Blog Link My Issue
#Article #AIAgents #Slide #Test-Time Scaling #One-Line Notes Issue Date: 2025-11-01 Comment

元ポスト:

Loading…

SakanaAIの研究を中心に、特に推論時スケーリング（test time scaling)の話が紹介されている。

LLM-jp-3 and beyond: Training Large Language Models, Yusuke Oda, NII LLMC, 2025.10

Paper/Blog Link My Issue
#Article #Pretraining #NLP #LanguageModel #Slide #Japanese Issue Date: 2025-11-01 Comment

元ポスト:

Loading…

The Smol Training Playbook: The Secrets to Building World-Class LLMs, Allal+, HuggingFace, 2025.10

Paper/Blog Link My Issue
#Article #Pretraining #NLP #Dataset #LanguageModel #Infrastructure #PostTraining #Selected Papers/Blogs Issue Date: 2025-10-31 Comment

元ポスト:

Loading…

Everything About Transformers, Krupa Dave, 2025.10

Paper/Blog Link My Issue
#Article #NLP #Transformer #Blog #One-Line Notes Issue Date: 2025-10-30 Comment

元ポスト:

Loading…

ざっと見た感じtransformerの基本的な内容の丁寧な解説に見える。literature(RNNや、LSTM、seq2seqなど）、self/cross-attention,LayerNorm, ResidualConnection, PositionalEncodingといった話の基礎が図解付きで説明されている。

From Egocentric Perception to Embodied Intelligence: Building the World in First Person, Ziwei Liu, 2025.10

Paper/Blog Link My Issue
#Article #ComputerVision #ICCV Issue Date: 2025-10-29 Comment

元ポスト:

Loading…

Multimodal Reasoning for Human-Centric Generative Models, Ziwei Liu, 2025.10

Paper/Blog Link My Issue
#Article #ComputerVision #ICCV Issue Date: 2025-10-29 Comment

元ポスト:

Loading…

Native Multimodal Models: Architecture, Post-Training, and Evaluation, Ziwei Liu, 2025.10

Paper/Blog Link My Issue
#Article #ComputerVision #MultiModal #ICCV Issue Date: 2025-10-29 Comment

元ポスト:

Loading…

LangGraph と NeMo Agent Toolkit ではじめる ReAct エージェント, Masaomi Tokunaga+, 2025.10

Paper/Blog Link My Issue
#Article #AIAgents #Blog Issue Date: 2025-10-27 Comment

元ポスト:

Loading…

langchain, langgraphを用いたReActエージェントの実装方法のチュートリアルと、さまざまなフレームワークで記述されたエージェントの差分を吸収して統一されたプラットフォーム上でエージェントを実装できる（framework-agnosticな)NeMo Agent Toolkitによる実装

ReAct:
- REACT : SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS, Yao+, Princeton University and Google brain, ICLR'23

Generative Modeling by Estimating Gradients of the Data Distribution, Yang Song, 2021.05

Paper/Blog Link My Issue
#Article #ComputerVision #MachineLearning #DiffusionModel #read-later #ScoreMatching Issue Date: 2025-10-20 Comment

元ポスト:

Loading…

Context Engineering in Manus, Lance's Blog, 2025.10

Paper/Blog Link My Issue
#Article #NLP #AIAgents #Blog #ContextEngineering #One-Line Notes Issue Date: 2025-10-18 Comment

元ポスト:

Loading…

- Reduce
- Offload
- Isolate

図解つきで各コンセプトについて非常に詳細に記述されている。最後のConclusionを見ればコンパクトに概要をつかめる。

State of VLA Research at ICLR 2026, Moritz Reuss, 2025.10

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Robotics #VisionLanguageActionModel Issue Date: 2025-10-16 Comment

元ポスト:

Loading…

Building Brain-Like Memory for AI | LLM Agent Memory Systems, Adam Lucek, 2025.01

Paper/Blog Link My Issue
#Article #NLP #AIAgents #Video #memory Issue Date: 2025-10-13 Comment

元ポスト:

Loading…

A History of Large Language Models, Gregory Gundersen, 2025.10

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #read-later Issue Date: 2025-10-11 Comment

元ポスト:

Loading…

OpenAI DevDay 2025 発表まとめ, ぬこぬこ, 2025.10

Paper/Blog Link My Issue
#Article #ChatGPT #Blog Issue Date: 2025-10-08 Comment

元ポスト:

Loading…

PFN LLMセミナー, PFN, 2025.10

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #LLMServing #Japanese #PostTraining Issue Date: 2025-10-05 Comment

元ポスト:

Loading…

Replay BufferがPolicy Gradientで使えない理由, piqcy, 2019.03

Paper/Blog Link My Issue
#Article #MachineLearning #ReinforcementLearning #One-Line Notes #ReplayBuffer Issue Date: 2025-10-04 Comment

Policy Gradientに基づいたアルゴリズムは（たとえばREINFORCE系）、現在のポリシーに基づいて期待値を最大化していくことが前提になるため、基本的にはリプレイバッファが使えないが（過去の経験が影響すると現在の戦略の良さがわからなくなる）、工夫をすると使えるようになるよ、といった話の解説

Effective context engineering for AI agents, Anthropic, 2025.09

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #SoftwareEngineering #read-later #Selected Papers/Blogs #ContextEngineering #One-Line Notes Issue Date: 2025-10-04 Comment

元ポスト:

Loading…

AnthropicによるContextEngineeringに関するブログ。
ざーっとみた感じ基礎的な定義からなぜ重要なのか、retrievalの活用、longnhorizon taskでの活用、compaction(summarization)など、幅広いトピックが網羅されているように見える。

所見:

Loading…

Build A Reasoning Model （From Scratch）, Sebastian Raschka, 2025.05

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #One-Line Notes Issue Date: 2025-09-29 Comment

元ポスト:

Loading…

reasoningモデルに関するpyTorchによるフルスクラッチでの実装と丁寧な解説つきのNotebookが公開されており内部の基礎的な挙動を理解するためにとても良さそう。

LoRAの進化：基礎から最新のLoRA-Proまで , 松尾研究所テックブログ, 2025.09

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) #Blog #PEFT(Adaptor/LoRA) #PostTraining Issue Date: 2025-09-22 Comment

元ポスト:

Loading…

Flow Matching in 5 Minutes, wh., 2025.07

Paper/Blog Link My Issue
#Article #MachineLearning #read-later #FlowMatching Issue Date: 2025-09-15 Comment

元ポスト:

Loading…

Context Engineering - Short-Term Memory Management with Sessions from OpenAI Agents SDK, OpenAI, 2025.09

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Blog #ContextEngineering Issue Date: 2025-09-11 Comment

元ポスト:

Loading…

All of Statistics - A Concise Course in Statistical Inference, Larry Wasserman, Springer Science & Business Media, 2013

Paper/Blog Link My Issue
#Article Issue Date: 2025-09-08 Comment

元ポスト:

Loading…

とても良い統計学の教科書らしい。勉強したい

オープンデータセットのライセンスガイド, サナミ, 2024.12

Paper/Blog Link My Issue
#Article #Dataset #Blog Issue Date: 2025-09-07

【論文解説】高速・高品質な生成を実現するFlow Map Models（Part 1: 概要編）, Masato Ishii （Sony AI）, 2025.09

Paper/Blog Link My Issue
#Article #ComputerVision #MachineLearning #Video #read-later Issue Date: 2025-09-04

つくって納得、つかって実感！大規模言語モデルことはじめ, Recruit, 2025.08

Paper/Blog Link My Issue
#Article #NLP #LanguageModel Issue Date: 2025-08-29 Comment

元ポスト:

Loading…

LLM入門にとても良さそう

The Bitter Lesson for RL: Verification as the key to Reasoning LLMs, Rishabh Agarwal, 2025.06

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #Slide #PostTraining #read-later #RLVR Issue Date: 2025-08-26 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

Best Practices for Building Agentic AI Systems: What Actually Works in Production, Shayan Taslim, 2025.08

Paper/Blog Link My Issue
#Article #AIAgents #Blog Issue Date: 2025-08-25 Comment

元ポスト:

Loading…

チュートリアル：Mamba, Vision Mamba （Vim）, Hironobu Fujiyoshi+, 2024.11

Paper/Blog Link My Issue
#Article #NLP #SSM (StateSpaceModel) Issue Date: 2025-08-14

Synthetic Data in the Era of LLMs, Tutorial at ACL 2025

Paper/Blog Link My Issue
#Article #LanguageModel #SyntheticData #Slide #ACL #Selected Papers/Blogs Issue Date: 2025-08-06 Comment

元ポスト:

Loading…

LLM Servingを支える技術, Kotoba Technologies, 2025.07

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #LLMServing #SoftwareEngineering #read-later #Selected Papers/Blogs Issue Date: 2025-07-22 Comment

こちらも参照のこと:
- LLM推論に関する技術メモ, iwashi.co, 2025.07

LLM推論に関する技術メモ, iwashi.co, 2025.07

Paper/Blog Link My Issue
#Article #Metrics #NLP #LanguageModel #LLMServing #MoE(Mixture-of-Experts) #SoftwareEngineering #Selected Papers/Blogs #Parallelism #Inference #Batch Issue Date: 2025-07-21 Comment

```
メモリ (GB) = P × (Q ÷ 8) × (1 + オーバーヘッド)

- P：パラメータ数（単位は10億）
- Q：ビット精度（例：16、32）、8で割ることでビットをバイトに変換
- オーバーヘッド（％）：推論中の追加メモリまたは一時的な使用量（例：KVキャッシュ、アクティベーションバッファ、オプティマイザの状態）
```

↑これ、忘れがちなのでメモ…

すごいメモだ…勉強になります

[Personal Note] LLM-as-a-judge _ Reward Model

Paper/Blog Link My Issue
#Article #LLM-as-a-Judge #RewardModel Issue Date: 2025-07-17

advanced-mcp-features, epicweb-dev, 2025.06

Paper/Blog Link My Issue
#Article #LanguageModel #Coding #SoftwareEngineering #MCP Issue Date: 2025-07-14 Comment

MCPの勉強に良いかもしれないのでメモ

Normalizing Flow入門第1回変分推論, Tatsuya Yatagawa, 2021.01

Paper/Blog Link My Issue
#Article #read-later #NormalizingFlow Issue Date: 2025-07-09 Comment

この辺のポストも合わせて理解したい:

Loading…

SmolLM3: smol, multilingual, long-context reasoner, HuggingFace, 2025.07

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #LongSequence #SmallModel #MultiLingual #OpenWeight #OpenSource #Selected Papers/Blogs Issue Date: 2025-07-09 Comment

元ポスト:

Loading…

SmolLM3を構築する際の詳細なレシピ(アーキテクチャ、データ、data mixture, 3 stageのpretraining(web, code, mathの割合と品質をステージごとに変え、stable->stable->decayで学習), midtraining(long context->reasoning, post training(sft->rl), ハイブリッドreasoningモデルの作り方、評価など)が説明されている

学習/評価スクリプトなどがリリース:

Loading…

LLM-jp-3.1 シリーズ instruct4 の公開, LLM-jp, 2025.05

Paper/Blog Link My Issue
#Article #Pretraining #NLP #Dataset #LanguageModel #Evaluation #Blog #OpenWeight #Japanese #PostTraining Issue Date: 2025-06-25 Comment

Q-learning is not yet scalable, Seohong Park, UC Berkeley, 2025.06

Paper/Blog Link My Issue
#Article #ReinforcementLearning #Blog #Off-Policy #On-Policy Issue Date: 2025-06-19 Comment

元ポスト:

Loading…

on-policy RLでは、現在の状態からポリシーに従ってアクションを選択して、実際に選択したアクションのrewardとQ値をシグナルにしてポリシーを更新するけど、off-policy RLでは、未来において現在の（Q関数で）Q値が最大となるアクションを選択した場合に得られる価値はどんなもん？というQ関数の学習が甘い状態だととあるアクションを過大評価してしまう（=バイアス）ようなシグナルに基づいて更新されるから、系列が長くなるとバイアスが蓄積して適切なQ関数が学習できなくなってdepth方向にスケールしづらいんだよ、という話っぽい？

2025年度人工知能学会全国大会チュートリアル講演「深層基盤モデルの数理」, Taiji Suzuki, 2025.05

Paper/Blog Link My Issue
#Article #Pretraining #MachineLearning #NLP #LanguageModel #Transformer #Chain-of-Thought #In-ContextLearning #Attention #DiffusionModel #SSM (StateSpaceModel) #Scaling Laws #PostTraining Issue Date: 2025-05-31 Comment

元ポスト:

Loading…

【DL輪読会】 Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models, Deep Learning JP, 2025.05

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #DiffusionModel #Slide Issue Date: 2025-05-24 Comment

元ポスト:

Loading…

Masked Diffusion Modelの進展, Deep Learning JP, 2025.03 でLiteratureをざっくり把握してからこちらを読むのが良さそう。

Masked Diffusion Modelの進展, Deep Learning JP, 2025.03

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #DiffusionModel #Slide Issue Date: 2025-05-24 Comment

元ポスト:

Loading…

スライド中のARのようにKV Cacheが使えない問題に対処した研究が
- dKV-Cache: The Cache for Diffusion Language Models, Xinyin Ma+, arXiv'25

この辺はdLLMが有望であれば、どんどん進化していくのだろう。

ACL 2024 参加報告, 張+, 株式会社サイバーエージェント AI Lab, 2024.08

Paper/Blog Link My Issue
#Article #Slide #ACL Issue Date: 2025-05-11 Comment

業界のトレンドを把握するのに非常に参考になる:
- Reasoning, KnowledgeGraph, KnowledgeEditing, Distillation
- PEFT, Bias, Fairness, Ethics
- Multimodal(QA, Benchmarking, Summarization)
などなど。

投稿数5000件は多いなあ…

研究者向けの技術研修資料を公開します, CyberAgent, 2025.04

Paper/Blog Link My Issue
#Article #Blog Issue Date: 2025-04-18 Comment

気になる

The State of LLM Reasoning Models, Sebastian Raschka, 2025.03

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #Reasoning #Test-Time Scaling Issue Date: 2025-03-09

Advanced RAG Techniques: Elevating Your Retrieval-Augmented Generation Systems, NirDiamant, 2025.01

Paper/Blog Link My Issue
#Article #InformationRetrieval #NLP #RAG(RetrievalAugmentedGeneration) #Repository Issue Date: 2025-01-05 Comment

元ポスト:

Loading…

RAGのための細かなテクニックが（コードのサンプルへのリンク付きで）大量にまとまっている。かなり頻繁に更新れているようで非常に良さそう

MHA vs MQA vs GQA vs MLA, Zain ul Abideen, 2024.07

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Attention #Blog Issue Date: 2024-12-28 Comment

DeepSeekで使われているMulti Head Latent Attention（MLA）ってなんだ？と思い読んだ。端的に言うと、GQAやMQAは、KVのヘッドをそもそも減らしてKV Cacheを抑えよう、という手法だったが、MLAはKVを低ランクなベクトルに圧縮して保持し、使う時に復元するといった操作をすることで、MHAのパフォーマンスを落とすことなく（むしろ上がるらしい？）、利用するKV Cacheで利用するメモリを大幅に減らせるという手法らしい。

- GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints, Joshua Ainslie+, N/A, arXiv'23

MQA, GQAの概要については上記参照のこと。

LLMを数学タスクにアラインする手法の系譜 - GPT-3からQwen2.5まで, bilzard, 2024.12

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #Chain-of-Thought #Reasoning #Mathematics #PostTraining Issue Date: 2024-12-27 Comment

- Training Verifiers to Solve Math Word Problems, Karl Cobbe+, arXiv'21

において、数学においてモデルのパラメータ数のスケーリングによって性能改善が見込める学習手法として、モデルとは別にVerifierを学習し、モデルが出力した候補の中から良いものを選択できるようにする、という話の気持ちが最初よくわからなかったのだが、後半のなぜsample&selectがうまくいくのか？節を読んでなんとなく気持ちが理解できた。SFTを進めるとモデルが出力する解放の多様性が減っていくというのは、興味深かった。

しかし、特定の学習データで学習した時に、全く異なるUnseenなデータに対しても解法は減っていくのだろうか？という点が気になった。あとは、学習データの多様性をめちゃめちゃ増やしたらどうなるのか？というのも気になる。特定のデータセットを完全に攻略できるような解法を出力しやすくなると、他のデータセットの性能が悪くなる可能性がある気がしており、そうするとそもそもの1shotの性能自体も改善していかなくなりそうだが、その辺はどういう設定で実験されているのだろうか。

たとえば、
- Beyond Full Fine-tuning: Harnessing the Power of LoRA for Multi-Task Instruction Tuning, Xin+, LREC-COLING'24

などでは、

- Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks, Yizhong Wang+, N/A, EMNLP'22

のような1600を超えるようなNLPタスクのデータでLoRAによりSFTすると、LoRAのパラメータ数を非常に大きくするとUnseenタスクに対する性能がfull-parameter tuningするよりも向上することが示されている。この例は数学に特化した例ではないが、SFTによって解法の多様性が減ることによって学習データに過剰適合して汎化性能が低下する、というのであれば、この論文のことを鑑みると「学習データにoverfittingした結果他のデータセットで性能が低下してしまう程度の多様性の学習データしか使えていないのでは」と感じてしまうのだが、その辺はどうなんだろうか。元論文を読んで確認したい。
とても勉強になった。

記事中で紹介されている
> LLMを使って複数解法の候補をサンプリングし、その中から最適な1つを選択する

のルーツは Training Verifiers to Solve Math Word Problems, Karl Cobbe+, arXiv'21 とのことなので是非読みたい。

この辺はSelf-Consistency [Paper Note] Self-Consistency Improves Chain of Thought Reasoning in Language Models, Xuezhi Wang+, ICLR'23, 2022.03 あたりが最初なのかと思っていた。

Stanford CS229 I Machine Learning I Building Large Language Models （LLMs）, StanfordUnivercity, 2024.09

Paper/Blog Link My Issue
#Article #Pretraining #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #Video Issue Date: 2024-12-25 Comment

スタンフォード大学によるLLM構築に関する講義。事前学習と事後学習両方ともカバーしているらしい。

国際会議ACL2024参加報告, Masato Mita, Cyber Agent, 2024.12

Paper/Blog Link My Issue
#Article #NLP Issue Date: 2024-12-15

GoogleCloudPlatform_generative-ai, Google, 2024.12

Paper/Blog Link My Issue
#Article #GenerativeAI #Repository Issue Date: 2024-12-12 Comment

Google Cloudで生成AI（Gemini+Vertex AI）を動かすためのサンプルコード集

元ポスト:

Loading…

エンジニア研修まとめ, gcchaan, 2024.11

Paper/Blog Link My Issue
#Article Issue Date: 2024-11-27 Comment

様々な企業のエンジニアの新卒研修の資料などがまとまっている。学術機関の講義なども含まれている。現在も更新されている模様。
量がすごい。

チュートリアル：Mamba, Vision Mamba （Vim）, Hironobu Fujiyoshi, 2024.11

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #SSM (StateSpaceModel) Issue Date: 2024-11-27

LLM Prompt Tuning Playbook, 2024.11

Paper/Blog Link My Issue
#Article #NLP #Prompting Issue Date: 2024-11-13 Comment

- Prompt-Engineering-Guide, DAIR.AI も参照のこと

RAGの改善方法に関する情報のまとめ（再掲）, GENZITSU, 2023.10

Paper/Blog Link My Issue
#Article #InformationRetrieval #NLP #RAG(RetrievalAugmentedGeneration) Issue Date: 2024-11-07

システム開発プロジェクト応用第一第5,6回 Gitによるバージョン管理, 内田公太, 2020.01

Paper/Blog Link My Issue
#Article #Video #VCS #git Issue Date: 2024-11-04 Comment

VCSの歴史から原理、実用的な使い方まで、Gitについて体系的にまとまっている。普段何気なく使っているが、改めて勉強すると、なるほど、と思うことが多い。

- VCSの歴史、モチベーション（複数並列するバージョンを適切に管理したい）
- ワークツリー、インデックス、リポジトリ（HEAD）の違い
- 基本的なgitコマンドから、普段あまり使わないハンク（hunk）の選択的なaddなどのコマンド
- コミットオブジェクト（ワークツリーのスナップショットを保持したもの≠前回のコミットに対する差分）
- HEAD/Detached HEADの原理
- Gitタグ
- checkoutの原理（ワークツリーとインデックスをHEADの内容に更新する）
- ブランチ、ブランチとHEADの関係性
- マージ方式（2way マージ、3wayマージ）
　- 2wayマージは元ファイルを参照しないのでマージ時に特定の編集がなかったことになってしまう）
　- 3wayマージは元ファイルも見て差分を計算するのでこのようなことが起こらない
- 競合の原理、競合解決時のファイル内容
　- Fast-Forwardマージ（ポインタを動かすだけで事足りる場合に利用）
- cherry pick（任意のコミットをとってくる）
　- （cherry pickを連続して利用する）リベース（ベースを付け替える操作）
　- 歴史を修正する
　　- git reflogで起点とするコミットIDを見つけ、git rebase -iでコミット順変更orメッセージ変更、git commit --amendでコミット修正
- 状態のリセット
　- soft: HEADを指定したコミットにリセット
　- mixed: インデックスをリセット
　- hard: インデックスとワークツリーをリセット
- git stash
- コミット粒度とメッセージ
　- 単一の関心事項のみを含むような粒度でコミットしよう（一言で説明できる粒度）
　　- cherry pickが容易になる
　　- 別ブランチの脆弱性への対応のみを適用したい、など
　　- 現在形で書く。そうすると、後からcherry pickするときに内容の判断をしやすい。
　

神講義

LLMの効率化・高速化を支えるアルゴリズム, Tatsuya Urabe, 2024.09

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #Pocket #LanguageModel Issue Date: 2024-09-25

ml-engineering

Paper/Blog Link My Issue
#Article #ComputerVision #MachineLearning #NLP #LanguageModel #Repository Issue Date: 2024-09-07 Comment

LLMやVLMを学習するためのツールやノウハウがまとめられたリポジトリ

大規模言語モデル（LLM）の技術と最新動向, Ikuya Yamada, 2024.06

Paper/Blog Link My Issue
#Article #LanguageModel #Slide Issue Date: 2024-09-01 Comment

LLMの原理の基礎的な内容について、丁寧かつコンパクトにまとまっている。

>ファインチューニングは新しい知識の学習ではなく知識の使い方を学習させるのに向いている

これをきちんと念頭に置いておかないと落とし穴にハマると思う。引用元の論文読みたい(Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?, Zorik Gekhman+, N/A, EMNLP'24 )。

論文紹介 _ The Llama 3 Herd of Models, 2024.08

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #OpenWeight #Slide Issue Date: 2024-08-26 Comment

Llama3の事前学習や事後学習のノウハウが詰まっており（安全性なども含む）、LLM学習に必要な要素が図解されており、非常に分かりやすい。

たとえば下記図（スライド中より引用）などは、LLMの学習過程を説明する際にわかりやすそう

LLMの事前・事後学習あたりは独自ノウハウが多すぎてもはや追従困難

GENIAC: 172B 事前学習知見, 2024

Paper/Blog Link My Issue
#Article #Pretraining #NLP #LanguageModel #Blog Issue Date: 2024-07-08 Comment

LLMの事前学習における知見がまとまっている記事とのこと

・Megatron LMで学習
　→ 3D Parallelismなどの分散学習手法によりHF Trainerより高速
　→ Data Parallelim、Tensor Parallelism、 Pipeline Parallelismを組み合わせたもの
・GPUメンテナンス、不良で学習が継続できなかった場合はcheckpointをロードして学習
・学習曲線が安定しているように見えるがSpikeは発生している。発生時はgradient normが急激に上昇する
・LlamaなどのLLMからの継続的事前学習ではなくfrom scratchから学習しているので透明性が高い
・Transformer engineを利用
・AdamWを利用
・attention dropout, hidden dropoutは0.0

>この際、通信を多く必要とする分散手法のワーカー（Tensor Parallelワーカー）はノード内に配置するようにMegatron-LMのデフォルトではなっているため、今回もそれを利用しました。このようにする理由は、ノード内の通信はNVLinkにより、ノード間通信よりも高速であるためです。また、Data Parallelの勾配平均化のための通信を考慮して、Data Parallelワーカーも可能な限りノード内に配置するMegatron-LMデフォルトの挙動を利用しました。
Pipeline Parallelismは他の並列化手法と比較して通信量が少ないP2P(Point-to-Point)通信であるため、パイプラインステージはノード間で配置するようにしました。これも、Megatron-LMデフォルトの挙動です。

勉強になる

・通常のデータ並列はoptimizer stateをworker間で複製するので遅い。Deep Speed Zero 1のように分散して保有することで高速化
・Tensor Parallelでself attention, MLPの計算を並列化できる
・LayerNormalization, Dropoutの演算もメモリ効率の観点から並列化
・学習を安定させるためにz-lossを利用
・batch skippingとは、gradient clippingを行っていてもなおspikeが生じる場合に、100 step前に戻り、spikeが生じた付近のデータを数百iteration程度スキップすること

より良いTransformerをつくる, Shun Kiyono, 2022

Paper/Blog Link My Issue
#Article #NLP #LanguageModel Issue Date: 2024-07-03

Open Source Cookbook

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #GenerativeAI #Repository #OpenSource Issue Date: 2024-04-14 Comment

HuggingFaceによる様々な実用的なアプリケーションをオープンソースの実装やモデルで実現するノートブックがまとまったリポジトリ。LLM-as-a-judge, RAG, PEFTによるPrompt Tuning（Prefix Tuningとかそっち系の話だと思われる）など、現在16種類ほどあるらしい。

改めて見たら数がかなり増えていた

LLMの現在, 202404, Preffered Elements

Paper/Blog Link My Issue
#Article #NLP #LanguageModel Issue Date: 2024-04-03

RAG-Research-Insights

Paper/Blog Link My Issue
#Article #Survey #InformationRetrieval #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2024-03-05 Comment

RAGに関する研究が直近のものまでよくまとめられている

awesome-generative-information-retrieval

Paper/Blog Link My Issue
#Article #Survey #InformationRetrieval #LanguageModel #Blog Issue Date: 2024-02-22

optimize-llm, HuggingFace

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel Issue Date: 2023-12-15 Comment

LLMをoptimizeする実用的なチュートリアル

こちらも有用なので参照のこと

【GPU inference】

https://huggingface.co/docs/transformers/main/perf_infer_gpu_one

Deconstructing RAG

Paper/Blog Link My Issue
#Article #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2023-11-22 Comment

RAGにおける様々な戦略がまとまっている（リンク付き

Practical Tips for Finetuning LLMs Using LoRA （Low-Rank Adaptation）, SEBASTIAN RASCHKA, PHD, 2023.11

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) #Blog #PEFT(Adaptor/LoRA) #PostTraining Issue Date: 2023-11-20

JGLUEの構築そして日本語LLM評価のこれから, 2023

Paper/Blog Link My Issue
#Article #Dataset #LanguageModel #Evaluation Issue Date: 2023-11-16 Comment

JGLUEのexample付きの詳細、構築の経緯のみならず、最近の英語・日本語LLMの代表的な評価データ（方法）がまとまっている（AlpacaEval, MTBenchなど）。また、LLMにおける自動評価の課題（図は資料より引用）が興味深く、LLM評価で生じるバイアスについても記述されている。Name biasなどはなるほどと思った。

日本語LLMの今後の評価に向けて、特にGPT4による評価を避け、きちんとアノテーションしたデータを用意しfinetuningした分類器を用いるという視点、参考にしたい。

Retrieval-based LM （RAG System）ざっくり理解する, 2023

Paper/Blog Link My Issue
#Article #InformationRetrieval #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) Issue Date: 2023-11-06 Comment

（以下スクショはスライドより引用）

次のスクショはRAGにかかわる周辺技術がよくまとまっていると思う。

以下ざっくり私の中の認識として

- 計画

- クエリ拡張

- クエリの質が悪い場合検索性能が劣化するため、クエリをより適切に検索ができるように修正（昔はキーワードしか与えられないときに情報を増やすから”拡張”という文言が用いられているが現在はこれに限らないと思う）する技術

- 分解・抽象化

- 複雑なクエリから分解することでマルチホップの質問をサブ質問に分解（今ならLLMを利用すれば比較的簡単にできる）したり、あるいは抽象化したクエリ（Step-back Promptnig [Paper Note] Take a Step Back: Evoking Reasoning via Abstraction in Large Language Models, Huaixiu Steven Zheng+, N/A, ICLR'24 ）を活用することで検索を改善する技術

- 検索対象選定

- 検索する対象そのものを選択し、検索対象をフィルタリングする技術

- 資料中ではLLMを用いたフィルタリングやClassifierを用いたフィルタリングが紹介されているが、メタデータで絞り込むなどの単純な方法でも実現可能だと思われる（メタデータで絞り込む、はClassifierでのフィルタリングとリンクするかもしれないが）

- 思考・行動

- REACT : SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS, Yao+, Princeton University and Google brain, ICLR'23 のような自律的にLLMに思考とその結果に基づく行動をイテレーションさせる技術や、クエリを分解して回答へたどり着くために必要な推論を構築し、各推論の回答を検証しながら生成を繰り返す技術が紹介されている

- この辺の技術はクエリが非常に複雑な場合に有効ではあるが、シンプルな場合は必要ないかなという印象がある

- シンプルなユースケースの場合はどちらかというと泥臭い前処理とかが効きそう

- 関連知識取得

- 検索

- 表層検索（TF-IDFベクトル, BM25）などの古典的な手法や、意味検索（Embeddingに基づく手法）が紹介されている

- 例えばlangchainでは表層検索 + 意味検索の両者がサポートされており、簡単にハイブリッドな検索が実現できる

- 知識文生成

- 外部知識として検索された文書を利用するだけでなく、LLM自身が保持する知識を活用するためにLLMが生成した文書の両方を活用するとQAの正答率が向上することが紹介されている

- 文書フィルタ

- 検索でクエリに関連しない文書を取得してしまう応答品質が大幅に低下することが紹介されている

- 個人的にはここが一番重要なパートだと考えている

- また、検索結果を要約する方法も紹介されている

- 再帰・反復計算

- Retrierverから取得した結果に基づいてLLMが応答を生成し、生成した応答とoriginalのquestionの両方を組み合わせて追加でRetrieverから文書を取得し生成する手法などが紹介されている

- リランキング

- 検索結果のリランキングも古くから存在する技術であり、異なる知識を持つRankerによってリランキングさせることで性能が向上する場合がある

- 回答

- 回答抽出・生成

- 回答となる部分のspanを抽出する手法と、spanではなくテキストを生成する手法が紹介されている

- この辺は文書要約におけるExtractive/Abstractive Summarization技術などもかなり応用が効くと思われる

- インデクシング

- 不要文書のフィルタリングや、チャンク分割の戦略、資格情報をテキスト化する方法などが紹介されている

生成AIが抱えるリスクと対策, LYCorp‘23

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Alignment #GenerativeAI #Hallucination #Blog Issue Date: 2023-11-03 Comment

この資料をスタートにReferしている論文などを勉強すると、GenerativeAIのリスク周りに詳しくなれそう。この辺は疎いので勉強になる。
しかし、LLMのAlignmentが不十分だったり、Hallucinationを100%防ぐことは原理的に不可能だと思われるので、この辺とどう付き合っていくかがLLMと付き合っていく上で難しいところ。この辺は自分たちが活用したいユースケースに応じて柔軟に対応しなければならず、この辺の細かいカスタマイズをする地道な作業はずっと残り続けるのではないかなあ

IBIS2023チュートリアル「大規模言語モデル活用技術の最前線」

Paper/Blog Link My Issue
#Article #NLP #LanguageModel Issue Date: 2023-11-01 Comment

LLMの応用研究やPromptingを中心としたチュートリアル。アノテーションや対話式推薦システムへの活用、ReAct、プロンプトの最適化技術、CoTの基本から応用まで幅広くまとまっているので、LLMの応用技術の概観や、CoTを実践したい人に非常に有用だと思う。

Large Language Model （in 2023）, OpenAI

Paper/Blog Link My Issue
#Article #NLP #LanguageModel Issue Date: 2023-10-10 Comment

LLMの研究開発動向を俯瞰するのに有用らしい

GGML_GGUF_GPTQの違い

Paper/Blog Link My Issue
#Article #LanguageModel Issue Date: 2023-09-29 Comment

量子化に関する技術であるGGML, GGUF, GPTQに関する詳細なまとめ

よくわからんが筆者の言葉を引用すると

>llama.cppならGGUF、TransformerならGPTQって感じ？

ということなので、これらは量子化を行うための技術を提供するライブラリであり、GGUF/GGMLはllama.cppで利用可能で、GPTQはより汎用的に利用可能な手法だと思われる。

GPTQについて論文をざっくり読んでメモった GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers, Elias Frantar+, N/A, ICLR'23

大規模言語モデル, 岡崎先生, 2023

Paper/Blog Link My Issue
#Article #NLP #LanguageModel Issue Date: 2023-09-04 Comment

岡崎先生による大規模言語モデルのチュートリアル

最近のLLMまでの歴史、transformerなどの基礎的な内容から、最新の内容まで数式付きで詳細にまとまっている

LLMのファインチューニングで何ができて何ができないのか

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) Issue Date: 2023-08-29 Comment

>LLMのファインチューニングは、「形式」の学習は効果的ですが、「事実」の学習は不得意です。

> シェイクスピアの脚本のデータセット (tiny-shakespeare) の
「ロミオ」を「ボブ」に置き換えてファインチューニングして、新モデルの頭の中では「ロミオ」と「ボブ」をどう記憶しているかを確認します。

ファインチューニングしても、Bで始まるジュリエットが恋する人物について質問しても、ボブと答えてはくれない。
> ロミオ」は「ジュリエット」が恋していたこの男性に関連付けられており、「ロミオ」を「ボブ」に置き換えるファインチューニングでは、ニューラルネットワークの知識ベースを変更することはできませんでした。

なるほど。

参考: https://www.anyscale.com/blog/fine-tuning-is-for-form-not-facts?ref=blog.langchain.dev

imosさんのツイートを引用
> 文章が悪かったので補足。追加学習を全体に十分なデータですれば知識は獲得しえます（が事前学習の知識を忘却するリスクは高い）。巷でよくファインチューニングと呼ばれるものは、知識を司るらしいMLP部を触らず自己注意機構部のみを更新するので、そもそも知識を増やすのは難しいという認識です。

元ツイート:

Loading…

Prompt Engineering vs. Blind Prompting, 2023

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Prompting #Blog Issue Date: 2023-05-12 Comment

experimentalな手法でprompt engineeringする際のoverview

A Cookbook of Self-Supervised Learning, 2023

Paper/Blog Link My Issue
#Article #MachineLearning #Self-SupervisedLearning Issue Date: 2023-04-26 Comment

MetaによるSelf Supervised Learningの教科書

Training a recommendation model with dynamic embeddings

Paper/Blog Link My Issue
#Article #RecommenderSystems #Embeddings #EfficiencyImprovement #Library Issue Date: 2023-04-25 Comment

dynamic embeddingを使った推薦システムの構築方法の解説

（理解が間違っているかもしれないが）推薦システムは典型的にはユーザとアイテムをベクトル表現し、関連度を測ることで推薦をしている。この枠組みをめっちゃスケールさせるととんでもない数のEmbeddingを保持することになり、メモリ上にEmbeddingテーブルを保持して置けなくなる。特にこれはonline machine learning（たとえばユーザのセッションがアイテムのsequenceで表現されたとき、そのsequenceを表すEmbeddingを計算し保持しておき、アイテムとの関連度を測ることで推薦するアイテムを決める、みたいなことが必要）では顕著である（この辺の理解が浅い）。しかし、ほとんどのEmbeddingはrarely seenなので、厳密なEmbeddingを保持しておくことに実用上の意味はなく、それらを単一のベクトルでできるとメモリ節約になって嬉しい（こういった処理をしてもtopNの推薦結果は変わらないと思われるので）。
これがdynamic embeddingのモチベであり、どうやってそれをTFで実装するか解説している。

30分で完全理解するTransformerの世界

Paper/Blog Link My Issue
#Article #Survey #Transformer Issue Date: 2023-02-14 Comment

非常に詳細で実質日本語のサーベイ論文のようなもの

tuning_playbook, Google Research

Paper/Blog Link My Issue
#Article #NeuralNetwork #MachineLearning Issue Date: 2023-01-21 Comment

Googleが公開したDeep Learningモデル学習のノウハウ。必読

日本語訳
https://github.com/Valkyrja3607/tuning_playbook_ja

BetterTransformer, Out of the Box Performance for Hugging Face Transformers

Paper/Blog Link My Issue
#Article #NeuralNetwork #Library #Transformer Issue Date: 2022-12-01 Comment

たった1ライン追加するだけで、Transformerのinferenceが最大で4.5倍高速化されるBetterTransformerの解説記事

better_model = BetterTransformer.transform(model)

CNN vs. ViT, 牛久先生

Paper/Blog Link My Issue
#Article #NeuralNetwork #ComputerVision Issue Date: 2022-10-27 Comment

・Swin Transformer, Depth-wise conv, ConvNeXt, ViTとCNNのロバスト性の違いの話があり勉強になる

・最終的な結論が、CNNもTransformerも変わらない（明確な勝者はいない; 今のところ引き分け）というのはおもしろかった

depth-wise conv, point-wise convの解説記事： https://agirobots.com/depthwise-pointwise-convolution/

通常のCNNのフィルタによるfeature map計算を、空間方向（depth-wise conv）とチャネル方向（point-wise conv; 1x1 conv）に分解することで大幅にパラメータ数削減

Transformerの最前線〜畳込みニューラルネットワークの先へ〜, 牛久先生, 2022

Paper/Blog Link My Issue
#Article #NeuralNetwork #NLP #Transformer Issue Date: 2022-09-06

pandas tips

My Issue
#Article #Tools #Library Issue Date: 2022-08-03 Comment

◆遅くないpandasの書き方

https://naotaka1128.hatenadiary.jp/entry/2021/12/07/083000#iterrows-%E3%81%AF%E7%B5%B6%E5%AF%BE%E3%81%AB%E4%BD%BF%E3%82%8F%E3%81%AA%E3%81%84-apply%E3%82%82

iterrows, applyを使うな、あたりは非常に参考になった。numpy配列に変換してループを回すか、np.vectorizeを使ってループを排除する。

①ラーニングアナリティクスの研究動向 ─エビデンスに基づく教育の実現に向けて─, 京都大学, 緒方先生, 情報処理 Vol.59 No.9 Sep. 2018

Paper/Blog Link My Issue
#Article #LearningAnalytics Issue Date: 2022-03-03 Comment

緒方先生によるLAのチュートリアル

主な研究テーマ：

①行動予測：教育・学習活動において蓄積された大量のデータを元に，機械学習を用いて予測モデルを作成し，学習者の成績や能力，ドロップアウト等の行動を予測する研究

②介入モデル：いつどこでどのような内容をどのような方法で学習者に伝えると，効果的な情報提供となるか，という研究

③オープン学習者モデル：学習データを用いて学習スタイルや特徴を推測し，それをシステム内だけにとどめるのではなく，学習者にできる限り見える形で提示する，オープン学習者モデルの研究

④推薦：学習者個人の特徴にあわせて，教材や問題，カリキュラム等を推薦する研究

⑤ティーチングアナリティクス：教師の教育活動のデータを分析する研究

⑥教育評価の自動化：収集したデータの分析を元に，学習者の評価を自動的に行う研究

2021年版スライド：

https://www.let.media.kyoto-u.ac.jp/wp-content/uploads/2021/07/603b542fafc54003eb4a1a42bb92069f.pdf

典型的な研究事例：

・At-risk学生の発見と成績予測(early-warning)

・学生の成績予測

　- 教員が早期に単位を落としそうな学生を発見

　- 学生は成績予測を確認して、学びに向かう態度を改善

・教育データを用いた予測

- 教育データからACADEMIC Successの予測（e.g. career success, academic achievement）

・Open learner model (student model)

・Recommendation and personalized learning

- ALEKSのようなシステム

- BKT, DKT等を用いた推薦

・Learning analytics dashboard

・Writing (Text) analytics

　- Academic writingの文章を分析

　- eポートフォリオ/Essay/Journalを分析、成績や感情を予測

・Emotional learning analytics

・Multimodal learning analytics

　- Gaze (eye tracking)

　- Bio sensors (heart rate)

　- Pen, click stream

　- Motion sensor (gestures)

　- Audio/Video

・Collaborative learning analytics

　- Group formation

　- Social network analysis

　- Interaction analytics

・Ubiquitous Learning analytics

　- SCROLL:誰がいつどこで何を学習したかという学習ログを分析

・Learning analytics and self-regulated learning

・Learning analytics for teaching / learning design

・Assessment analytics

　- create exams

　- Peer evaluation

良いコードとは何か - エンジニア新卒研修スライド公開, CyberZ, 森

Paper/Blog Link My Issue
#Article #Pocket #Coding #Slide Issue Date: 2022-03-02

NeurIPS 2021 技術報告会, 株式会社TDAI Lab, 2022

Paper/Blog Link My Issue
#Article #MachineLearning #Slide Issue Date: 2022-02-07 Comment

NeurIPS 2021での技術トレンドがまとめられている

1. アーキテクチャの改善

2. マルチモーダルモデル

3. Temporal Adaptation

4. Retrieval Augmentation

5. ベンチマーク見直し

6. データセット見直し

7. Human-Centered AI

Pythonのオブジェクト指向プログラミングを完全理解, kaitolucifer （Kaito）, 2021

Paper/Blog Link My Issue
#Article #Blog #Coding Issue Date: 2021-11-25 Comment

オブジェクト指向の歴史的背景から、SOLID、GRASP等が詳細に解説されている。辞書的に参照するのが良いかも。

イラストで理解するSOLID原則, baby-degu, 2021

Paper/Blog Link My Issue
#Article #Blog #Coding Issue Date: 2021-11-25 Comment

オブジェクト指向におけるSOLID原則をイラストで解説した記事。直感的で分かりやすい。

バンディットアルゴリズムを使って広告最適化のシミュレーションをしてみたよ, ysekky, 2014

Paper/Blog Link My Issue
#Article #RecommenderSystems #CTRPrediction #Blog Issue Date: 2021-10-29 Comment

なぜクリック率を上げたいのかという説明が非常に参考になる：

>しかしその広告を掲載する側から考えればクリック率の低い広告を出すことは売上が下がってしまうため，クリック率が>低いとなかなか広告を表示することができなくなってしまいます．

その際よく使われるのはeCPMという指標です．

eCPMはその広告を1000回表示していくらの売上を上げることができるかという指標であり，

クリック率1000クリック単価で求められます．

>EPCMが高い広告のほうが表示されやすいため，クリック率を上げることで同じクリック単価でたくさんのユーザを自社のランディングページに誘導することができるようになります．

>例えば今回のケースではクリック率1.2%でクリック単価が60円ですので，eCPMは720円です。

ここでクリック率が0.1％上がるとeCPMは780円になります．

>そのときクリック単価を56円にしてもeCPMは726円になるため，つまりクリック率が0.1%上がると同じだけのランディングページへの誘導を得るための単価を4円下げることができます．

>例えばそのランディングページでの商品の購入が1%で行われるとすると，商品を1つ売るためのコストが400円も下がる事になります．

>ケースバイケースではありますが，このようにクリック率を上げることはウェブ広告を通してものを売るために非常に重要な要素になります．

ラーニング・アナリティクスとは何か？, 武田俊之, コンピュータ＆エデュケーション VOL.38, 2015

Paper/Blog Link My Issue
#Article #AdaptiveLearning #LearningAnalytics Issue Date: 2021-10-29 Comment

Learning Analyticsの全体像について、コンパクトにまとまっている。

特に、そのアプローチに関するコンセプトの特徴（e.g. 学習者中心、デーア駆動）や、フレームワーク、xAPIといったデータの測定・収集方法などについて、まとめられている。

自然言語系AIサービスと著作権侵害, 柿沼太一, 2021

Paper/Blog Link My Issue
#Article #NLP #Blog #Legal Issue Date: 2021-10-26

Hidden Technical Debt in Machine Learning Systems, Sculley+, Google

Paper/Blog Link My Issue
#Article #MachineLearning #Pocket #Infrastructure Issue Date: 2021-10-19 Comment

よく見るML codeが全体のごく一部で、その他の基盤が大半を占めてますよ、の図

実臨床・Webサービス領域での機械学習研究開発の標準化

Paper/Blog Link My Issue
#Article #MachineLearning #Pocket Issue Date: 2021-10-16 Comment

並列して走る機械学習案件をどのように効果的に捌いているか説明。

①タイトな締切
→ 高速化で対処
→ よく使う機能をML自身に実装する
②並行して走る案件
→ 並列化
　→ Kubernetesを用いて、タスクごとに異なるノードで分散処理（e.g CVのFoldごとにノード分散、推論ユーザごとにノード分散）要件に合わせて、メモリ優先、CPU優先などのノードをノードプールから使い分ける
　
③属人化
→ 標準化
　→ よく使う機能はMLシステム自身に実装
　→ 設定ファイルで学習、推論の挙動を制御

【決定版】スーパーわかりやすい最適化アルゴリズム -損失関数からAdamとニュートン法-, omiita

Paper/Blog Link My Issue
#Article Issue Date: 2021-07-16

Continuously Improving Recommender Systems for Competitive Advantage Using NVIDIA Merlin and MLOps, Nvidia, 2021.01

Paper/Blog Link My Issue
#Article #RecommenderSystems #Pocket Issue Date: 2021-07-02 Comment

Recommender System運用のためのアーキテクチャに関する情報

optuna_tips

Paper/Blog Link My Issue
#Article #Tools #Library Issue Date: 2021-06-29

beam search解説 _ コード付き, jonki, 2020.05

Paper/Blog Link My Issue
#Article #BeamSearch #Blog Issue Date: 2021-06-24 Comment

ビームサーチについて、コード付きで説明してくれており、大変わかりやすい。

heapqを使って実装している。また、ビームサーチをbatchに対して行う方法についても書いてある（ただ、一部に対してしかbatchでの処理は適用できていない）。

自分もバッチに対して効率的にビームサーチするにはどのように実装すれば良いのかよくわからないので、誰か教えて欲しい。

最先端自然言語処理ライブラリの最適な選択と有用な利用方法 _ pycon-jp-2020

Paper/Blog Link My Issue
#Article #Tools #NLP #Library #python #Slide Issue Date: 2021-06-11 Comment

各形態素解析ライブラリの特徴や比較がされていて、自分の用途・目的に合わせてどの形態素解析器が良いか意思決定する際に有用

ゼロから始めてオフライン強化学習とConservative Q-Learningを理解する, aiueola, 2021.05

Paper/Blog Link My Issue
#Article #Pocket #ReinforcementLearning #Blog #Off-Policy Issue Date: 2021-06-07

TRTorch

Paper/Blog Link My Issue
#Article #NeuralNetwork #Tools #Library #python Issue Date: 2021-06-06 Comment

pytorchの推論を高速化できるライブラリ。6倍ほど早くなった模様。TorchScriptを介して変換するので、PythonだけでなくC++でも動作できるらしい。

pytorch tips

My Issue
#Article #Tools #Library #python Issue Date: 2021-06-05 Comment

【PyTorchでたまに使うけどググって情報探すのに時間かかるやつ】

https://trap.jp/post/1122/

- scatter_add, einsum, Bilinear あたりが説明されている

【NLLossの細かい挙動】

https://tatsukawa.hatenablog.com/entry/2020/04/06/054700

【PyTorchで絶対nanを出したいマン】

https://qiita.com/syoamakase/items/40a716f93dc8afa8fd12

PyTorchでnanが出てしまう原因とその対策が色々書いてある

【pipで様々なCuda versionのpytorchをinstallする方法】

https://stackoverflow.com/questions/65980206/cuda-10-2-not-recognised-on-pip-installed-pytorch-1-7-1

ResNetからSkip Connectionを取り除く研究についてのサーベイ, 徳永拓之, LeapMind株式会社

Paper/Blog Link My Issue
#Article Issue Date: 2021-06-03 Comment

Skip Connectionは

- 推論時のメモリ消費量が増える
- 推論時に計算量の割に実際の計算が重たくなりがち（特にDNN専用アクセラレーターにおいてその傾向がありがち）

というデメリットがあり、SkipConnection無しで性能を出したいことから、様々な研究が行われている模様。

ResNetを学習し、それを教師としてPlainCNNを学習するResidual Distillationが決定版らしい（普通のDistillationでは最終層の類似度のみを用いるが、生徒ネットワークの中間層の出力を教師ネットワークに入れてからbackpropして勾配を得る）。

50層のPlainCNNで、ResNet50とほぼ同等のtop-1 accuracyを達成。
メモリ消費量は20%弱削減され、実行速度は20〜30%程度高速になる。

The Knowledge-Learning-Instruction Framework: Bridging the Science-Practice Chasm to Enhance Robust Student Learning, Pelanek, User Modeling and User-Adapted Interaction, 2017

Paper/Blog Link My Issue
#Article #Pocket #EducationalDataMining #LearningAnalytics #StudentPerformancePrediction #KnowledgeTracing Issue Date: 2021-05-30 Comment

Learner Modelingに関するチュートリアル。Learner Modelingの典型的なコンテキストや、KCにどのような種類があるか（KLI Frameworkに基づいた場合）、learner modeling techniques (BKTやPFA等)のチュートリアルなどが記載されている。

knowledgeをmodelingする際に利用されるデータの典型的な構造

donain modelingの典型的なアプローチ

モデルのaspectと、model purposes, learning processesのrelevanceを図示したもの。色が濃いほうが重要度が高い

Learner ModelingのMetrics

cross validation方法の適用方法（同じ学習者内と、異なる学習者間での違い。学習者内での予測性能を見たいのか、学習者間での汎化性能を見たいのかで変わるはず）

BKT、PFAや、それらを用いるContext（どのモデルをどのように自分のcontextに合わせて選択するか）、KLI Frameworkに基づくKCの構成のされ方、モデル評価方法等を理解したい場合、読んだほうが良さそう？

ざっとしか見ていないけど、重要な情報がめちゃめちゃ書いてありそう。後でしっかり読む・・・。

EfficientNet解説, omiita （オミータ）, 2019

Paper/Blog Link My Issue
#Article #NeuralNetwork #ComputerVision #EfficiencyImprovement #Blog #ImageClassification Issue Date: 2021-05-24 Comment

既存画像認識モデルの構造は変化させず、広さ、深さ、解像度を複合スケーリングすることで、従来よりも少ないパラメータ数、かつ学習速度でSoTAを達成。広さ、深さ、解像度はそれぞれ性能に互いに影響しあっており、従来のように別々にスケーリングするのではなく、3つのバランスをとりながらスケーリングする。スケーリングする際は、結果的にはそれぞれをある値で定数倍すれば良く、そのある値は最大メモリや最大FLOPS数以下（およびFLOPSが2のΦ乗で増加するような）といった制約下でAccuracyが最大化される値をグリッドサーチで見つける（らしい。ざっくりとした理解）。
転移学習しても多くのタスクでSoTA達成した。

GLUE - 英語圏における自然言語処理の標準ベンチマーク, npaka, 2020

Paper/Blog Link My Issue
#Article #NLP #Dataset #Evaluation #Blog Issue Date: 2021-05-19 Comment

各タスクごとにサンプルとその説明が付与されており、ぱっと見でどんなタスクかすぐ分かる

Off Policy Evaluation の基礎とOpen Bandit Dataset & Pipelineの紹介, Yuta Saito, 2020

Paper/Blog Link My Issue
#Article #RecommenderSystems #Tools #Dataset #Slide #One-Line Notes Issue Date: 2020-08-29 Comment

機械学習による予測精度ではなく、機械学習モデルによって生じる意思決定を、過去の蓄積されたデータから評価する（Off policy Evaluation）の、tutorialおよび実装、データセットについて紹介。
このような観点は実務上あるし、見落としがちだと思うので、とても興味深い。

Collaborative Metric Learningまとめ, guglilac, 2020

Paper/Blog Link My Issue
#Article #RecommenderSystems #CollaborativeFiltering #ContrastiveLearning #Blog Issue Date: 2020-07-30 Comment

userのembeddingに対し、このuserと共起した(購入やクリックされた)itemを近くに、共起していないitemを遠くに埋め込むような学習方法

近似最近傍探索の最前線, Yusuke Matsui, 2019

Paper/Blog Link My Issue
#Article #MachineLearning #Slide #kNN Issue Date: 2020-07-30 Comment

k-NNベースドなRecommender Systemを構築したけど、Inferenceに時間がかかって、先方のレスポンスタイムの要求が満たせない...というときに役に立ちそう。

yahooのNGTといった実装も転がっている（Apache-2.0 License）：

https://techblog.yahoo.co.jp/data_solution/ngtpython/

ScaNNという手法もあるらしい（SoTA）
https://ai-scholar.tech/articles/vector-search/scann

Key trends from NeurIPS 2019, Chip Huyen, 2019

Paper/Blog Link My Issue
#Article #MachineLearning #Blog Issue Date: 2020-01-16

BERT入門, Ken'ichi Matsui, 2020

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Slide Issue Date: 2020-01-13 Comment

自然言語処理の王様「BERT」の論文を徹底解説

https://qiita.com/omiita/items/72998858efc19a368e50

Transformer関連 [Paper Note] Attention Is All You Need, Ashish Vaswani+, arXiv'17 あたりを先に読んでからが読むと良い

要は

・Transformerをたくさん積んだモデル

・NSPとMLMで双方向性を持った事前学習タスクを実施することで性能向上

・pooler layer（Transformer Encoderの次にくっつくlayer）を切り替えることで、様々なタスクにfine-tuning可能（i.e. pooler layerは転移学習の対象外）

・予測する際は、[CLS]トークンに対応する位置の出力を用いて分類問題や複数文間の関係性を問う問題を解いたり、各トークン位置に対応する出力を用いてQAの正解spanを予測したり、色々できる

・gMLP MLP-like Architecture あたりの研究が進んでくると使われなくなってくる可能性有

こっちの記事もわかりやすい。

BERTについて勉強したことまとめ (2)モデル構造について

https://engineering.mobalab.net/2020/06/12/bert%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6%E5%8B%89%E5%BC%B7%E3%81%97%E3%81%9F%E3%81%93%E3%81%A8%E3%81%BE%E3%81%A8%E3%82%81-2%E3%83%A2%E3%83%87%E3%83%AB%E6%A7%8B%E9%80%A0%E3%81%AB%E3%81%A4%E3%81%84/

EMNLP 2019 spec tutorial

Paper/Blog Link My Issue
#Article #NLP #Slide Issue Date: 2019-11-09

NLP-Progress

Paper/Blog Link My Issue
#Article #Survey #Dataset Issue Date: 2019-02-12 Comment

NLPの様々なタスクのデータセット, およびSOTA(2018年時点)がまとめられている。

Designing and Evaluating Explanations for Recommender Systems, Tintarev+, Recommender Systems Handbook, 2011

Paper/Blog Link My Issue
#Article #RecommenderSystems #Explanation #Selected Papers/Blogs Issue Date: 2019-01-23 Comment

Recommender Systems HandbookのChapter。[Paper Note] A Survey of Explanations in Recommender Systems, Tintarev+, ICDEW'07 のSurveyと同じ著者による執筆。

推薦のExplanationといえばこの人というイメージ。

D論： http://navatintarev.com/papers/Nava%20Tintarev_PhD_Thesis_(2010).pdf

AllenNLP （Official Tutorials）

Paper/Blog Link My Issue
#Article #NeuralNetwork #Tools #NLP Issue Date: 2018-11-16 Comment

https://docs.google.com/presentation/d/17NoJY2SnC2UMbVegaRCWA7Oca7UCZ3vHnMqBV4SUayc/preview?slide=id.g43b8d8e880_0_8

The Annotated Transformer, harvardnlp, 2018.04

Paper/Blog Link My Issue
#Article #NeuralNetwork #MachineLearning #NLP Issue Date: 2018-06-29

ニューラルネット勉強会（LSTM編）, Seitaro Shinagawa, 2016

Paper/Blog Link My Issue
#Article #NeuralNetwork #MachineLearning #NLP #Slide Issue Date: 2018-02-19 Comment

LSTMの基礎から、実装する上でのTipsがまとまっている。

zero padding, dropoutのかけかた、normalizationの手法など。

Curriculum Learning（関東CV勉強会）, Yoshitaka Ushiku, 2015.05

Paper/Blog Link My Issue
#Article #MachineLearning #Slide #CurriculumLearning Issue Date: 2018-02-12 Comment

牛久先生によるCurriculum Learningチュートリアル

ALAGIN 機械翻訳セミナー単語アライメント, Graham Neubig, 2014.03

Paper/Blog Link My Issue
#Article #MachineTranslation #NLP #Slide #WordAlignment Issue Date: 2018-01-15

自然言語処理のためのDeep Learning, Yuta Kikuchi, 2013.09

Paper/Blog Link My Issue
#Article #NeuralNetwork #NLP #Slide #Selected Papers/Blogs Issue Date: 2018-01-15

Fast and Reliable Online Learning to Rank for Information Retrieeval, Katja Hofmann, Doctoral Thesis, 2013.04

Paper/Blog Link My Issue
#Article #Survey #InformationRetrieval #LearningToRank #Online/Interactive Issue Date: 2018-01-01

[Paper Note] From RankNet to LambdaRank to LambdaMART: An Overview, Burges, Microsoft Research Technical Report, 2010.06

Paper/Blog Link My Issue
#Article #InformationRetrieval #LearningToRank Issue Date: 2018-01-01

Confidence Weightedでランク学習を実装してみた, 徳永拓之, 第4回自然言語処理勉強会@東京, 2011.01

Paper/Blog Link My Issue
#Article #InformationRetrieval #LearningToRank #Slide Issue Date: 2018-01-01

オンライン学習

Paper/Blog Link My Issue
#Article #MachineLearning #OnlineLearning Issue Date: 2017-12-31 Comment

## 目次

定式化

評価法：Regretなど

パーセプトロン

Passive Aggressive Algorithm

(アルゴリズムと損失の限界の評価）

Confidence Weighted Algorithm

Pegasos

Coordinate Descent

バッチ、オンライン、ストリームの比較

ビッグデータへの対応

Efficient Methods and Hardware for Deep Learning, Song Han, Stanford University, 2017.05

Paper/Blog Link My Issue
#Article #NeuralNetwork #EfficiencyImprovement Issue Date: 2017-12-31

[Paper Note] Machine Learning for User Modeling, User modeling and User-adapted Interaction, [Webb+, 2001], 2001.03

Paper/Blog Link My Issue
#Article #MachineLearning #UserModeling #KeyPoint Notes Issue Date: 2017-12-28 Comment

# 管理人の過去のメモスクショ

Tutorial

[Paper Note] Context Engineering 2.0: The Context of Context Engineering, Qishuo Hua+, arXiv'25, 2025.10

[Paper Note] The Principles of Diffusion Models, Chieh-Hsin Lai+, arXiv'25, 2025.10

[Paper Note] Fundamentals of Building Autonomous LLM Agents, Victor de Lamo Castrillo+, arXiv'25, 2025.10

言語モデルの内部機序：解析と解釈, HEINZERLING+, NLP'25, 2025.03

[Paper Note] The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities, Venkatesh Balavadhani Parthasarathy+, arXiv'24, 2024.08

Reinforcement Learning: An Overview, Kevin Murphy, arXiv'24

Tutorial on Diffusion Models for Imaging and Vision, Stanley H. Chan, arXiv'24

Recommendation with Generative Models, Yashar Deldjoo+, N_A, arXiv'24

Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond, Yang+, Amazon, TKDD'24

Igniting Language Intelligence: The Hitchhiker's Guide From Chain-of-Thought Reasoning to Language Agents, Zhuosheng Zhang+, N_A, arXiv'23

Challenges and Applications of Large Language Models, Jean Kaddour+, N_A, arXiv'23

コミュニティサービスにおけるレコメンデーションの変遷とMLパイプラインについて, PyCon'21

WikiAsp: A Dataset for Multi-domain Aspect-based Summarization, Hayashi+, CMU, TACL'21, NLPコロキウム

Explainable AI in Industry, KDD'19

[Paper Note] Representation Learning on Graphs: Methods and Applications, William L. Hamilton+, arXiv'17

Deep Learning for Personalized Search and Recommender Systems, KDD'17

Deep Learning: Practice and Trends, NIPS'17

[Paper Note] An Overview of Multi-Task Learning in Deep Neural Networks, Sebastian Ruder, arXiv'17

ゼロから始める ニューラルネットワーク機械翻訳, 中澤敏明, NLP'17

[Paper Note] Generative Adversarial Networks: An Overview, Antonia Creswell+, IEEE-SPM'17, 2017.10

[Paper Note] An overview of gradient descent optimization algorithms, Sebastian Ruder, arXiv'16

Tutorial: Deep Reinforcement Learning, David Silver, ICML'16

Generative Adversarial Networks （GANS）, NIPS'16

[Paper Note] An overview of gradient descent optimization algorithms, Sebastian Ruder, arXiv'16

Neural Network for Sentiment Analysis, Zhang+, EMNLP'16

[Paper Note] Online Learning to Rank for Information Retrieval, Grotov+, SIGIR'16

Machine Learning for Information Retrieval, Hofmann, ESSIR'15

[Paper Note] Interactive Recommender Systems, Netflix, RecSys'15, 2015.09

[Paper Note] 推薦システムにおけるインタラクション研究へのいざない, 土方, ヒューマンインタフェース学会誌'13

Context Aware Recommender Systems, Adomavicius+, AAAI'11

Practical Online Retrieval Evaluation, SIGIR'11, Tutorial

10,924x: The Instability Bomb at 1.7B Scale, TayKolasinski, 2026.01

A Visual Introduction to Rectified Flows, Alec Helbling, 2026.01

Demystifying evals for AI agents, Anthropic, 2026.01

Production-Grade Agentic AI System, FareedKhan-dev, 2025.12

Deriving the DPO Loss from First Principles, aayush garg, 2025.12

Deriving the PPO Loss from First Principles, aayush garg, 2025.12

【LLM強化学習④】強化学習のコツ（後編）, Yuu Jinnai, JSAI公式チャンネル

Prompt caching: 10x cheaper LLM tokens, but how?, Sam Rose, ngrok, 2025.12

Equipping agents for the real world with Agent Skills, Anthropic, 2025.10

2025 Open Models Year in Review, Interconnects AI, 2025.12

深層強化学習アルゴリズムまとめ, Shion Honda, 2020.09

言語生成の強化学習をやっていく（手法紹介 REINFORCE編）, Seitaro Shinagawa, 2020.12

The LLM Evaluation Guidebook, Fourrier+, HuggingFace, 2025.12

LLMのための強化学習手法 2025 -PPO・DPO・GRPO・DAPO一気に理解する-, Keisuke Kamata, 2025.11

TAURO Project, note, 2024.10

Distributed Inference Serving - vLLM, LMCache, NIXL and llm-d, Mikiya Michishita, 2025.06

[IBIS 2025] 深層基盤モデルのための強化学習 驚きから理論にもとづく納得へ, Akifumi Wachi, 2025.11

ACL2025@ウィーン 参加報告, shirotaro, 2025.10

Mapping LLMs with Sparse Autoencoders, Hussein+, 2025.11

Do we still need geometry for Visual Localization and Mapping?, Paul-Edouard Sarlin, 50th Pattern Recognition and Computer Vision Colloquium - CVUT, 2025.10

進化する大規模言語モデル評価: Swallowプロジェクトにおける実践と知見, Naoaki Okazaki, 2025.10

戦えるAIエージェントの作り方, Takuya Akiba, SakanaAI, 2025.10

LLM-jp-3 and beyond: Training Large Language Models, Yusuke Oda, NII LLMC, 2025.10

The Smol Training Playbook: The Secrets to Building World-Class LLMs, Allal+, HuggingFace, 2025.10

Everything About Transformers, Krupa Dave, 2025.10

From Egocentric Perception to Embodied Intelligence: Building the World in First Person, Ziwei Liu, 2025.10

Multimodal Reasoning for Human-Centric Generative Models, Ziwei Liu, 2025.10

Native Multimodal Models: Architecture, Post-Training, and Evaluation, Ziwei Liu, 2025.10

LangGraph と NeMo Agent Toolkit ではじめる ReAct エージェント, Masaomi Tokunaga+, 2025.10

Generative Modeling by Estimating Gradients of the Data Distribution, Yang Song, 2021.05

Context Engineering in Manus, Lance's Blog, 2025.10

State of VLA Research at ICLR 2026, Moritz Reuss, 2025.10

Building Brain-Like Memory for AI | LLM Agent Memory Systems, Adam Lucek, 2025.01

A History of Large Language Models, Gregory Gundersen, 2025.10

OpenAI DevDay 2025 発表まとめ, ぬこぬこ, 2025.10

PFN LLMセミナー, PFN, 2025.10

Replay BufferがPolicy Gradientで使えない理由, piqcy, 2019.03

Effective context engineering for AI agents, Anthropic, 2025.09

Build A Reasoning Model （From Scratch）, Sebastian Raschka, 2025.05

LoRAの進化：基礎から最新のLoRA-Proまで , 松尾研究所テックブログ, 2025.09

Flow Matching in 5 Minutes, wh., 2025.07

Context Engineering - Short-Term Memory Management with Sessions from OpenAI Agents SDK, OpenAI, 2025.09

All of Statistics - A Concise Course in Statistical Inference, Larry Wasserman, Springer Science & Business Media, 2013

オープンデータセットのライセンスガイド, サナミ, 2024.12

【論文解説】高速・高品質な生成を実現するFlow Map Models（Part 1: 概要編）, Masato Ishii （Sony AI）, 2025.09

つくって納得、つかって実感！ 大規模言語モデルことはじめ, Recruit, 2025.08

The Bitter Lesson for RL: Verification as the key to Reasoning LLMs, Rishabh Agarwal, 2025.06

Best Practices for Building Agentic AI Systems: What Actually Works in Production, Shayan Taslim, 2025.08

ゼロから始めるニューラルネットワーク機械翻訳, 中澤敏明, NLP'17

[IBIS 2025] 深層基盤モデルのための強化学習驚きから理論にもとづく納得へ, Akifumi Wachi, 2025.11

ACL2025@ウィーン参加報告, shirotaro, 2025.10

つくって納得、つかって実感！大規模言語モデルことはじめ, Recruit, 2025.08

Normalizing Flow入門第1回変分推論, Tatsuya Yatagawa, 2021.01

システム開発プロジェクト応用第一第5,6回 Gitによるバージョン管理, 内田公太, 2020.01

大規模言語モデル（LLM）の技術と最新動向, Ikuya Yamada, 2024.06

JGLUEの構築そして日本語LLM評価のこれから, 2023

LLMのファインチューニングで何ができて何ができないのか

Transformerの最前線〜畳込みニューラルネットワークの先へ〜, 牛久先生, 2022

良いコードとは何か - エンジニア新卒研修スライド公開, CyberZ, 森