Slide
#RecommenderSystems
#Tutorial
#Infrastructure
#python
Issue Date: 2021-10-21 コミュニティサービスにおけるレコメンデーションの変遷とMLパイプラインについて, PyCon'21 Comment・ママ向けのQ&AサービスにおけるレコメンドとMLパイプラインについて紹介
◆レコメンドエンジンの変遷
・Tensorflowで実装したMFから始まり、その後トピックを絞り込んだ上で推薦するためにLDAを活用したレコメンド、最終的にSoftmax Recommendationを開発
Softmax Recommendation: https://developers.google.com/machine-learning/recommendation/dnn/softmax
ユーザプロファイル(e.g. 行動ベクトル, ユーザの属性情報)等を入力とし、hidden layerをかませて最終的にアイテム次元数分のスコアベクトルを得る手法
行動ベクトル=ユーザが過去にクリックしたQ&Aだが、質問ベクトルを得るために内容テキストは利用せず行動ログ+word2vecで学習
類似質問検索による定性評価の結果良い結果、関連質問を抽出できるベクトルとなっていることを確認
→ レコメンド手法の変遷につれ、ベンチマークを上回るようになっていった◆MLパイプラインについて
・AWS Step FunctionsとAmazon Sagemakerを利用
・AWS Step Functions
AWS上の様々なサービスをワークフローとして定義できる(json形式でワークフローを記述)
・Amazon Sagemaker
機械学習向けのIDE
notebook上でのデータ分析・モデル学習、実験管理や学習済みモデルのデプロイが可能
Sagemaker Processingを用いることで、実行したい処理やインスタンスタイプを指定することで、notebookとは別の実行環境(コンテナ)で任意のpythonスクリプトを実行可
・ワークフローの定義=AWS Stepfunctions, スクリプト実行のリソース=Sagemaker Processingとして利用
MLパイプラインについては下記資料により詳しい情報が書かれている
https://speakerdeck.com/takapy/sagemaker-studiotostep-functionswoyong-itemlopshefalse-bu-wota-michu-sou #RecommenderSystems #Tutorial #InteractiveRecommenderSystems #RecSys
Issue Date: 2017-12-28 Interactive Recommender Systems, Netflix, RecSys'15, 2015.09 #Article #Tutorial #NLP #LanguageModel #ReinforcementLearning #PostTraining #read-later #RLVR
Issue Date: 2025-08-26 The Bitter Lesson for RL: Verification as the key to Reasoning LLMs, Rishabh Agarwal, 2025.06 Comment元ポスト:https://x.com/yongyuanxi/status/1960040848051372379?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q
Issue Date: 2021-10-21 コミュニティサービスにおけるレコメンデーションの変遷とMLパイプラインについて, PyCon'21 Comment・ママ向けのQ&AサービスにおけるレコメンドとMLパイプラインについて紹介
◆レコメンドエンジンの変遷
・Tensorflowで実装したMFから始まり、その後トピックを絞り込んだ上で推薦するためにLDAを活用したレコメンド、最終的にSoftmax Recommendationを開発
Softmax Recommendation: https://developers.google.com/machine-learning/recommendation/dnn/softmax
ユーザプロファイル(e.g. 行動ベクトル, ユーザの属性情報)等を入力とし、hidden layerをかませて最終的にアイテム次元数分のスコアベクトルを得る手法
行動ベクトル=ユーザが過去にクリックしたQ&Aだが、質問ベクトルを得るために内容テキストは利用せず行動ログ+word2vecで学習
類似質問検索による定性評価の結果良い結果、関連質問を抽出できるベクトルとなっていることを確認
→ レコメンド手法の変遷につれ、ベンチマークを上回るようになっていった◆MLパイプラインについて
・AWS Step FunctionsとAmazon Sagemakerを利用
・AWS Step Functions
AWS上の様々なサービスをワークフローとして定義できる(json形式でワークフローを記述)
・Amazon Sagemaker
機械学習向けのIDE
notebook上でのデータ分析・モデル学習、実験管理や学習済みモデルのデプロイが可能
Sagemaker Processingを用いることで、実行したい処理やインスタンスタイプを指定することで、notebookとは別の実行環境(コンテナ)で任意のpythonスクリプトを実行可

・ワークフローの定義=AWS Stepfunctions, スクリプト実行のリソース=Sagemaker Processingとして利用
MLパイプラインについては下記資料により詳しい情報が書かれている
https://speakerdeck.com/takapy/sagemaker-studiotostep-functionswoyong-itemlopshefalse-bu-wota-michu-sou #RecommenderSystems #Tutorial #InteractiveRecommenderSystems #RecSys
Issue Date: 2017-12-28 Interactive Recommender Systems, Netflix, RecSys'15, 2015.09 #Article #Tutorial #NLP #LanguageModel #ReinforcementLearning #PostTraining #read-later #RLVR
Issue Date: 2025-08-26 The Bitter Lesson for RL: Verification as the key to Reasoning LLMs, Rishabh Agarwal, 2025.06 Comment元ポスト:https://x.com/yongyuanxi/status/1960040848051372379?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q
#Article
#ContextEngineering
Issue Date: 2025-08-22
LLM時代の検索とコンテキストエンジニアリング, Yusuke Shibui, LayerX, 2025.08
#Article
#ComputerVision
#SSM (StateSpaceModel)
Issue Date: 2025-08-12
第62回名古屋CV・PRML勉強会:CVPR2025論文紹介 (MambaOut), Naoki Okamoto, 2025.08
Comment元ポスト:https://x.com/yu4u/status/1955192808769532351?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q元論文は以下:
・2420 #Article #Tutorial #LanguageModel #SyntheticData #ACL Issue Date: 2025-08-06 Synthetic Data in the Era of LLMs, Tutorial at ACL 2025 Comment元ポスト:https://x.com/gneubig/status/1952876206388359186?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #Article #LLMAgent #Programming #SoftwareEngineering #Sequrity Issue Date: 2025-07-26 運用して初めてわかったDevinのセキュリティ課題 - Devin Meetup Tokyo 2025, 株式会社メルカリHiroki Akamatsu, 2025.07 #Article #NLP #LLMAgent #Programming Issue Date: 2025-07-25 AI時代のソフトウェア開発を考える(2025_07版) _ Agentic Software Engineering Findy 2025-07 Edition, Takuto Wada, 2025.07 CommentVibe Codingによってソフトウェアエンジニアリングの課題は解決されたわけではなく、昔からある問題は依然として存在し(技術的負債、レビューなど)、道具が変わりこれらが顕在化するスピードが急速に速まっただけ、という話な模様。
どの領域に、どのAIを使うか(委託, 伴走)なども考察されている。ロジックの複雑さが小さいものは委託(補完など)、ロジックの複雑さが高く競合との差別化が重要なエリアには伴走、といった使い方。AIは自走するが迷走、暴走もするのでガードレールがより一層重要。自分自身の能力の向上も不可欠。 #Article #NLP #LanguageModel #Prompting #Attack Issue Date: 2025-07-23 プロンプトインジェクション2.0 : 進化する防御機構とその回避手法, yuasa, 2025.07 #Article #RecommenderSystems #TwoTowerModel Issue Date: 2025-07-17 DMMにおけるレコメンドの紹介‗20250716_traP×DMM, 合同会社DMM.com, 2025.07 CommentTwo Towerモデル + LightGBMによるリランキング #Article #NLP #LanguageModel #Evaluation #Japanese #SoftwareEngineering #Admin'sPick Issue Date: 2025-07-16 論文では語られないLLM開発において重要なこと Swallow Projectを通して, Kazuki Fujii, NLPコロキウム, 2025.07 Comment独自LLM開発の私の想像など遥かに超える非常に困難な側面が記述されており、これをできるのはあまりにもすごいという感想を抱いた(小並感だけど本当にすごいと思う。すごいとしか言いようがない) #Article #Transformer #SpeechProcessing #Conversation #read-later Issue Date: 2025-07-15 【輪講資料】Moshi: a speech-text foundation model for real-time dialogue, Hayato Tsukagoshi, 2025.07 #Article #RecommenderSystems #Blog Issue Date: 2025-07-15 推薦システムにおけるPost Processの取り組み, Wantedly, 2025.07 Comment元ポスト:https://x.com/nogawanogawa/status/1945035955645055150?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QWantedlyスカウトにおいて、オンラインで動的にスカウト利用者から指定されるフィルタリング要件に対して、未閲覧のユーザの比率を動的に調整してランキングするPost Processによって、主要KPIが大幅に改善した話。モデル改善に興味が行きがちだが、顧客理解に基づくPost Processでここまで主要KPIが改善するのは美しく、非常に興味深い。スライド資料:https://x.com/nogawanogawa/status/1945442302778122687?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #Article #LLMAgent #Programming #SoftwareEngineering #ContextEngineering Issue Date: 2025-07-06 Claude Code の Context Engineering, schroneko, 2025.07 #Article #Survey #ComputerVision #CVPR Issue Date: 2025-06-26 CVPR 2025 速報, Kataoka+, 2025.06 Comment元ポスト:https://x.com/hirokatukataoka/status/1937815247923950079?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qすごいまとめだ… #Article #NLP #LanguageModel #SmallModel Issue Date: 2025-05-28 SSII2025 [OS1-03] PFNにおけるSmall Language Modelの開発, 鈴木 脩司, 画像センシングシンポジウム, 2025.05 Comment元ポスト:https://x.com/_stakaya/status/1927588359217844702?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q関連
・1827
・1828
・1999
・766先行研究を元に仮説を立てて、有望なアプローチを取る意思決定が非常に勉強になる。
Scaling Lawsが不確実性のある意思決定において非常に有用な知見となっている。同じようにPruningとKnowledge Distilationを実施した事例として下記が挙げられる
・1873 #Article #Tutorial #ComputerVision #NLP #LanguageModel #DiffusionModel Issue Date: 2025-05-24 【DL輪読会】 Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models, Deep Learning JP, 2025.05 Comment元ポスト:https://x.com/kym384/status/1925852937835737569?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q1986 でLiteratureをざっくり把握してからこちらを読むのが良さそう。 #Article #Tutorial #ComputerVision #NLP #LanguageModel #DiffusionModel Issue Date: 2025-05-24 Masked Diffusion Modelの進展, Deep Learning JP, 2025.03 Comment元ポスト:https://x.com/kym384/status/1925852884656099572?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qスライド中のARのようにKV Cacheが使えない問題に対処した研究が
・1984
この辺はdLLMが有望であれば、どんどん進化していくのだろう。 #Article #Tutorial #ACL Issue Date: 2025-05-11 ACL 2024 参加報告, 張+, 株式会社サイバーエージェント AI Lab, 2024.08 Comment業界のトレンドを把握するのに非常に参考になる:
・Reasoning, KnowledgeGraph, KnowledgeEditing, Distillation
・PEFT, Bias, Fairness, Ethics
・Multimodal(QA, Benchmarking, Summarization)
などなど。
投稿数5000件は多いなあ… #Article #LLMAgent #SoftwareEngineering Issue Date: 2025-04-26 Cursor_Devin全社導入の理想と現実, Ryoichi Saito, 2025.04 CommentDevinの思わぬ挙動のくだりが非常に面白かった。まだまだ使いづらいところが多そうだなあ…。 #Article #NLP #LanguageModel #Supervised-FineTuning (SFT) Issue Date: 2025-03-16 LLM 開発を支える多様な Fine-Tuning:PFN での取り組み, 中鉢魁三郎, PFN, 2025.03 Comment知識の追加の部分で下記研究が引用されている
・1371
・1640 #Article #LanguageModel #LLMAgent Issue Date: 2025-03-14 AI_Agent_の作り方_近藤憲児, Kenji KONDO, 2025.03 #Article Issue Date: 2025-02-26 Docker入門2024, Cybozu #Article #Pretraining #NLP #LanguageModel Issue Date: 2025-02-12 LLMの事前学習のためのテキストデータの収集と構築, Shun Kiyono, 2015.02 Comment詳細は著書に記載とのこと。興味深い。 #Article #Survey #ComputerVision #Pocket #NLP #LanguageModel Issue Date: 2024-11-18 Large Vision Language Model (LVLM)に関する知見まとめ, Daiki Shiono, 2024.11 #Article #EfficiencyImprovement #Pocket #LanguageModel Issue Date: 2024-11-14 TensorRT-LLMによる推論高速化, Hiroshi Matsuda, NVIDIA AI Summit 2024.11 Comment元ポスト:https://x.com/hmtd223/status/1856887876665184649?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q非常に興味深いので後で読む #Article #Pocket #LanguageModel Issue Date: 2024-10-05 今日から始める大規模言語モデルのプロダクト活用, y_matsuwitter, 2024.10 #Article #Pocket #Management Issue Date: 2024-09-25 NLP Experimental Design, Graham Neubig, 2024 #Article #RecommenderSystems Issue Date: 2024-09-15 クリックを最大化しない推薦システム, Ryoma Sato, 2024.01 Commentおもしろそうなので後で読むクリック率やコンバージョン率に最適化することが従来のやり方だが、クリックベイトのため粗悪なコンテンツを推薦してしまったり、人気のあるアイテムに推薦リストが偏ってしまい、長期的なユーザの利益を害するという話。
20年くらい前からこの辺をなんとかするために、推薦のセレンディピティや多様性を考慮する手法が研究されており、それらのエッセンスが紹介されている。また、Calibrated Recommendation 1403(ユーザの推薦リストがのジャンルの比率がユーザの好む比率になるように最適化する方法で、劣モジュラ関数を最適化するためgreedyに解いてもある程度良い近似解が保証されている)などの概要も説明されていて非常に勉強になった。
セレンディピティのある推薦アルゴリズムをGoogle上でA/Bテストしたら、ユーザの満足度とコアユーザー転換率が大幅に向上したと言う話や、推薦はフィルターバブル問題を実は悪化させないといった研究がGroupLensのKonstan先生のチームから出ているなど、興味深い話題が盛りだくさんだった。 #Article Issue Date: 2024-09-03 AI時代を生き抜くために処理をちゃんと書けるようになろう, きしだ なおき, LINEヤフー, 2024.01 #Article #Analysis #LanguageModel #OpenWeight #Japanese Issue Date: 2024-09-03 LLMに日本語テキストを学習させる意義, Koshiro Saito+, 第261回自然言語処理研究発表会, 2024.08 Comment英日翻訳や日本特有の知識を問われるようなQAにおいて、日本語データによる学習の効果があることが示唆されている模様。
たとえば、1359 に示されている通り、Llama2における日本語データの割合は0.2%とかなので、英語圏のOpenLLMにおいて、日本語データの比率がどれだけ少ないかがわかる。 #Article #Tutorial #LanguageModel Issue Date: 2024-09-01 大規模言語モデル (LLM) の技術と最新動向, Ikuya Yamada, 2024.06 CommentLLMの原理の基礎的な内容について、丁寧かつコンパクトにまとまっている。
>ファインチューニングは新しい知識の学習ではなく知識の使い方を学習させるのに向いている
これをきちんと念頭に置いておかないと落とし穴にハマると思う。引用元の論文読みたい(1371)。画像は資料中より引用。LLMの作り方について非常にシンプルにまとまっている。
アライメントがなぜ必要か?の例もわかりやすい!
#Article #Tutorial #NLP #LanguageModel #OpenWeight Issue Date: 2024-08-26 論文紹介 _ The Llama 3 Herd of Models, 2024.08 CommentLlama3の事前学習や事後学習のノウハウが詰まっており(安全性なども含む)、LLM学習に必要な要素が図解されており、非常に分かりやすい。
たとえば下記図(スライド中より引用)などは、LLMの学習過程を説明する際にわかりやすそう
LLMの事前・事後学習あたりは独自ノウハウが多すぎてもはや追従困難 #Article #Pocket #Management Issue Date: 2024-08-10 現代的システム開発概論2024, 2024.08 #Article #Tutorial #Pocket #Programming Issue Date: 2022-03-02 良いコードとは何か - エンジニア新卒研修 スライド公開, CyberZ, 森 #Article #Tutorial #MachineLearning Issue Date: 2022-02-07 NeurIPS 2021 技術報告会, 株式会社TDAI Lab, 2022 CommentNeurIPS 2021での技術トレンドがまとめられている
1. アーキテクチャの改善
2. マルチモーダルモデル
3. Temporal Adaptation
4. Retrieval Augmentation
5. ベンチマーク見直し
6. データセット見直し
7. Human-Centered AI #Article #Tutorial #Tools #NLP #Library #python Issue Date: 2021-06-11 最先端自然言語処理ライブラリの最適な選択と有用な利用方法 _ pycon-jp-2020 Comment各形態素解析ライブラリの特徴や比較がされていて、自分の用途・目的に合わせてどの形態素解析器が良いか意思決定する際に有用
#Article #RecommenderSystems #Tutorial #Tools #Dataset Issue Date: 2020-08-29 Off Policy Evaluation の基礎とOpen Bandit Dataset & Pipelineの紹介, Yuta Saito, 2020 Comment機械学習による予測精度ではなく、機械学習モデルによって生じる意思決定を、過去の蓄積されたデータから評価する(Off policy Evaluation)の、tutorialおよび実装、データセットについて紹介。
このような観点は実務上あるし、見落としがちだと思うので、とても興味深い。 #Article #Tutorial #MachineLearning #kNN Issue Date: 2020-07-30 近似最近傍探索の最前線, Yusuke Matsui, 2019 Commentk-NNベースドなRecommender Systemを構築したけど、Inferenceに時間がかかって、先方のレスポンスタイムの要求が満たせない...というときに役に立ちそう。yahooのNGTといった実装も転がっている(Apache-2.0 License):
https://techblog.yahoo.co.jp/data_solution/ngtpython/ScaNNという手法もあるらしい(SoTA)
https://ai-scholar.tech/articles/vector-search/scann #Article #Tutorial #NLP #LanguageModel Issue Date: 2020-01-13 BERT入門, Ken'ichi Matsui, 2020 Comment自然言語処理の王様「BERT」の論文を徹底解説
https://qiita.com/omiita/items/72998858efc19a368e50Transformer関連 245 あたりを先に読んでからが読むと良い
要は
・Transformerをたくさん積んだモデル
・NSPとMLMで双方向性を持った事前学習タスクを実施することで性能向上
・pooler layer(Transformer Encoderの次にくっつくlayer)を切り替えることで、様々なタスクにfine-tuning可能(i.e. pooler layerは転移学習の対象外)
・予測する際は、[CLS]トークンに対応する位置の出力を用いて分類問題や複数文間の関係性を問う問題を解いたり、各トークン位置に対応する出力を用いてQAの正解spanを予測したり、色々できる
・gMLP 344 あたりの研究が進んでくると使われなくなってくる可能性有こっちの記事もわかりやすい。
BERTについて勉強したことまとめ (2)モデル構造について
https://engineering.mobalab.net/2020/06/12/bert%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6%E5%8B%89%E5%BC%B7%E3%81%97%E3%81%9F%E3%81%93%E3%81%A8%E3%81%BE%E3%81%A8%E3%82%81-2%E3%83%A2%E3%83%87%E3%83%AB%E6%A7%8B%E9%80%A0%E3%81%AB%E3%81%A4%E3%81%84/ #Article #Tutorial #NLP Issue Date: 2019-11-09 EMNLP 2019 spec tutorial #Article #NeuralNetwork #Survey #NLP #LanguageModel #Admin'sPick Issue Date: 2019-11-09 事前学習言語モデルの動向 _ Survey of Pretrained Language Models, Kyosuke Nishida, 2019 Comment[2019/06まで]
・ELMo(双方向2層LSTM言語モデル)
・GPT(left-to-rightの12層Transformer自己回帰言語モデル)
・BERT(24層のTransformer双方向言語モデル)
・MT-DNN(BERTの上にマルチタスク層を追加した研究)
・XLM(パラレル翻訳コーパスを用いてクロスリンガルに穴埋めを学習)
・TransformerXL(系列長いに制限のあった既存モデルにセグメントレベルの再帰を導入し長い系列を扱えるように)
・GPT-2(48層Transformerの自己回帰言語モデル)
・ERNIE 1.0(Baidu, エンティティとフレーズの外部知識を使ってマスクに利用)
・ERNIE(Tsinghua, 知識グラフの情報をfusionしたLM)
・Glover(ドメイン、日付、著者などを条件とした生成を可能としたGPT)
・MASS(Encoder-Decoder型の生成モデルのための事前学習)
・UniLM(Sequence-to-Sequenceを可能にした言語モデル)
・XLNet(自己回帰(単方向)モデルと双方向モデルの両方の利点を得ることを目指す)
[2019/07~]
・SpanBERT(i.i.dではなく範囲でマスクし、同時に範囲の境界も予測する)
・ERNIE 2.0(Baidu, マルチタスク事前学習; 単語レベル・構造レベル・意味レベル)
・RoBERTa(BERTと同じ構造で工夫を加えることで性能向上)
・より大きなバッチサイズを使う(256から8192)
・より多くのデータを使う(16GBから160GB)
・より長いステップ数の学習をする(BERT換算で16倍)
・次文予測(NSP)は不要
→ GLUEでBERT, XLNetをoutperform
・StructBERT (ALICE, NSPに代わる学習の目的関数を工夫)
・マスクした上で単語の順番をシャッフルし元に戻す
・ランダム・正順・逆順の3種類を分類
→ BERTと同サイズ、同データでBERT, RoBERTa超え
・DistilBERT(蒸留により、12層BERTを6層に小型化(40%減))
・BERTの出力を教師として、生徒が同じ出力を出すように学習
・幅(隠れ層)サイズを減らすと、層数を経あrスよりも悪化
→ 推論は60%高速化、精度は95%程度を保持
・Q8BERT(精度を落とさずにfine-tuning時にBERTを8bit整数に量子化)
・Embedding, FCは8bit化、softmax, LNorm, GELUは32bitをキープ
→ モデルサイズ1/4, 速度3.7倍
・CTRL(条件付き言語モデル)
・条件となる制御テキストを本文の前に与えて学習
・48層/1280次元Transformer(パラメータ数1.6B)
・MegatronLM(72層、隠れ状態サイズ3072、長さ1024; BERTの24倍サイズ)
・ALBERT(BERTの層のパラメータをすべて共有することで学習を高速化; 2020年あたりのデファクト)
・Largeを超えたモデルは学習が難しいため、表現は落ちるが学習しやすくした
・単語埋め込みを低次元にすることでパラメータ数削減
・次文予測を、文の順序入れ替え判定に変更
→ GLUE, RACE, SQuADでSoTAを更新
・T5(NLPタスクをすべてtext-to-textとして扱い、Enc-Dec Transformerを745GBコーパスで事前学習して転移する)
・モデルはEncoder-DecoderのTransformer
・学習タスクをエンコーダ・デコーダに合わせて変更
・エンコーダ側で範囲を欠落させて、デコーダ側で予測
→ GLUE, SuperGLUE, SQuAD1.1, CNN/DMでSoTA更新
・BART(Seq2Seqの事前学習として、トークンマスク・削除、範囲マスク、文の入れ替え、文書の回転の複数タスクで学習)
→ CNN/DMでT5超え、WMT'16 RO-ENで逆翻訳を超えてSoTAELMo, GPT, BERT, GPT-2, XLNet, RoBERTa, DistilBERT, ALBERT, T5あたりは良く見るような感各データセットでの各モデルの性能も後半に記載されており興味深い。
ちなみに、CNN/DailyMail Datasetでは、T5, BARTあたりがSoTA。
R2で比較すると
・Pointer-Generator + Coverage Vectorが17,28
・LEAD-3が17.62
・BARTが21.28
・T5が21.55
となっている #Article #RecommenderSystems #Tutorial #Explanation #SIGKDD Issue Date: 2019-08-19 Explainable AI in Industry, KDD19 #Article #Tutorial #MachineTranslation #NLP #Alignment Issue Date: 2018-01-15 ALAGIN 機械翻訳セミナー 単語アライメント, Graham Neubig CommentNeubigさんによる単語アライメントチュートリアル #Article #NeuralNetwork #Tutorial #NLP #Admin'sPick Issue Date: 2018-01-15 自然言語処理のためのDeep Learning, Yuta Kikuchi #Article #Tutorial #InformationRetrieval #LearningToRank Issue Date: 2018-01-01 Confidence Weightedでランク学習を実装してみた, 徳永拓之, 第4回 自然言語処理勉強会@東京 #Article #Tutorial #InformationRetrieval #LearningToRank Issue Date: 2018-01-01 ランキング学習ことはじめ, DSIRNLP#1, 2011
・2420 #Article #Tutorial #LanguageModel #SyntheticData #ACL Issue Date: 2025-08-06 Synthetic Data in the Era of LLMs, Tutorial at ACL 2025 Comment元ポスト:https://x.com/gneubig/status/1952876206388359186?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #Article #LLMAgent #Programming #SoftwareEngineering #Sequrity Issue Date: 2025-07-26 運用して初めてわかったDevinのセキュリティ課題 - Devin Meetup Tokyo 2025, 株式会社メルカリHiroki Akamatsu, 2025.07 #Article #NLP #LLMAgent #Programming Issue Date: 2025-07-25 AI時代のソフトウェア開発を考える(2025_07版) _ Agentic Software Engineering Findy 2025-07 Edition, Takuto Wada, 2025.07 CommentVibe Codingによってソフトウェアエンジニアリングの課題は解決されたわけではなく、昔からある問題は依然として存在し(技術的負債、レビューなど)、道具が変わりこれらが顕在化するスピードが急速に速まっただけ、という話な模様。
どの領域に、どのAIを使うか(委託, 伴走)なども考察されている。ロジックの複雑さが小さいものは委託(補完など)、ロジックの複雑さが高く競合との差別化が重要なエリアには伴走、といった使い方。AIは自走するが迷走、暴走もするのでガードレールがより一層重要。自分自身の能力の向上も不可欠。 #Article #NLP #LanguageModel #Prompting #Attack Issue Date: 2025-07-23 プロンプトインジェクション2.0 : 進化する防御機構とその回避手法, yuasa, 2025.07 #Article #RecommenderSystems #TwoTowerModel Issue Date: 2025-07-17 DMMにおけるレコメンドの紹介‗20250716_traP×DMM, 合同会社DMM.com, 2025.07 CommentTwo Towerモデル + LightGBMによるリランキング #Article #NLP #LanguageModel #Evaluation #Japanese #SoftwareEngineering #Admin'sPick Issue Date: 2025-07-16 論文では語られないLLM開発において重要なこと Swallow Projectを通して, Kazuki Fujii, NLPコロキウム, 2025.07 Comment独自LLM開発の私の想像など遥かに超える非常に困難な側面が記述されており、これをできるのはあまりにもすごいという感想を抱いた(小並感だけど本当にすごいと思う。すごいとしか言いようがない) #Article #Transformer #SpeechProcessing #Conversation #read-later Issue Date: 2025-07-15 【輪講資料】Moshi: a speech-text foundation model for real-time dialogue, Hayato Tsukagoshi, 2025.07 #Article #RecommenderSystems #Blog Issue Date: 2025-07-15 推薦システムにおけるPost Processの取り組み, Wantedly, 2025.07 Comment元ポスト:https://x.com/nogawanogawa/status/1945035955645055150?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QWantedlyスカウトにおいて、オンラインで動的にスカウト利用者から指定されるフィルタリング要件に対して、未閲覧のユーザの比率を動的に調整してランキングするPost Processによって、主要KPIが大幅に改善した話。モデル改善に興味が行きがちだが、顧客理解に基づくPost Processでここまで主要KPIが改善するのは美しく、非常に興味深い。スライド資料:https://x.com/nogawanogawa/status/1945442302778122687?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #Article #LLMAgent #Programming #SoftwareEngineering #ContextEngineering Issue Date: 2025-07-06 Claude Code の Context Engineering, schroneko, 2025.07 #Article #Survey #ComputerVision #CVPR Issue Date: 2025-06-26 CVPR 2025 速報, Kataoka+, 2025.06 Comment元ポスト:https://x.com/hirokatukataoka/status/1937815247923950079?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qすごいまとめだ… #Article #NLP #LanguageModel #SmallModel Issue Date: 2025-05-28 SSII2025 [OS1-03] PFNにおけるSmall Language Modelの開発, 鈴木 脩司, 画像センシングシンポジウム, 2025.05 Comment元ポスト:https://x.com/_stakaya/status/1927588359217844702?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q関連
・1827
・1828
・1999
・766先行研究を元に仮説を立てて、有望なアプローチを取る意思決定が非常に勉強になる。
Scaling Lawsが不確実性のある意思決定において非常に有用な知見となっている。同じようにPruningとKnowledge Distilationを実施した事例として下記が挙げられる
・1873 #Article #Tutorial #ComputerVision #NLP #LanguageModel #DiffusionModel Issue Date: 2025-05-24 【DL輪読会】 Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models, Deep Learning JP, 2025.05 Comment元ポスト:https://x.com/kym384/status/1925852937835737569?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q1986 でLiteratureをざっくり把握してからこちらを読むのが良さそう。 #Article #Tutorial #ComputerVision #NLP #LanguageModel #DiffusionModel Issue Date: 2025-05-24 Masked Diffusion Modelの進展, Deep Learning JP, 2025.03 Comment元ポスト:https://x.com/kym384/status/1925852884656099572?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qスライド中のARのようにKV Cacheが使えない問題に対処した研究が
・1984
この辺はdLLMが有望であれば、どんどん進化していくのだろう。 #Article #Tutorial #ACL Issue Date: 2025-05-11 ACL 2024 参加報告, 張+, 株式会社サイバーエージェント AI Lab, 2024.08 Comment業界のトレンドを把握するのに非常に参考になる:
・Reasoning, KnowledgeGraph, KnowledgeEditing, Distillation
・PEFT, Bias, Fairness, Ethics
・Multimodal(QA, Benchmarking, Summarization)
などなど。
投稿数5000件は多いなあ… #Article #LLMAgent #SoftwareEngineering Issue Date: 2025-04-26 Cursor_Devin全社導入の理想と現実, Ryoichi Saito, 2025.04 CommentDevinの思わぬ挙動のくだりが非常に面白かった。まだまだ使いづらいところが多そうだなあ…。 #Article #NLP #LanguageModel #Supervised-FineTuning (SFT) Issue Date: 2025-03-16 LLM 開発を支える多様な Fine-Tuning:PFN での取り組み, 中鉢魁三郎, PFN, 2025.03 Comment知識の追加の部分で下記研究が引用されている
・1371
・1640 #Article #LanguageModel #LLMAgent Issue Date: 2025-03-14 AI_Agent_の作り方_近藤憲児, Kenji KONDO, 2025.03 #Article Issue Date: 2025-02-26 Docker入門2024, Cybozu #Article #Pretraining #NLP #LanguageModel Issue Date: 2025-02-12 LLMの事前学習のためのテキストデータの収集と構築, Shun Kiyono, 2015.02 Comment詳細は著書に記載とのこと。興味深い。 #Article #Survey #ComputerVision #Pocket #NLP #LanguageModel Issue Date: 2024-11-18 Large Vision Language Model (LVLM)に関する知見まとめ, Daiki Shiono, 2024.11 #Article #EfficiencyImprovement #Pocket #LanguageModel Issue Date: 2024-11-14 TensorRT-LLMによる推論高速化, Hiroshi Matsuda, NVIDIA AI Summit 2024.11 Comment元ポスト:https://x.com/hmtd223/status/1856887876665184649?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q非常に興味深いので後で読む #Article #Pocket #LanguageModel Issue Date: 2024-10-05 今日から始める大規模言語モデルのプロダクト活用, y_matsuwitter, 2024.10 #Article #Pocket #Management Issue Date: 2024-09-25 NLP Experimental Design, Graham Neubig, 2024 #Article #RecommenderSystems Issue Date: 2024-09-15 クリックを最大化しない推薦システム, Ryoma Sato, 2024.01 Commentおもしろそうなので後で読むクリック率やコンバージョン率に最適化することが従来のやり方だが、クリックベイトのため粗悪なコンテンツを推薦してしまったり、人気のあるアイテムに推薦リストが偏ってしまい、長期的なユーザの利益を害するという話。
20年くらい前からこの辺をなんとかするために、推薦のセレンディピティや多様性を考慮する手法が研究されており、それらのエッセンスが紹介されている。また、Calibrated Recommendation 1403(ユーザの推薦リストがのジャンルの比率がユーザの好む比率になるように最適化する方法で、劣モジュラ関数を最適化するためgreedyに解いてもある程度良い近似解が保証されている)などの概要も説明されていて非常に勉強になった。
セレンディピティのある推薦アルゴリズムをGoogle上でA/Bテストしたら、ユーザの満足度とコアユーザー転換率が大幅に向上したと言う話や、推薦はフィルターバブル問題を実は悪化させないといった研究がGroupLensのKonstan先生のチームから出ているなど、興味深い話題が盛りだくさんだった。 #Article Issue Date: 2024-09-03 AI時代を生き抜くために処理をちゃんと書けるようになろう, きしだ なおき, LINEヤフー, 2024.01 #Article #Analysis #LanguageModel #OpenWeight #Japanese Issue Date: 2024-09-03 LLMに日本語テキストを学習させる意義, Koshiro Saito+, 第261回自然言語処理研究発表会, 2024.08 Comment英日翻訳や日本特有の知識を問われるようなQAにおいて、日本語データによる学習の効果があることが示唆されている模様。
たとえば、1359 に示されている通り、Llama2における日本語データの割合は0.2%とかなので、英語圏のOpenLLMにおいて、日本語データの比率がどれだけ少ないかがわかる。 #Article #Tutorial #LanguageModel Issue Date: 2024-09-01 大規模言語モデル (LLM) の技術と最新動向, Ikuya Yamada, 2024.06 CommentLLMの原理の基礎的な内容について、丁寧かつコンパクトにまとまっている。
>ファインチューニングは新しい知識の学習ではなく知識の使い方を学習させるのに向いている
これをきちんと念頭に置いておかないと落とし穴にハマると思う。引用元の論文読みたい(1371)。画像は資料中より引用。LLMの作り方について非常にシンプルにまとまっている。
アライメントがなぜ必要か?の例もわかりやすい!
#Article #Tutorial #NLP #LanguageModel #OpenWeight Issue Date: 2024-08-26 論文紹介 _ The Llama 3 Herd of Models, 2024.08 CommentLlama3の事前学習や事後学習のノウハウが詰まっており(安全性なども含む)、LLM学習に必要な要素が図解されており、非常に分かりやすい。
たとえば下記図(スライド中より引用)などは、LLMの学習過程を説明する際にわかりやすそう
LLMの事前・事後学習あたりは独自ノウハウが多すぎてもはや追従困難 #Article #Pocket #Management Issue Date: 2024-08-10 現代的システム開発概論2024, 2024.08 #Article #Tutorial #Pocket #Programming Issue Date: 2022-03-02 良いコードとは何か - エンジニア新卒研修 スライド公開, CyberZ, 森 #Article #Tutorial #MachineLearning Issue Date: 2022-02-07 NeurIPS 2021 技術報告会, 株式会社TDAI Lab, 2022 CommentNeurIPS 2021での技術トレンドがまとめられている
1. アーキテクチャの改善
2. マルチモーダルモデル
3. Temporal Adaptation
4. Retrieval Augmentation
5. ベンチマーク見直し
6. データセット見直し
7. Human-Centered AI #Article #Tutorial #Tools #NLP #Library #python Issue Date: 2021-06-11 最先端自然言語処理ライブラリの最適な選択と有用な利用方法 _ pycon-jp-2020 Comment各形態素解析ライブラリの特徴や比較がされていて、自分の用途・目的に合わせてどの形態素解析器が良いか意思決定する際に有用

#Article #RecommenderSystems #Tutorial #Tools #Dataset Issue Date: 2020-08-29 Off Policy Evaluation の基礎とOpen Bandit Dataset & Pipelineの紹介, Yuta Saito, 2020 Comment機械学習による予測精度ではなく、機械学習モデルによって生じる意思決定を、過去の蓄積されたデータから評価する(Off policy Evaluation)の、tutorialおよび実装、データセットについて紹介。
このような観点は実務上あるし、見落としがちだと思うので、とても興味深い。 #Article #Tutorial #MachineLearning #kNN Issue Date: 2020-07-30 近似最近傍探索の最前線, Yusuke Matsui, 2019 Commentk-NNベースドなRecommender Systemを構築したけど、Inferenceに時間がかかって、先方のレスポンスタイムの要求が満たせない...というときに役に立ちそう。yahooのNGTといった実装も転がっている(Apache-2.0 License):
https://techblog.yahoo.co.jp/data_solution/ngtpython/ScaNNという手法もあるらしい(SoTA)
https://ai-scholar.tech/articles/vector-search/scann #Article #Tutorial #NLP #LanguageModel Issue Date: 2020-01-13 BERT入門, Ken'ichi Matsui, 2020 Comment自然言語処理の王様「BERT」の論文を徹底解説
https://qiita.com/omiita/items/72998858efc19a368e50Transformer関連 245 あたりを先に読んでからが読むと良い
要は
・Transformerをたくさん積んだモデル
・NSPとMLMで双方向性を持った事前学習タスクを実施することで性能向上
・pooler layer(Transformer Encoderの次にくっつくlayer)を切り替えることで、様々なタスクにfine-tuning可能(i.e. pooler layerは転移学習の対象外)
・予測する際は、[CLS]トークンに対応する位置の出力を用いて分類問題や複数文間の関係性を問う問題を解いたり、各トークン位置に対応する出力を用いてQAの正解spanを予測したり、色々できる
・gMLP 344 あたりの研究が進んでくると使われなくなってくる可能性有こっちの記事もわかりやすい。
BERTについて勉強したことまとめ (2)モデル構造について
https://engineering.mobalab.net/2020/06/12/bert%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6%E5%8B%89%E5%BC%B7%E3%81%97%E3%81%9F%E3%81%93%E3%81%A8%E3%81%BE%E3%81%A8%E3%82%81-2%E3%83%A2%E3%83%87%E3%83%AB%E6%A7%8B%E9%80%A0%E3%81%AB%E3%81%A4%E3%81%84/ #Article #Tutorial #NLP Issue Date: 2019-11-09 EMNLP 2019 spec tutorial #Article #NeuralNetwork #Survey #NLP #LanguageModel #Admin'sPick Issue Date: 2019-11-09 事前学習言語モデルの動向 _ Survey of Pretrained Language Models, Kyosuke Nishida, 2019 Comment[2019/06まで]
・ELMo(双方向2層LSTM言語モデル)
・GPT(left-to-rightの12層Transformer自己回帰言語モデル)
・BERT(24層のTransformer双方向言語モデル)
・MT-DNN(BERTの上にマルチタスク層を追加した研究)
・XLM(パラレル翻訳コーパスを用いてクロスリンガルに穴埋めを学習)
・TransformerXL(系列長いに制限のあった既存モデルにセグメントレベルの再帰を導入し長い系列を扱えるように)
・GPT-2(48層Transformerの自己回帰言語モデル)
・ERNIE 1.0(Baidu, エンティティとフレーズの外部知識を使ってマスクに利用)
・ERNIE(Tsinghua, 知識グラフの情報をfusionしたLM)
・Glover(ドメイン、日付、著者などを条件とした生成を可能としたGPT)
・MASS(Encoder-Decoder型の生成モデルのための事前学習)
・UniLM(Sequence-to-Sequenceを可能にした言語モデル)
・XLNet(自己回帰(単方向)モデルと双方向モデルの両方の利点を得ることを目指す)
[2019/07~]
・SpanBERT(i.i.dではなく範囲でマスクし、同時に範囲の境界も予測する)
・ERNIE 2.0(Baidu, マルチタスク事前学習; 単語レベル・構造レベル・意味レベル)
・RoBERTa(BERTと同じ構造で工夫を加えることで性能向上)
・より大きなバッチサイズを使う(256から8192)
・より多くのデータを使う(16GBから160GB)
・より長いステップ数の学習をする(BERT換算で16倍)
・次文予測(NSP)は不要
→ GLUEでBERT, XLNetをoutperform
・StructBERT (ALICE, NSPに代わる学習の目的関数を工夫)
・マスクした上で単語の順番をシャッフルし元に戻す
・ランダム・正順・逆順の3種類を分類
→ BERTと同サイズ、同データでBERT, RoBERTa超え
・DistilBERT(蒸留により、12層BERTを6層に小型化(40%減))
・BERTの出力を教師として、生徒が同じ出力を出すように学習
・幅(隠れ層)サイズを減らすと、層数を経あrスよりも悪化
→ 推論は60%高速化、精度は95%程度を保持
・Q8BERT(精度を落とさずにfine-tuning時にBERTを8bit整数に量子化)
・Embedding, FCは8bit化、softmax, LNorm, GELUは32bitをキープ
→ モデルサイズ1/4, 速度3.7倍
・CTRL(条件付き言語モデル)
・条件となる制御テキストを本文の前に与えて学習
・48層/1280次元Transformer(パラメータ数1.6B)
・MegatronLM(72層、隠れ状態サイズ3072、長さ1024; BERTの24倍サイズ)
・ALBERT(BERTの層のパラメータをすべて共有することで学習を高速化; 2020年あたりのデファクト)
・Largeを超えたモデルは学習が難しいため、表現は落ちるが学習しやすくした
・単語埋め込みを低次元にすることでパラメータ数削減
・次文予測を、文の順序入れ替え判定に変更
→ GLUE, RACE, SQuADでSoTAを更新
・T5(NLPタスクをすべてtext-to-textとして扱い、Enc-Dec Transformerを745GBコーパスで事前学習して転移する)
・モデルはEncoder-DecoderのTransformer
・学習タスクをエンコーダ・デコーダに合わせて変更
・エンコーダ側で範囲を欠落させて、デコーダ側で予測
→ GLUE, SuperGLUE, SQuAD1.1, CNN/DMでSoTA更新
・BART(Seq2Seqの事前学習として、トークンマスク・削除、範囲マスク、文の入れ替え、文書の回転の複数タスクで学習)
→ CNN/DMでT5超え、WMT'16 RO-ENで逆翻訳を超えてSoTAELMo, GPT, BERT, GPT-2, XLNet, RoBERTa, DistilBERT, ALBERT, T5あたりは良く見るような感各データセットでの各モデルの性能も後半に記載されており興味深い。
ちなみに、CNN/DailyMail Datasetでは、T5, BARTあたりがSoTA。
R2で比較すると
・Pointer-Generator + Coverage Vectorが17,28
・LEAD-3が17.62
・BARTが21.28
・T5が21.55
となっている #Article #RecommenderSystems #Tutorial #Explanation #SIGKDD Issue Date: 2019-08-19 Explainable AI in Industry, KDD19 #Article #Tutorial #MachineTranslation #NLP #Alignment Issue Date: 2018-01-15 ALAGIN 機械翻訳セミナー 単語アライメント, Graham Neubig CommentNeubigさんによる単語アライメントチュートリアル #Article #NeuralNetwork #Tutorial #NLP #Admin'sPick Issue Date: 2018-01-15 自然言語処理のためのDeep Learning, Yuta Kikuchi #Article #Tutorial #InformationRetrieval #LearningToRank Issue Date: 2018-01-01 Confidence Weightedでランク学習を実装してみた, 徳永拓之, 第4回 自然言語処理勉強会@東京 #Article #Tutorial #InformationRetrieval #LearningToRank Issue Date: 2018-01-01 ランキング学習ことはじめ, DSIRNLP#1, 2011