Tutorial
#MachineLearning
#Pocket
#ReinforcementLearning
Issue Date: 2024-12-10 Reinforcement Learning: An Overview, Kevin Murphy, arXiv'24 Summaryこの原稿は、深層強化学習と逐次的意思決定に関する最新の全体像を提供し、価値ベースのRL、ポリシー勾配法、モデルベース手法、RLとLLMsの統合について簡潔に議論しています。 CommentあのMurphy本で有名なMurphy氏の強化学習の教科書…だと… #ComputerVision #Pocket #DiffusionModel
Issue Date: 2024-11-17 Tutorial on Diffusion Models for Imaging and Vision, Stanley H. Chan, arXiv'24 Summary生成ツールの成長により、テキストから画像や動画を生成する新しいアプリケーションが可能に。拡散モデルの原理がこれらの生成ツールの基盤であり、従来のアプローチの欠点を克服。チュートリアルでは、拡散モデルの基本的なアイデアを学部生や大学院生向けに解説。 Commentいつか読まなければならない #RecommenderSystems #LanguageModel #GenerativeAI #DiffusionModel
Issue Date: 2024-09-24 Recommendation with Generative Models, Yashar Deldjoo+, N_A, arXiv'24 Summary生成モデルは新しいデータを生成するAIモデルであり、GANやVAE、トランスフォーマーに基づくアーキテクチャが注目されている。特にレコメンダーシステムにおいては、Gen-RecSysが推薦の精度と多様性を向上させ、パーソナライズされたユーザー体験を提供する。本書では、深層生成モデルをID駆動モデル、LLM、マルチモーダルモデルの3つに分類し、それぞれの技術的進展を紹介。生成モデルの影響やリスクについても考察し、評価フレームワークの重要性を強調する。 Comment生成モデルやGenerativeAIによるRecSysの教科書
Issue Date: 2024-12-10 Reinforcement Learning: An Overview, Kevin Murphy, arXiv'24 Summaryこの原稿は、深層強化学習と逐次的意思決定に関する最新の全体像を提供し、価値ベースのRL、ポリシー勾配法、モデルベース手法、RLとLLMsの統合について簡潔に議論しています。 CommentあのMurphy本で有名なMurphy氏の強化学習の教科書…だと… #ComputerVision #Pocket #DiffusionModel
Issue Date: 2024-11-17 Tutorial on Diffusion Models for Imaging and Vision, Stanley H. Chan, arXiv'24 Summary生成ツールの成長により、テキストから画像や動画を生成する新しいアプリケーションが可能に。拡散モデルの原理がこれらの生成ツールの基盤であり、従来のアプローチの欠点を克服。チュートリアルでは、拡散モデルの基本的なアイデアを学部生や大学院生向けに解説。 Commentいつか読まなければならない #RecommenderSystems #LanguageModel #GenerativeAI #DiffusionModel
Issue Date: 2024-09-24 Recommendation with Generative Models, Yashar Deldjoo+, N_A, arXiv'24 Summary生成モデルは新しいデータを生成するAIモデルであり、GANやVAE、トランスフォーマーに基づくアーキテクチャが注目されている。特にレコメンダーシステムにおいては、Gen-RecSysが推薦の精度と多様性を向上させ、パーソナライズされたユーザー体験を提供する。本書では、深層生成モデルをID駆動モデル、LLM、マルチモーダルモデルの3つに分類し、それぞれの技術的進展を紹介。生成モデルの影響やリスクについても考察し、評価フレームワークの重要性を強調する。 Comment生成モデルやGenerativeAIによるRecSysの教科書
#Pocket
#LanguageModel
Issue Date: 2023-04-27
Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond, Yang+, Amazon, TKDD'24
Summary本記事は、自然言語処理(NLP)タスクにおける大規模言語モデル(LLMs)の実践的なガイドを提供し、モデルやデータ、タスクに関する洞察を示します。LLMsの概要、データの影響、知識集約型タスクや生成タスクにおける使用ケースと非使用ケースを詳述し、実用的な応用と限界を探ります。また、虚偽のバイアスや展開時の考慮事項についても言及し、研究者や実務者に役立つベストプラクティスを提供します。関連リソースは定期的に更新され、オンラインでアクセス可能です。
CommentLLMに関するチュートリアル
encoder-onlyとまとめられているものの中には、デコーダーがあるものがあり(autoregressive decoderではない)、
encoder-decoderは正しい意味としてはencoder with autoregressive decoderであり、
decoder-onlyは正しい意味としてはautoregressive encoder-decoder
とのこと。
https://twitter.com/ylecun/status/1651762787373428736?s=46&t=-zElejt4asTKBGLr-c3bKw #Pocket #NLP #LanguageModel #Chain-of-Thought Issue Date: 2023-11-21 Igniting Language Intelligence: The Hitchhiker's Guide From Chain-of-Thought Reasoning to Language Agents, Zhuosheng Zhang+, N_A, arXiv'23 Summary大規模言語モデル(LLMs)は、言語知能の分野で劇的な進歩を遂げており、複雑な推論タスクにおいて高いパフォーマンスを示しています。特に、chain-of-thought(CoT)推論技術を活用することで、中間ステップを形成し、解釈可能性や制御可能性を向上させることができます。この論文では、CoT技術の基本的なメカニズムやその効果について詳しく解説し、言語エージェントの開発における応用例を紹介しています。将来の研究の展望にも触れており、初心者から経験豊富な研究者まで幅広い読者に対応しています。関連論文のリポジトリも提供されています。 CommentCoTに関するチュートリアル論文 #Survey #NLP #LanguageModel Issue Date: 2023-07-22 Challenges and Applications of Large Language Models, Jean Kaddour+, N_A, arXiv'23 Summary本論文では、大規模言語モデル(LLMs)の普及により、研究者が分野の現状を理解し、生産的になるための問題と応用成功例を確立することを目指しています。 CommentLLMのここ数年の進化早すぎわろたでキャッチアップむずいので、未解決の課題や、すでに良い感じのアプリケーションの分野分かりづらいので、まとめました論文 #RecommenderSystems #Infrastructure #python #Slide Issue Date: 2021-10-21 コミュニティサービスにおけるレコメンデーションの変遷とMLパイプラインについて, PyCon'21 Comment・ママ向けのQ&AサービスにおけるレコメンドとMLパイプラインについて紹介
◆レコメンドエンジンの変遷
・Tensorflowで実装したMFから始まり、その後トピックを絞り込んだ上で推薦するためにLDAを活用したレコメンド、最終的にSoftmax Recommendationを開発
Softmax Recommendation: https://developers.google.com/machine-learning/recommendation/dnn/softmax
ユーザプロファイル(e.g. 行動ベクトル, ユーザの属性情報)等を入力とし、hidden layerをかませて最終的にアイテム次元数分のスコアベクトルを得る手法
行動ベクトル=ユーザが過去にクリックしたQ&Aだが、質問ベクトルを得るために内容テキストは利用せず行動ログ+word2vecで学習
類似質問検索による定性評価の結果良い結果、関連質問を抽出できるベクトルとなっていることを確認
→ レコメンド手法の変遷につれ、ベンチマークを上回るようになっていった◆MLパイプラインについて
・AWS Step FunctionsとAmazon Sagemakerを利用
・AWS Step Functions
AWS上の様々なサービスをワークフローとして定義できる(json形式でワークフローを記述)
・Amazon Sagemaker
機械学習向けのIDE
notebook上でのデータ分析・モデル学習、実験管理や学習済みモデルのデプロイが可能
Sagemaker Processingを用いることで、実行したい処理やインスタンスタイプを指定することで、notebookとは別の実行環境(コンテナ)で任意のpythonスクリプトを実行可
・ワークフローの定義=AWS Stepfunctions, スクリプト実行のリソース=Sagemaker Processingとして利用
MLパイプラインについては下記資料により詳しい情報が書かれている
https://speakerdeck.com/takapy/sagemaker-studiotostep-functionswoyong-itemlopshefalse-bu-wota-michu-sou #DocumentSummarization #NLP #Dataset #TACL Issue Date: 2021-10-20 WikiAsp: A Dataset for Multi-domain Aspect-based Summarization, Hayashi+, CMU, TACL'21, NLPコロキウム Comment◆Aspect-based summarizationのモチベーション
・same source対して、異なるユーザニーズが存在するので、ニーズに関して要約したい
◆Aspect: あるobjectに対する、attributeのようなものを指定?
object: Attention Is All You Need
aspect: Multi-Head Attention
◆Aspect Based Summarizationの歴史
・はじめは”feature”という文言で研究され(04年頃?)
・続いてkeywordsという単語で研究され
・その後Aspectという文言で研究されるようになった
・2008年頃にMcDonaldsらがAspect-Based Summarizationを提案した
・2014年以後?とかにNeural Basedな手法が盛んに研究
◆WikiAspデータセットについて
・Wikipediaを使ったAspect-based dataset
・Wikipediaを書かれるのに利用されたsource document(wikipediaにソースとして引用されているもの)に対し、aspectを各節の見出しとみなし、節のテキストを要約文とみなすことで、データセット生成
・他のAspect-basedデータセットと異なり、ソースデータが長く、要約長も5~6倍程度
・ドメイン数が他データセットは5,6程度に対し、20と膨大
◆ベースラインとして2-stageモデルを採用
first-stage: ソーステキストからROBERTaベースドなclassifierを用いて、sentencesから内包するAspectを閾値を用いて決定
それらをgrouped sentencesとする
two-stage: 各aspectごとにまとまったテキスト集合に対して、要約モデルを適用し、要約を実施する
・要約モデルはUnsupervisedな手法であるTextRankと、Supervisedな手法であるBERTベースな手法を採用
・ドメインごとに評価した結果を見ると、BERTが強いドメインがある一方で、TextRankが強いドメインもあった
-> Extractiveな形で要約されているドメインではTextRankが強く、Abstractiveに要約されているドメインではBERTが強い
-> またBERTは比較的短い要約であればTextRankよりもはるかに良いが、長い要約文になるとTextRankとcomprable(あるいはTextRankの方が良い)程度の性能になる
・ROUGE-2の値がsentence-basedなORACLEを見た時に、他データセットと比較して低いので、Abstractiveな手法が必要なデータセット?
(後からのメモなので少しうろ覚えな部分あり)Q. ROUGE-2が30とかって直観的にどのくらいのレベルのものなの?ROUGE-2が30とか40とかは高い
・最先端の要約モデルをニュース記事に適用すると、35~40くらいになる。
・このレベルの数値になると、人間が呼んでも違和感がないレベルの要約となっているQ. 実際に要約文をチェックしてみて、どういう課題を感じるか?
A. Factual Consistencyがすぐに目につく問題で、特にBERTベースな要約文はそう。TextRankはソース文書がノイジーなので、ソース文章を適当に拾ってきただけではFactual Consistencyが良くない(元の文書がかっちりしていない)。流暢性の問題はAbstractiveモデルだと特に問題なくBERT-baseでできる。Aspect-based要約のエラー例としてAspectに則っていないということがある。たとえばオバマの大統領時代の話をきいているのに、幼少時代の話をしているとか。Aspect情報をうまくモデルを扱えていないという点が課題としてある。出典元(リアルタイムに聴講): 第13回 WikiAsp: A Dataset for Multi-domain Aspect-based Summarization, NLPコロキウム
https://youtu.be/3PIJotX6i_w?si=hX5pXwNL-ovkGSF5 #RecommenderSystems #NeuralNetwork #InformationRetrieval #SIGKDD Issue Date: 2018-02-16 Deep Learning for Personalized Search and Recommender Systems, KDD'17 #NeuralNetwork #NeurIPS Issue Date: 2018-02-06 Deep Learning: Practice and Trends, NIPS'17 Comment基礎から最新まで幅広いトピックがまとまったtutorial #MachineLearning #MultitaskLearning Issue Date: 2018-02-05 An Overview of Multi-Task Learning in Deep Neural Networks, Sebastian Ruder, arXiv'17 #NeuralNetwork #MachineTranslation #NLP Issue Date: 2018-01-15 ゼロから始める ニューラルネットワーク機械翻訳, 中澤敏明, NLP'17 Comment中澤さんによるNMTチュートリアル。 #NeuralNetwork #ComputerVision #Pocket #GenerativeAdversarialNetwork Issue Date: 2017-12-28 Generative Adversarial Networks: An Overview, Dumoulin+, IEEE-SPM'17 #NeuralNetwork #MachineLearning #Pocket #NLP #Optimizer Issue Date: 2025-08-02 [Paper Note] An overview of gradient descent optimization algorithms, Sebastian Ruder, arXiv'16 Summary勾配降下法の最適化アルゴリズムの挙動を理解し、活用するための直感を提供することを目的とした記事。さまざまなバリエーションや課題を要約し、一般的な最適化アルゴリズム、並列・分散設定のアーキテクチャ、追加戦略をレビュー。 Comment元ポスト:https://x.com/goyal__pramod/status/1951192112269054113?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q勉強用にメモ #NeuralNetwork #MachineLearning #ICML Issue Date: 2018-02-22 Tutorial: Deep Reinforcement Learning, David Silver, ICML'16 #NeuralNetwork #GenerativeAdversarialNetwork #NeurIPS Issue Date: 2018-02-06 Generative Adversarial Networks (GANS), NIPS'16 CommentGoodfellow氏によるGANチュートリアル #MachineLearning Issue Date: 2018-02-05 An overview of gradient descent optimization algorithms, Sebastian Ruder, arXiv'16 #NeuralNetwork #SentimentAnalysis #NLP #EMNLP Issue Date: 2018-01-01 Neural Network for Sentiment Analysis, EMNLP'16 #InformationRetrieval #LearningToRank #Online/Interactive #SIGIR Issue Date: 2018-01-01 Online Learning to Rank for Information Retrieval, Grotov+, SIGIR'16 #InformationRetrieval #LearningToRank Issue Date: 2018-01-01 Machine Learning for Information Retrieval, Hofmann, ESSIR'15 #RecommenderSystems #InteractiveRecommenderSystems #Slide #RecSys Issue Date: 2017-12-28 Interactive Recommender Systems, Netflix, RecSys'15, 2015.09 #RecommenderSystems Issue Date: 2018-01-01 推薦システムにおけるインタラクション研究へのいざない, 土方, ヒューマンインタフェース学会誌'13 #RecommenderSystems #ContextAware #AAAI Issue Date: 2018-12-22 Context Aware Recommender Systems, Adomavicius+, AAAI'11 CommentAdomaviciusらによるContext Aware Recsysチュートリアル #InformationRetrieval #OnlineEvaluation #SIGIR Issue Date: 2018-01-01 Practical Online Retrieval Evaluation, SIGIR'11, Tutorial #Article #NLP #LanguageModel #ReinforcementLearning #Slide #PostTraining #read-later #RLVR Issue Date: 2025-08-26 The Bitter Lesson for RL: Verification as the key to Reasoning LLMs, Rishabh Agarwal, 2025.06 Comment元ポスト:https://x.com/yongyuanxi/status/1960040848051372379?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #Article #LLMAgent #Blog Issue Date: 2025-08-25 Best Practices for Building Agentic AI Systems: What Actually Works in Production, Shayan Taslim, 2025.08 Comment元ポスト:https://x.com/keigohtr/status/1959754823668265157?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #Article #NLP #SSM (StateSpaceModel) Issue Date: 2025-08-14 チュートリアル:Mamba, Vision Mamba (Vim), Hironobu Fujiyoshi+, 2024.11 #Article #LanguageModel #SyntheticData #Slide #ACL Issue Date: 2025-08-06 Synthetic Data in the Era of LLMs, Tutorial at ACL 2025 Comment元ポスト:https://x.com/gneubig/status/1952876206388359186?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #Article #NLP #LanguageModel #LLMServing #SoftwareEngineering #read-later #Admin'sPick Issue Date: 2025-07-22 LLM Servingを支える技術, Kotoba Technologies, 2025.07 Commentこちらも参照のこと:
・2263 #Article #Metrics #NLP #LanguageModel #LLMServing #MoE(Mixture-of-Experts) #SoftwareEngineering #Admin'sPick #Parallelism #Inference #Batch Issue Date: 2025-07-21 LLM推論に関する技術メモ, iwashi.co, 2025.07 Comment```
メモリ (GB) = P × (Q ÷ 8) × (1 + オーバーヘッド)
・P:パラメータ数(単位は10億)
・Q:ビット精度(例:16、32)、8で割ることでビットをバイトに変換
・オーバーヘッド(%):推論中の追加メモリまたは一時的な使用量(例:KVキャッシュ、アクティベーションバッファ、オプティマイザの状態)
```
↑これ、忘れがちなのでメモ…関連(量子化関連研究):
・2264
・1570
・1043すごいメモだ…勉強になります #Article #LLM-as-a-Judge #RewardModel Issue Date: 2025-07-17 [Personal Note] LLM-as-a-judge _ Reward Model #Article #LanguageModel #Programming #SoftwareEngineering #MCP Issue Date: 2025-07-14 advanced-mcp-features, epicweb-dev, 2025.06 CommentMCPの勉強に良いかもしれないのでメモ #Article #read-later #NormalizingFlow Issue Date: 2025-07-09 Normalizing Flow入門 第1回 変分推論, Tatsuya Yatagawa, 2021.01 Commentこの辺のポストも合わせて理解したい:
https://x.com/jbhuang0604/status/1950883022942978254?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #Article #NLP #LanguageModel #Reasoning #LongSequence #SmallModel #MultiLingual #OpenWeight #OpenSource Issue Date: 2025-07-09 SmolLM3: smol, multilingual, long-context reasoner, HuggingFace, 2025.07 Comment元ポスト:https://x.com/thom_wolf/status/1942670704278732978?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QSmolLM3を構築する際の詳細なレシピ(アーキテクチャ、データ、data mixture, 3 stageのpretraining(web, code, mathの割合と品質をステージごとに変え、stable->stable->decayで学習), midtraining(long context->reasoning, post training(sft->rl), ハイブリッドreasoningモデルの作り方、評価など)が説明されている学習/評価スクリプトなどがリリース:
https://x.com/_lewtun/status/1950209751066742982?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #Article #Pretraining #NLP #Dataset #LanguageModel #Evaluation #Blog #OpenWeight #Japanese #PostTraining Issue Date: 2025-06-25 LLM-jp-3.1 シリーズ instruct4 の公開, LLM-jp, 2025.05 Comment関連
・2089
・2090
・2091 #Article #ReinforcementLearning #Blog #Off-Policy #On-Policy Issue Date: 2025-06-19 Q-learning is not yet scalable, Seohong Park, UC Berkeley, 2025.06 Comment元ポスト:https://x.com/ar_douillard/status/1934988867570212874?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qon-policy RLでは、現在の状態からポリシーに従ってアクションを選択して、実際に選択したアクションのrewardとQ値をシグナルにしてポリシーを更新するけど、off-policy RLでは、未来において現在の(Q関数で)Q値が最大となるアクションを選択した場合に得られる価値はどんなもん?というQ関数の学習が甘い状態だととあるアクションを過大評価してしまう(=バイアス)ようなシグナルに基づいて更新されるから、系列が長くなるとバイアスが蓄積して適切なQ関数が学習できなくなってdepth方向にスケールしづらいんだよ、という話っぽい? #Article #Pretraining #MachineLearning #NLP #LanguageModel #Transformer #Chain-of-Thought #In-ContextLearning #Attention #DiffusionModel #SSM (StateSpaceModel) #Scaling Laws #PostTraining Issue Date: 2025-05-31 2025年度人工知能学会全国大会チュートリアル講演「深層基盤モデルの数理」, Taiji Suzuki, 2025.05 Comment元ポスト:https://x.com/btreetaiji/status/1927678122817921442?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #Article #ComputerVision #NLP #LanguageModel #DiffusionModel #Slide Issue Date: 2025-05-24 【DL輪読会】 Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models, Deep Learning JP, 2025.05 Comment元ポスト:https://x.com/kym384/status/1925852937835737569?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q1986 でLiteratureをざっくり把握してからこちらを読むのが良さそう。 #Article #ComputerVision #NLP #LanguageModel #DiffusionModel #Slide Issue Date: 2025-05-24 Masked Diffusion Modelの進展, Deep Learning JP, 2025.03 Comment元ポスト:https://x.com/kym384/status/1925852884656099572?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qスライド中のARのようにKV Cacheが使えない問題に対処した研究が
・1984
この辺はdLLMが有望であれば、どんどん進化していくのだろう。 #Article #Slide #ACL Issue Date: 2025-05-11 ACL 2024 参加報告, 張+, 株式会社サイバーエージェント AI Lab, 2024.08 Comment業界のトレンドを把握するのに非常に参考になる:
・Reasoning, KnowledgeGraph, KnowledgeEditing, Distillation
・PEFT, Bias, Fairness, Ethics
・Multimodal(QA, Benchmarking, Summarization)
などなど。
投稿数5000件は多いなあ… #Article #Blog Issue Date: 2025-04-18 研究者向けの技術研修資料を公開します, CyberAgent, 2025.04 Comment気になる #Article #NLP #LanguageModel #Blog #Reasoning #Test-Time Scaling Issue Date: 2025-03-09 The State of LLM Reasoning Models, Sebastian Raschka, 2025.03 #Article #InformationRetrieval #NLP #RAG(RetrievalAugmentedGeneration) #Repository Issue Date: 2025-01-05 Advanced RAG Techniques: Elevating Your Retrieval-Augmented Generation Systems, NirDiamant, 2025.01 Comment元ポスト:https://x.com/rohanpaul_ai/status/1875447223682748750?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QRAGのための細かなテクニックが(コードのサンプルへのリンク付きで)大量にまとまっている。かなり頻繁に更新れているようで非常に良さそう #Article #NLP #LanguageModel #Attention #Blog Issue Date: 2024-12-28 MHA vs MQA vs GQA vs MLA, Zain ul Abideen, 2024.07 CommentDeepSeekで使われているMulti Head Latent Attention(MLA)ってなんだ?と思い読んだ。端的に言うと、GQAやMQAは、KVのヘッドをそもそも減らしてKV Cacheを抑えよう、という手法だったが、MLAはKVを低ランクなベクトルに圧縮して保持し、使う時に復元するといった操作をすることで、MHAのパフォーマンスを落とすことなく(むしろ上がるらしい?)、利用するKV Cacheで利用するメモリを大幅に減らせるという手法らしい。・1271
MQA, GQAの概要については上記参照のこと。 #Article #NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #Chain-of-Thought #Reasoning #Mathematics #PostTraining Issue Date: 2024-12-27 LLMを数学タスクにアラインする手法の系譜 - GPT-3からQwen2.5まで, bilzard, 2024.12 Comment・1618
において、数学においてモデルのパラメータ数のスケーリングによって性能改善が見込める学習手法として、モデルとは別にVerifierを学習し、モデルが出力した候補の中から良いものを選択できるようにする、という話の気持ちが最初よくわからなかったのだが、後半のなぜsample&selectがうまくいくのか?節を読んでなんとなく気持ちが理解できた。SFTを進めるとモデルが出力する解放の多様性が減っていくというのは、興味深かった。
しかし、特定の学習データで学習した時に、全く異なるUnseenなデータに対しても解法は減っていくのだろうか?という点が気になった。あとは、学習データの多様性をめちゃめちゃ増やしたらどうなるのか?というのも気になる。特定のデータセットを完全に攻略できるような解法を出力しやすくなると、他のデータセットの性能が悪くなる可能性がある気がしており、そうするとそもそもの1shotの性能自体も改善していかなくなりそうだが、その辺はどういう設定で実験されているのだろうか。
たとえば、
・1475
などでは、
・1474
のような1600を超えるようなNLPタスクのデータでLoRAによりSFTすると、LoRAのパラメータ数を非常に大きくするとUnseenタスクに対する性能がfull-parameter tuningするよりも向上することが示されている。この例は数学に特化した例ではないが、SFTによって解法の多様性が減ることによって学習データに過剰適合して汎化性能が低下する、というのであれば、この論文のことを鑑みると「学習データにoverfittingした結果他のデータセットで性能が低下してしまう程度の多様性の学習データしか使えていないのでは」と感じてしまうのだが、その辺はどうなんだろうか。元論文を読んで確認したい。
とても勉強になった。記事中で紹介されている
> LLMを使って複数解法の候補をサンプリングし、その中から最適な1つを選択する
のルーツは 1618 とのことなので是非読みたい。
この辺はSelf-Consistency 558 あたりが最初なのかと思っていた。 #Article #Pretraining #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #Video Issue Date: 2024-12-25 Stanford CS229 I Machine Learning I Building Large Language Models (LLMs), StanfordUnivercity, 2024.09 Commentスタンフォード大学によるLLM構築に関する講義。事前学習と事後学習両方ともカバーしているらしい。 #Article #NLP Issue Date: 2024-12-15 国際会議ACL2024参加報告, Masato Mita, Cyber Agent, 2024.12 #Article #GenerativeAI #Repository Issue Date: 2024-12-12 GoogleCloudPlatform_generative-ai, Google, 2024.12 CommentGoogle Cloudで生成AI(Gemini+Vertex AI)を動かすためのサンプルコード集元ポスト:https://x.com/kazunori_279/status/1866975767869231547?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #Article Issue Date: 2024-11-27 エンジニア研修まとめ, gcchaan, 2024.11 Comment様々な企業のエンジニアの新卒研修の資料などがまとまっている。学術機関の講義なども含まれている。現在も更新されている模様。
量がすごい。 #Article #ComputerVision #NLP #SSM (StateSpaceModel) Issue Date: 2024-11-27 チュートリアル:Mamba, Vision Mamba (Vim), Hironobu Fujiyoshi, 2024.11 #Article #NLP #Prompting Issue Date: 2024-11-13 LLM Prompt Tuning Playbook, 2024.11 Comment・1462 も参照のこと #Article #InformationRetrieval #NLP #RAG(RetrievalAugmentedGeneration) Issue Date: 2024-11-07 RAGの改善方法に関する情報のまとめ(再掲), GENZITSU, 2023.10 #Article #Video #VCS #git Issue Date: 2024-11-04 システム開発プロジェクト応用第一 第5,6回 Gitによるバージョン管理, 内田公太, 2020.01 CommentVCSの歴史から原理、実用的な使い方まで、Gitについて体系的にまとまっている。普段何気なく使っているが、改めて勉強すると、なるほど、と思うことが多い。
・VCSの歴史、モチベーション(複数並列するバージョンを適切に管理したい)
・ワークツリー、インデックス、リポジトリ(HEAD)の違い
・基本的なgitコマンドから、普段あまり使わないハンク(hunk)の選択的なaddなどのコマンド
・コミットオブジェクト(ワークツリーのスナップショットを保持したもの≠前回のコミットに対する差分)
・HEAD/Detached HEADの原理
・Gitタグ
・checkoutの原理(ワークツリーとインデックスをHEADの内容に更新する)
・ブランチ、ブランチとHEADの関係性
・マージ方式(2way マージ、3wayマージ)
・2wayマージは元ファイルを参照しないのでマージ時に特定の編集がなかったことになってしまう)
・3wayマージは元ファイルも見て差分を計算するのでこのようなことが起こらない
・競合の原理、競合解決時のファイル内容
・Fast-Forwardマージ(ポインタを動かすだけで事足りる場合に利用)
・cherry pick(任意のコミットをとってくる)
・(cherry pickを連続して利用する)リベース(ベースを付け替える操作)
・歴史を修正する
・git reflogで起点とするコミットIDを見つけ、git rebase -iでコミット順変更orメッセージ変更、git commit --amendでコミット修正
・状態のリセット
・soft: HEADを指定したコミットにリセット
・mixed: インデックスをリセット
・hard: インデックスとワークツリーをリセット
・git stash
・コミット粒度とメッセージ
・単一の関心事項のみを含むような粒度でコミットしよう(一言で説明できる粒度)
・cherry pickが容易になる
・別ブランチの脆弱性への対応のみを適用したい、など
・現在形で書く。そうすると、後からcherry pickするときに内容の判断をしやすい。
神講義 #Article #EfficiencyImprovement #Pocket #LanguageModel Issue Date: 2024-09-25 LLMの効率化・高速化を支えるアルゴリズム, Tatsuya Urabe, 2024.09 #Article #ComputerVision #MachineLearning #NLP #LanguageModel #Repository Issue Date: 2024-09-07 ml-engineering CommentLLMやVLMを学習するためのツールやノウハウがまとめられたリポジトリ #Article #LanguageModel #Slide Issue Date: 2024-09-01 大規模言語モデル (LLM) の技術と最新動向, Ikuya Yamada, 2024.06 CommentLLMの原理の基礎的な内容について、丁寧かつコンパクトにまとまっている。
>ファインチューニングは新しい知識の学習ではなく知識の使い方を学習させるのに向いている
これをきちんと念頭に置いておかないと落とし穴にハマると思う。引用元の論文読みたい(1371)。画像は資料中より引用。LLMの作り方について非常にシンプルにまとまっている。
アライメントがなぜ必要か?の例もわかりやすい!
#Article #NLP #LanguageModel #OpenWeight #Slide Issue Date: 2024-08-26 論文紹介 _ The Llama 3 Herd of Models, 2024.08 CommentLlama3の事前学習や事後学習のノウハウが詰まっており(安全性なども含む)、LLM学習に必要な要素が図解されており、非常に分かりやすい。
たとえば下記図(スライド中より引用)などは、LLMの学習過程を説明する際にわかりやすそう
LLMの事前・事後学習あたりは独自ノウハウが多すぎてもはや追従困難 #Article #Pretraining #NLP #LanguageModel #Blog Issue Date: 2024-07-08 GENIAC: 172B 事前学習知見, 2024 CommentLLMの事前学習における知見がまとまっている記事とのこと・Megatron LMで学習
→ 3D Parallelismなどの分散学習手法によりHF Trainerより高速
→ Data Parallelim、Tensor Parallelism、 Pipeline Parallelismを組み合わせたもの
・GPUメンテナンス、不良で学習が継続できなかった場合はcheckpointをロードして学習
・学習曲線が安定しているように見えるがSpikeは発生している。発生時はgradient normが急激に上昇する
・LlamaなどのLLMからの継続的事前学習ではなくfrom scratchから学習しているので透明性が高い
・Transformer engineを利用
・AdamWを利用
・attention dropout, hidden dropoutは0.0
>この際、 通信を多く必要とする分散手法のワーカー(Tensor Parallelワーカー)はノード内に配置するようにMegatron-LMのデフォルトではなっているため、今回もそれを利用しました。このようにする理由は、ノード内の通信はNVLinkにより、ノード間通信よりも高速であるためです。また、Data Parallelの勾配平均化のための通信を考慮して、Data Parallelワーカーも可能な限りノード内に配置するMegatron-LMデフォルトの挙動を利用しました。
Pipeline Parallelismは他の並列化手法と比較して通信量が少ないP2P(Point-to-Point)通信であるため、パイプラインステージはノード間で配置するようにしました。これも、Megatron-LMデフォルトの挙動です。
勉強になる
・通常のデータ並列はoptimizer stateをworker間で複製するので遅い。Deep Speed Zero 1のように分散して保有することで高速化
・Tensor Parallelでself attention, MLPの計算を並列化できる
・LayerNormalization, Dropoutの演算もメモリ効率の観点から並列化
・学習を安定させるためにz-lossを利用
・batch skippingとは、gradient clippingを行っていてもなおspikeが生じる場合に、100 step前に戻り、spikeが生じた付近のデータを数百iteration程度スキップすること
#Article #NLP #LanguageModel Issue Date: 2024-07-03 より良いTransformerをつくる, Shun Kiyono, 2022 #Article #RecommenderSystems #Blog Issue Date: 2024-04-26 推薦・機械学習勉強会, Wantedly CommentWantedlyさんのRecSys勉強会の資料がまとまったリポジトリ。継続的に更新されており、最近この辺のトピックは追いきれていないので非常に有用。 #Article #NLP #LanguageModel Issue Date: 2024-04-03 LLMの現在, 202404, Preffered Elements #Article #Survey #InformationRetrieval #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2024-03-05 RAG-Research-Insights CommentRAGに関する研究が直近のものまでよくまとめられている #Article #Survey #InformationRetrieval #LanguageModel #Blog Issue Date: 2024-02-22 awesome-generative-information-retrieval #Article #EfficiencyImprovement #NLP #LanguageModel Issue Date: 2023-12-15 optimize-llm, HuggingFace CommentLLMをoptimizeする実用的なチュートリアルこちらも有用なので参照のこと
【GPU inference】
https://huggingface.co/docs/transformers/main/perf_infer_gpu_one
#Article #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2023-11-22 Deconstructing RAG CommentRAGにおける様々な戦略がまとまっている(リンク付き #Article #Dataset #LanguageModel #Evaluation Issue Date: 2023-11-16 JGLUEの構築そして 日本語LLM評価のこれから, 2023 CommentJGLUEのexample付きの詳細、構築の経緯のみならず、最近の英語・日本語LLMの代表的な評価データ(方法)がまとまっている(AlpacaEval, MTBenchなど)。また、LLMにおける自動評価の課題(図は資料より引用)が興味深く、LLM評価で生じるバイアスについても記述されている。Name biasなどはなるほどと思った。
日本語LLMの今後の評価に向けて、特にGPT4による評価を避け、きちんとアノテーションしたデータを用意しfinetuningした分類器を用いるという視点、参考にしたい。
#Article
#InformationRetrieval
#NLP
#LanguageModel
#RAG(RetrievalAugmentedGeneration)
Issue Date: 2023-11-06
Retrieval-based LM (RAG System)ざっくり理解する, 2023
Comment(以下スクショはスライドより引用)
次のスクショはRAGにかかわる周辺技術がよくまとまっていると思う。
以下ざっくり私の中の認識として
・計画
・クエリ拡張
・クエリの質が悪い場合検索性能が劣化するため、クエリをより適切に検索ができるように修正(昔はキーワードしか与えられないときに情報を増やすから”拡張”という文言が用いられているが現在はこれに限らないと思う)する技術
・分解・抽象化
・複雑なクエリから分解することでマルチホップの質問をサブ質問に分解(今ならLLMを利用すれば比較的簡単にできる)したり、あるいは抽象化したクエリ(Step-back Promptnig 1076 )を活用することで検索を改善する技術
・検索対象選定
・検索する対象そのものを選択し、検索対象をフィルタリングする技術
・資料中ではLLMを用いたフィルタリングやClassifierを用いたフィルタリングが紹介されているが、メタデータで絞り込むなどの単純な方法でも実現可能だと思われる(メタデータで絞り込む、はClassifierでのフィルタリングとリンクするかもしれないが)
・思考・行動
・518 のような自律的にLLMに思考とその結果に基づく行動をイテレーションさせる技術や、クエリを分解して回答へたどり着くために必要な推論を構築し、各推論の回答を検証しながら生成を繰り返す技術が紹介されている
・この辺の技術はクエリが非常に複雑な場合に有効ではあるが、シンプルな場合は必要ないかなという印象がある
・シンプルなユースケースの場合はどちらかというと泥臭い前処理とかが効きそう
・関連知識取得
・検索
・表層検索(TF-IDFベクトル, BM25)などの古典的な手法や、意味検索(Embeddingに基づく手法)が紹介されている
・例えばlangchainでは表層検索 + 意味検索の両者がサポートされており、簡単にハイブリッドな検索が実現できる
・知識文生成
・外部知識として検索された文書を利用するだけでなく、LLM自身が保持する知識を活用するためにLLMが生成した文書の両方を活用するとQAの正答率が向上することが紹介されている
・文書フィルタ
・検索でクエリに関連しない文書を取得してしまう応答品質が大幅に低下することが紹介されている
・個人的にはここが一番重要なパートだと考えている
・また、検索結果を要約する方法も紹介されている
・再帰・反復計算
・Retrierverから取得した結果に基づいてLLMが応答を生成し、生成した応答とoriginalのquestionの両方を組み合わせて追加でRetrieverから文書を取得し生成する手法などが紹介されている
・ リランキング
・検索結果のリランキングも古くから存在する技術であり、異なる知識を持つRankerによってリランキングさせることで性能が向上する場合がある
・回答
・回答抽出・生成
・回答となる部分のspanを抽出する手法と、spanではなくテキストを生成する手法が紹介されている
・この辺は文書要約におけるExtractive/Abstractive Summarization技術などもかなり応用が効くと思われる
・インデクシング
・不要文書のフィルタリングや、チャンク分割の戦略、資格情報をテキスト化する方法などが紹介されている
#Article #NLP #LanguageModel #Alignment #GenerativeAI #Hallucination #Blog Issue Date: 2023-11-03 生成AIが抱えるリスクと対策, LYCorp‘23 Commentこの資料をスタートにReferしている論文などを勉強すると、GenerativeAIのリスク周りに詳しくなれそう。この辺は疎いので勉強になる。
しかし、LLMのAlignmentが不十分だったり、Hallucinationを100%防ぐことは原理的に不可能だと思われるので、この辺とどう付き合っていくかがLLMと付き合っていく上で難しいところ。この辺は自分たちが活用したいユースケースに応じて柔軟に対応しなければならず、この辺の細かいカスタマイズをする地道な作業はずっと残り続けるのではないかなあ #Article #NLP #LanguageModel Issue Date: 2023-11-01 IBIS2023チュートリアル「大規模言語モデル活用技術の最前線」 CommentLLMの応用研究やPromptingを中心としたチュートリアル。アノテーションや対話式推薦システムへの活用、ReAct、プロンプトの最適化技術、CoTの基本から応用まで幅広くまとまっているので、LLMの応用技術の概観や、CoTを実践したい人に非常に有用だと思う。 #Article #NLP #LanguageModel Issue Date: 2023-10-10 Large Language Model (in 2023), OpenAI CommentLLMの研究開発動向を俯瞰するのに有用らしい #Article #LanguageModel Issue Date: 2023-09-29 GGML_GGUF_GPTQの違い Comment量子化に関する技術であるGGML, GGUF, GPTQに関する詳細なまとめ
よくわからんが筆者の言葉を引用すると
>llama.cppならGGUF、TransformerならGPTQって感じ?
ということなので、これらは量子化を行うための技術を提供するライブラリであり、GGUF/GGMLはllama.cppで利用可能で、GPTQはより汎用的に利用可能な手法だと思われる。GPTQについて論文をざっくり読んでメモった 1043 #Article #NLP #LanguageModel Issue Date: 2023-09-04 大規模言語モデル, 岡崎先生, 2023 Comment岡崎先生による大規模言語モデルのチュートリアル
最近のLLMまでの歴史、transformerなどの基礎的な内容から、最新の内容まで数式付きで詳細にまとまっている #Article #NLP #LanguageModel #Supervised-FineTuning (SFT) Issue Date: 2023-08-29 LLMのファインチューニング で 何ができて 何ができないのか Comment>LLMのファインチューニングは、「形式」の学習は効果的ですが、「事実」の学習は不得意です。
> シェイクスピアの脚本のデータセット (tiny-shakespeare) の
「ロミオ」を「ボブ」に置き換えてファインチューニングして、新モデルの頭の中では「ロミオ」と「ボブ」をどう記憶しているかを確認します。
ファインチューニングしても、Bで始まるジュリエットが恋する人物について質問しても、ボブと答えてはくれない。
> ロミオ」は「ジュリエット」が恋していたこの男性に関連付けられており、「ロミオ」を「ボブ」に置き換えるファインチューニングでは、ニューラルネットワークの知識ベースを変更することはできませんでした。
なるほど。参考: https://www.anyscale.com/blog/fine-tuning-is-for-form-not-facts?ref=blog.langchain.devimosさんのツイートを引用
> 文章が悪かったので補足。追加学習を全体に十分なデータですれば知識は獲得しえます(が事前学習の知識を忘却するリスクは高い)。巷でよくファインチューニングと呼ばれるものは、知識を司るらしいMLP部を触らず自己注意機構部のみを更新するので、そもそも知識を増やすのは難しいという認識です。
元ツイート: https://x.com/imos/status/1696507787067756846?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #Article #NLP #LanguageModel #Prompting #Blog Issue Date: 2023-05-12 Prompt Engineering vs. Blind Prompting, 2023 Commentexperimentalな手法でprompt engineeringする際のoverview #Article #MachineLearning #Self-SupervisedLearning Issue Date: 2023-04-26 A Cookbook of Self-Supervised Learning, 2023 CommentMetaによるSelf Supervised Learningの教科書 #Article #RecommenderSystems #Embeddings #EfficiencyImprovement #Library Issue Date: 2023-04-25 Training a recommendation model with dynamic embeddings Commentdynamic embeddingを使った推薦システムの構築方法の解説(理解が間違っているかもしれないが)推薦システムは典型的にはユーザとアイテムをベクトル表現し、関連度を測ることで推薦をしている。この枠組みをめっちゃスケールさせるととんでもない数のEmbeddingを保持することになり、メモリ上にEmbeddingテーブルを保持して置けなくなる。特にこれはonline machine learning(たとえばユーザのセッションがアイテムのsequenceで表現されたとき、そのsequenceを表すEmbeddingを計算し保持しておき、アイテムとの関連度を測ることで推薦するアイテムを決める、みたいなことが必要)では顕著である(この辺の理解が浅い)。しかし、ほとんどのEmbeddingはrarely seenなので、厳密なEmbeddingを保持しておくことに実用上の意味はなく、それらを単一のベクトルでできるとメモリ節約になって嬉しい(こういった処理をしてもtopNの推薦結果は変わらないと思われるので)。
これがdynamic embeddingのモチベであり、どうやってそれをTFで実装するか解説している。 #Article #Survey #Transformer Issue Date: 2023-02-14 30分で完全理解するTransformerの世界 Comment非常に詳細で実質日本語のサーベイ論文のようなもの
#Article #NeuralNetwork #MachineLearning Issue Date: 2023-01-21 tuning_playbook, Google Research CommentGoogleが公開したDeep Learningモデル学習のノウハウ。必読日本語訳
https://github.com/Valkyrja3607/tuning_playbook_ja #Article #RecommenderSystems Issue Date: 2022-12-19 推薦システムにおいて線形モデルがまだまだ有用な話 #Article #NeuralNetwork #Library #Transformer Issue Date: 2022-12-01 BetterTransformer, Out of the Box Performance for Hugging Face Transformers Commentたった1ライン追加するだけで、Transformerのinferenceが最大で4.5倍高速化されるBetterTransformerの解説記事
better_model = BetterTransformer.transform(model) #Article #NeuralNetwork #ComputerVision Issue Date: 2022-10-27 CNN vs. ViT, 牛久先生 Comment・Swin Transformer, Depth-wise conv, ConvNeXt, ViTとCNNのロバスト性の違いの話があり勉強になる
・最終的な結論が、CNNもTransformerも変わらない(明確な勝者はいない; 今のところ引き分け)というのはおもしろかったdepth-wise conv, point-wise convの解説記事:https://agirobots.com/depthwise-pointwise-convolution/
通常のCNNのフィルタによるfeature map計算を、空間方向(depth-wise conv)とチャネル方向(point-wise conv; 1x1 conv)に分解することで大幅にパラメータ数削減 #Article #NeuralNetwork #NLP #Transformer Issue Date: 2022-09-06 Transformerの最前線 〜 畳込みニューラルネットワークの先へ 〜, 牛久先生, 2022 #Article #Tools #Library Issue Date: 2022-08-03 pandas tips Comment◆遅くないpandasの書き方
https://naotaka1128.hatenadiary.jp/entry/2021/12/07/083000iterrows-%E3%81%AF%E7%B5%B6%E5%AF%BE%E3%81%AB%E4%BD%BF%E3%82%8F%E3%81%AA%E3%81%84-apply%E3%82%82
iterrows, applyを使うな、あたりは非常に参考になった。numpy配列に変換してループを回すか、np.vectorizeを使ってループを排除する。 #Article #LearningAnalytics Issue Date: 2022-03-03 ①ラーニングアナリティクスの研究動向 ─エビデンスに基づく教育の実現に向けて─, 京都大学, 緒方先生, 情報処理 Vol.59 No.9 Sep. 2018 Comment緒方先生によるLAのチュートリアル
主な研究テーマ:
①行動予測:教育・学習活動において蓄積された大量のデータを元に,機械学習を用いて予測モデルを作成し,学習者の成績や能力,ドロップアウト等の行動を予測する研究
②介入モデル:いつどこでどのような内容をどのような方法で学習者に伝えると,効果的な情報提供となるか,という研究
③オープン学習者モデル:学習データを用いて学習スタイルや特徴を推測し,それをシステム内だけにとどめるのではなく,学習者にできる限り見える形で提示する,オープン学習者モデルの研究
④推薦:学習者個人の特徴にあわせて,教材や問題,カリキュラム等を推薦する研究
⑤ティーチングアナリティクス:教師の教育活動のデータを分析する研究
⑥教育評価の自動化:収集したデータの分析を元に,学習者の評価を自動的に行う研究2021年版スライド:
https://www.let.media.kyoto-u.ac.jp/wp-content/uploads/2021/07/603b542fafc54003eb4a1a42bb92069f.pdf
典型的な研究事例:
・At-risk学生の発見と成績予測(early-warning)
・学生の成績予測
・教員が早期に単位を落としそうな学生を発見
・学生は成績予測を確認して、学びに向かう態度を改善
・教育データを用いた予測
・教育データからACADEMIC Successの予測(e.g. career success, academic achievement)
・Open learner model (student model)
・Recommendation and personalized learning
・ALEKSのようなシステム
・BKT, DKT等を用いた推薦
・Learning analytics dashboard
・Writing (Text) analytics
・Academic writingの文章を分析
・eポートフォリオ/Essay/Journalを分析、成績や感情を予測
・Emotional learning analytics
・Multimodal learning analytics
・Gaze (eye tracking)
・Bio sensors (heart rate)
・Pen, click stream
・Motion sensor (gestures)
・Audio/Video
・Collaborative learning analytics
・Group formation
・Social network analysis
・Interaction analytics
・Ubiquitous Learning analytics
・SCROLL:誰がいつどこで何を学習したかという学習ログを分析
・Learning analytics and self-regulated learning
・Learning analytics for teaching / learning design
・Assessment analytics
・create exams
・Peer evaluation #Article #Pocket #Programming #Slide Issue Date: 2022-03-02 良いコードとは何か - エンジニア新卒研修 スライド公開, CyberZ, 森 #Article #MachineLearning #Slide Issue Date: 2022-02-07 NeurIPS 2021 技術報告会, 株式会社TDAI Lab, 2022 CommentNeurIPS 2021での技術トレンドがまとめられている
1. アーキテクチャの改善
2. マルチモーダルモデル
3. Temporal Adaptation
4. Retrieval Augmentation
5. ベンチマーク見直し
6. データセット見直し
7. Human-Centered AI #Article #Blog #Programming Issue Date: 2021-11-25 Pythonのオブジェクト指向プログラミングを完全理解, kaitolucifer (Kaito), 2021 Commentオブジェクト指向の歴史的背景から、SOLID、GRASP等が詳細に解説されている。辞書的に参照するのが良いかも。 #Article #Blog #Programming Issue Date: 2021-11-25 イラストで理解するSOLID原則, baby-degu, 2021 Commentオブジェクト指向におけるSOLID原則をイラストで解説した記事。直感的で分かりやすい。 #Article #RecommenderSystems #CTRPrediction #Blog Issue Date: 2021-10-29 バンディットアルゴリズムを使って広告最適化のシミュレーションをしてみたよ, ysekky, 2014 Commentなぜクリック率を上げたいのかという説明が非常に参考になる:
>しかしその広告を掲載する側から考えればクリック率の低い広告を出すことは売上が下がってしまうため,クリック率が>低いとなかなか広告を表示することができなくなってしまいます.
その際よく使われるのはeCPMという指標です.
eCPMはその広告を1000回表示していくらの売上を上げることができるかという指標であり,
クリック率1000クリック単価で求められます.
>EPCMが高い広告のほうが表示されやすいため,クリック率を上げることで同じクリック単価でたくさんのユーザを自社のランディングページに誘導することができるようになります.
>例えば今回のケースではクリック率1.2%でクリック単価が60円ですので,eCPMは720円です。
ここでクリック率が0.1%上がるとeCPMは780円になります.
>そのときクリック単価を56円にしてもeCPMは726円になるため,つまりクリック率が0.1%上がると同じだけのランディングページへの誘導を得るための単価を4円下げることができます.
>例えばそのランディングページでの商品の購入が1%で行われるとすると,商品を1つ売るためのコストが400円も下がる事になります.
>ケースバイケースではありますが,このようにクリック率を上げることはウェブ広告を通してものを売るために非常に重要な要素になります. #Article #AdaptiveLearning #LearningAnalytics Issue Date: 2021-10-29 ラーニング・アナリティクスとは何か?, 武田俊之, コンピュータ&エデュケーション VOL.38, 2015 CommentLearning Analyticsの全体像について、コンパクトにまとまっている。
特に、そのアプローチに関するコンセプトの特徴(e.g. 学習者中心、デーア駆動)や、フレームワーク、xAPIといったデータの測定・収集方法などについて、まとめられている。 #Article #NLP #Blog #Legal Issue Date: 2021-10-26 自然言語系AIサービスと著作権侵害, 柿沼太一, 2021 #Article #MachineLearning #Pocket #Infrastructure Issue Date: 2021-10-19 Hidden Technical Debt in Machine Learning Systems, Sculley+, Google Comment
よく見るML codeが全体のごく一部で、その他の基盤が大半を占めてますよ、の図 #Article #MachineLearning #Pocket Issue Date: 2021-10-16 実臨床・Webサービス領域での機械学習研究 開発の標準化 Comment並列して走る機械学習案件をどのように効果的に捌いているか説明。
①タイトな締切
→ 高速化で対処
→ よく使う機能をML自身に実装する
②並行して走る案件
→ 並列化
→ Kubernetesを用いて、タスクごとに異なるノードで分散処理(e.g CVのFoldごとにノード分散、推論ユーザごとにノード分散)要件に合わせて、メモリ優先、CPU優先などのノードをノードプールから使い分ける
③属人化
→ 標準化
→ よく使う機能はMLシステム自身に実装
→ 設定ファイルで学習、推論の挙動を制御 #Article Issue Date: 2021-07-16 【決定版】スーパーわかりやすい最適化アルゴリズム -損失関数からAdamとニュートン法-, omiita #Article #RecommenderSystems #Pocket Issue Date: 2021-07-02 Continuously Improving Recommender Systems for Competitive Advantage Using NVIDIA Merlin and MLOps, Nvidia, 2021.01 CommentRecommender System運用のためのアーキテクチャに関する情報 #Article #Tools #Library Issue Date: 2021-06-29 optuna_tips #Article #BeamSearch #Blog Issue Date: 2021-06-24 beam search解説 _ コード付き, jonki, 2020.05 Commentビームサーチについて、コード付きで説明してくれており、大変わかりやすい。
heapqを使って実装している。また、ビームサーチをbatchに対して行う方法についても書いてある(ただ、一部に対してしかbatchでの処理は適用できていない)。
自分もバッチに対して効率的にビームサーチするにはどのように実装すれば良いのかよくわからないので、誰か教えて欲しい。 #Article #Tools #NLP #Library #python #Slide Issue Date: 2021-06-11 最先端自然言語処理ライブラリの最適な選択と有用な利用方法 _ pycon-jp-2020 Comment各形態素解析ライブラリの特徴や比較がされていて、自分の用途・目的に合わせてどの形態素解析器が良いか意思決定する際に有用
#Article #Pocket #ReinforcementLearning #Blog #Off-Policy Issue Date: 2021-06-07 ゼロから始めてオフライン強化学習とConservative Q-Learningを理解する, aiueola, 2021.05 #Article #NeuralNetwork #Tools #Library #python Issue Date: 2021-06-06 TRTorch Commentpytorchの推論を高速化できるライブラリ。6倍ほど早くなった模様。TorchScriptを介して変換するので、PythonだけでなくC++でも動作できるらしい。 #Article #Tools #Library #python Issue Date: 2021-06-05 pytorch tips Comment【PyTorchでたまに使うけどググって情報探すのに時間かかるやつ】
https://trap.jp/post/1122/
・scatter_add, einsum, Bilinear あたりが説明されている【NLLossの細かい挙動】
https://tatsukawa.hatenablog.com/entry/2020/04/06/054700【PyTorchで絶対nanを出したいマン】
https://qiita.com/syoamakase/items/40a716f93dc8afa8fd12
PyTorchでnanが出てしまう原因とその対策が色々書いてある【pipで様々なCuda versionのpytorchをinstallする方法】
https://stackoverflow.com/questions/65980206/cuda-10-2-not-recognised-on-pip-installed-pytorch-1-7-1 #Article Issue Date: 2021-06-03 ResNetからSkip Connectionを取り除く研究についてのサーベイ, 徳永拓之, LeapMind株式会社 CommentSkip Connectionは
・推論時のメモリ消費量が増える
・推論時に計算量の割に実際の計算が重たくなりがち(特にDNN専用アクセラレーターにおいてその傾向がありがち)
というデメリットがあり、SkipConnection無しで性能を出したいことから、様々な研究が行われている模様。ResNetを学習し、それを教師としてPlainCNNを学習するResidual Distillationが決定版らしい(普通のDistillationでは最終層の類似度のみを用いるが、生徒ネットワークの中間層の出力を教師ネットワークに入れてからbackpropして勾配を得る)。
50層のPlainCNNで、ResNet50とほぼ同等のtop-1 accuracyを達成。
メモリ消費量は20%弱削減され、実行速度は20〜30%程度高速になる。 #Article #Pocket #EducationalDataMining #LearningAnalytics #StudentPerformancePrediction #KnowledgeTracing Issue Date: 2021-05-30 The Knowledge-Learning-Instruction Framework: Bridging the Science-Practice Chasm to Enhance Robust Student Learning, Pelanek, User Modeling and User-Adapted Interaction, 2017 CommentLearner Modelingに関するチュートリアル。Learner Modelingの典型的なコンテキストや、KCにどのような種類があるか(KLI Frameworkに基づいた場合)、learner modeling techniques (BKTやPFA等)のチュートリアルなどが記載されている。
knowledgeをmodelingする際に利用されるデータの典型的な構造
donain modelingの典型的なアプローチ
モデルのaspectと、model purposes, learning processesのrelevanceを図示したもの。色が濃いほうが重要度が高い
Learner ModelingのMetrics
cross validation方法の適用方法(同じ学習者内と、異なる学習者間での違い。学習者内での予測性能を見たいのか、学習者間での汎化性能を見たいのかで変わるはず)
BKT、PFAや、それらを用いるContext(どのモデルをどのように自分のcontextに合わせて選択するか)、KLI Frameworkに基づくKCの構成のされ方、モデル評価方法等を理解したい場合、読んだほうが良さそう?
ざっとしか見ていないけど、重要な情報がめちゃめちゃ書いてありそう。後でしっかり読む・・・。 #Article #NeuralNetwork #ComputerVision #EfficiencyImprovement #Blog #ImageClassification Issue Date: 2021-05-24 EfficientNet解説, omiita (オミータ), 2019 Comment既存画像認識モデルの構造は変化させず、広さ、深さ、解像度を複合スケーリングすることで、従来よりも少ないパラメータ数、かつ学習速度でSoTAを達成。広さ、深さ、解像度はそれぞれ性能に互いに影響しあっており、従来のように別々にスケーリングするのではなく、3つのバランスをとりながらスケーリングする。スケーリングする際は、結果的にはそれぞれをある値で定数倍すれば良く、そのある値は最大メモリや最大FLOPS数以下(およびFLOPSが2のΦ乗で増加するような)といった制約下でAccuracyが最大化される値をグリッドサーチで見つける(らしい。ざっくりとした理解)。
転移学習しても多くのタスクでSoTA達成した。 #Article #NLP #Dataset #Evaluation #Blog Issue Date: 2021-05-19 GLUE - 英語圏における自然言語処理の標準ベンチマーク, npaka, 2020 Comment各タスクごとにサンプルとその説明が付与されており、ぱっと見でどんなタスクかすぐ分かる #Article #RecommenderSystems #Tools #Dataset #Slide Issue Date: 2020-08-29 Off Policy Evaluation の基礎とOpen Bandit Dataset & Pipelineの紹介, Yuta Saito, 2020 Comment機械学習による予測精度ではなく、機械学習モデルによって生じる意思決定を、過去の蓄積されたデータから評価する(Off policy Evaluation)の、tutorialおよび実装、データセットについて紹介。
このような観点は実務上あるし、見落としがちだと思うので、とても興味深い。 #Article #RecommenderSystems #CollaborativeFiltering #ContrastiveLearning #Blog Issue Date: 2020-07-30 Collaborative Metric Learningまとめ, guglilac, 2020 Commentuserのembeddingに対し、このuserと共起した(購入やクリックされた)itemを近くに、共起していないitemを遠くに埋め込むような学習方法 #Article #MachineLearning #Slide #kNN Issue Date: 2020-07-30 近似最近傍探索の最前線, Yusuke Matsui, 2019 Commentk-NNベースドなRecommender Systemを構築したけど、Inferenceに時間がかかって、先方のレスポンスタイムの要求が満たせない...というときに役に立ちそう。yahooのNGTといった実装も転がっている(Apache-2.0 License):
https://techblog.yahoo.co.jp/data_solution/ngtpython/ScaNNという手法もあるらしい(SoTA)
https://ai-scholar.tech/articles/vector-search/scann #Article #MachineLearning #Blog Issue Date: 2020-01-16 Key trends from NeurIPS 2019, Chip Huyen, 2019 #Article #NLP #LanguageModel #Slide Issue Date: 2020-01-13 BERT入門, Ken'ichi Matsui, 2020 Comment自然言語処理の王様「BERT」の論文を徹底解説
https://qiita.com/omiita/items/72998858efc19a368e50Transformer関連 245 あたりを先に読んでからが読むと良い
要は
・Transformerをたくさん積んだモデル
・NSPとMLMで双方向性を持った事前学習タスクを実施することで性能向上
・pooler layer(Transformer Encoderの次にくっつくlayer)を切り替えることで、様々なタスクにfine-tuning可能(i.e. pooler layerは転移学習の対象外)
・予測する際は、[CLS]トークンに対応する位置の出力を用いて分類問題や複数文間の関係性を問う問題を解いたり、各トークン位置に対応する出力を用いてQAの正解spanを予測したり、色々できる
・gMLP 344 あたりの研究が進んでくると使われなくなってくる可能性有こっちの記事もわかりやすい。
BERTについて勉強したことまとめ (2)モデル構造について
https://engineering.mobalab.net/2020/06/12/bert%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6%E5%8B%89%E5%BC%B7%E3%81%97%E3%81%9F%E3%81%93%E3%81%A8%E3%81%BE%E3%81%A8%E3%82%81-2%E3%83%A2%E3%83%87%E3%83%AB%E6%A7%8B%E9%80%A0%E3%81%AB%E3%81%A4%E3%81%84/ #Article #NLP #Slide Issue Date: 2019-11-09 EMNLP 2019 spec tutorial #Article #RecommenderSystems #Explanation #Slide #SIGKDD Issue Date: 2019-08-19 Explainable AI in Industry, KDD19 #Article #NeuralNetwork #GraphBased Issue Date: 2019-05-31 Representation Learning on Graphs: Methods and Applications, Hamilton+, 2017 #Article #Survey #Dataset Issue Date: 2019-02-12 NLP-Progress CommentNLPの様々なタスクのデータセット, およびSOTA(2018年時点)がまとめられている。 #Article #RecommenderSystems #Explanation #Admin'sPick Issue Date: 2019-01-23 Designing and Evaluating Explanations for Recommender Systems, Tintarev+, Recommender Systems Handbook, 2011 CommentRecommender Systems HandbookのChapter。162 のSurveyと同じ著者による執筆。
推薦のExplanationといえばこの人というイメージ。D論:http://navatintarev.com/papers/Nava%20Tintarev_PhD_Thesis_(2010).pdf #Article #NeuralNetwork #Tools #NLP Issue Date: 2018-11-16 AllenNLP Commenthttps://docs.google.com/presentation/d/17NoJY2SnC2UMbVegaRCWA7Oca7UCZ3vHnMqBV4SUayc/preview?slide=id.g43b8d8e880_0_8 #Article #NeuralNetwork #MachineLearning #NLP Issue Date: 2018-06-29 Pytorchによるtransformer実装チュートリアル #Article #NeuralNetwork #MachineLearning #NLP Issue Date: 2018-02-19 ニューラルネット勉強会(LSTM編), Seitaro Shinagawa, 2016 CommentLSTMの基礎から、実装する上でのTipsがまとまっている。
zero padding, dropoutのかけかた、normalizationの手法など。 #Article #MachineLearning Issue Date: 2018-02-12 Curriculum Learning Comment牛久先生によるCurriculum Learningチュートリアル #Article #MachineTranslation #NLP #Alignment #Slide Issue Date: 2018-01-15 ALAGIN 機械翻訳セミナー 単語アライメント, Graham Neubig CommentNeubigさんによる単語アライメントチュートリアル #Article #NeuralNetwork #NLP #Slide #Admin'sPick Issue Date: 2018-01-15 自然言語処理のためのDeep Learning, Yuta Kikuchi #Article #InformationRetrieval #LearningToRank Issue Date: 2018-01-01 From RankNet to LambdaRank to LambdaMART: An Overview, Burges, Microsoft Research Technical Report, 2010 #Article #InformationRetrieval #LearningToRank #Slide Issue Date: 2018-01-01 Confidence Weightedでランク学習を実装してみた, 徳永拓之, 第4回 自然言語処理勉強会@東京 #Article #InformationRetrieval #LearningToRank #Slide Issue Date: 2018-01-01 ランキング学習ことはじめ, DSIRNLP#1, 2011 #Article #MachineLearning #OnlineLearning Issue Date: 2017-12-31 オンライン学習 Comment目次
定式化
評価法:Regretなど
パーセプトロン
Passive Aggressive Algorithm
(アルゴリズムと損失の限界の評価)
Confidence Weighted Algorithm
Pegasos
Coordinate Descent
バッチ、オンライン、ストリームの比較
ビッグデータへの対応 #Article #NeuralNetwork #EfficiencyImprovement Issue Date: 2017-12-31 Efficient Methods and Hardware for Deep Learning, Han, Stanford University, 2017 #Article #UserModeling Issue Date: 2017-12-28 Machine Learning for User Modeling, User modeling and User-adapted Interaction, [Webb+, 2001], 2001.03 Comment

encoder-onlyとまとめられているものの中には、デコーダーがあるものがあり(autoregressive decoderではない)、
encoder-decoderは正しい意味としてはencoder with autoregressive decoderであり、
decoder-onlyは正しい意味としてはautoregressive encoder-decoder
とのこと。
https://twitter.com/ylecun/status/1651762787373428736?s=46&t=-zElejt4asTKBGLr-c3bKw #Pocket #NLP #LanguageModel #Chain-of-Thought Issue Date: 2023-11-21 Igniting Language Intelligence: The Hitchhiker's Guide From Chain-of-Thought Reasoning to Language Agents, Zhuosheng Zhang+, N_A, arXiv'23 Summary大規模言語モデル(LLMs)は、言語知能の分野で劇的な進歩を遂げており、複雑な推論タスクにおいて高いパフォーマンスを示しています。特に、chain-of-thought(CoT)推論技術を活用することで、中間ステップを形成し、解釈可能性や制御可能性を向上させることができます。この論文では、CoT技術の基本的なメカニズムやその効果について詳しく解説し、言語エージェントの開発における応用例を紹介しています。将来の研究の展望にも触れており、初心者から経験豊富な研究者まで幅広い読者に対応しています。関連論文のリポジトリも提供されています。 CommentCoTに関するチュートリアル論文 #Survey #NLP #LanguageModel Issue Date: 2023-07-22 Challenges and Applications of Large Language Models, Jean Kaddour+, N_A, arXiv'23 Summary本論文では、大規模言語モデル(LLMs)の普及により、研究者が分野の現状を理解し、生産的になるための問題と応用成功例を確立することを目指しています。 CommentLLMのここ数年の進化早すぎわろたでキャッチアップむずいので、未解決の課題や、すでに良い感じのアプリケーションの分野分かりづらいので、まとめました論文 #RecommenderSystems #Infrastructure #python #Slide Issue Date: 2021-10-21 コミュニティサービスにおけるレコメンデーションの変遷とMLパイプラインについて, PyCon'21 Comment・ママ向けのQ&AサービスにおけるレコメンドとMLパイプラインについて紹介
◆レコメンドエンジンの変遷
・Tensorflowで実装したMFから始まり、その後トピックを絞り込んだ上で推薦するためにLDAを活用したレコメンド、最終的にSoftmax Recommendationを開発
Softmax Recommendation: https://developers.google.com/machine-learning/recommendation/dnn/softmax
ユーザプロファイル(e.g. 行動ベクトル, ユーザの属性情報)等を入力とし、hidden layerをかませて最終的にアイテム次元数分のスコアベクトルを得る手法
行動ベクトル=ユーザが過去にクリックしたQ&Aだが、質問ベクトルを得るために内容テキストは利用せず行動ログ+word2vecで学習
類似質問検索による定性評価の結果良い結果、関連質問を抽出できるベクトルとなっていることを確認
→ レコメンド手法の変遷につれ、ベンチマークを上回るようになっていった◆MLパイプラインについて
・AWS Step FunctionsとAmazon Sagemakerを利用
・AWS Step Functions
AWS上の様々なサービスをワークフローとして定義できる(json形式でワークフローを記述)
・Amazon Sagemaker
機械学習向けのIDE
notebook上でのデータ分析・モデル学習、実験管理や学習済みモデルのデプロイが可能
Sagemaker Processingを用いることで、実行したい処理やインスタンスタイプを指定することで、notebookとは別の実行環境(コンテナ)で任意のpythonスクリプトを実行可

・ワークフローの定義=AWS Stepfunctions, スクリプト実行のリソース=Sagemaker Processingとして利用
MLパイプラインについては下記資料により詳しい情報が書かれている
https://speakerdeck.com/takapy/sagemaker-studiotostep-functionswoyong-itemlopshefalse-bu-wota-michu-sou #DocumentSummarization #NLP #Dataset #TACL Issue Date: 2021-10-20 WikiAsp: A Dataset for Multi-domain Aspect-based Summarization, Hayashi+, CMU, TACL'21, NLPコロキウム Comment◆Aspect-based summarizationのモチベーション
・same source対して、異なるユーザニーズが存在するので、ニーズに関して要約したい
◆Aspect: あるobjectに対する、attributeのようなものを指定?
object: Attention Is All You Need
aspect: Multi-Head Attention
◆Aspect Based Summarizationの歴史
・はじめは”feature”という文言で研究され(04年頃?)
・続いてkeywordsという単語で研究され
・その後Aspectという文言で研究されるようになった
・2008年頃にMcDonaldsらがAspect-Based Summarizationを提案した
・2014年以後?とかにNeural Basedな手法が盛んに研究
◆WikiAspデータセットについて
・Wikipediaを使ったAspect-based dataset
・Wikipediaを書かれるのに利用されたsource document(wikipediaにソースとして引用されているもの)に対し、aspectを各節の見出しとみなし、節のテキストを要約文とみなすことで、データセット生成
・他のAspect-basedデータセットと異なり、ソースデータが長く、要約長も5~6倍程度
・ドメイン数が他データセットは5,6程度に対し、20と膨大
◆ベースラインとして2-stageモデルを採用
first-stage: ソーステキストからROBERTaベースドなclassifierを用いて、sentencesから内包するAspectを閾値を用いて決定
それらをgrouped sentencesとする
two-stage: 各aspectごとにまとまったテキスト集合に対して、要約モデルを適用し、要約を実施する
・要約モデルはUnsupervisedな手法であるTextRankと、Supervisedな手法であるBERTベースな手法を採用
・ドメインごとに評価した結果を見ると、BERTが強いドメインがある一方で、TextRankが強いドメインもあった
-> Extractiveな形で要約されているドメインではTextRankが強く、Abstractiveに要約されているドメインではBERTが強い
-> またBERTは比較的短い要約であればTextRankよりもはるかに良いが、長い要約文になるとTextRankとcomprable(あるいはTextRankの方が良い)程度の性能になる
・ROUGE-2の値がsentence-basedなORACLEを見た時に、他データセットと比較して低いので、Abstractiveな手法が必要なデータセット?
(後からのメモなので少しうろ覚えな部分あり)Q. ROUGE-2が30とかって直観的にどのくらいのレベルのものなの?ROUGE-2が30とか40とかは高い
・最先端の要約モデルをニュース記事に適用すると、35~40くらいになる。
・このレベルの数値になると、人間が呼んでも違和感がないレベルの要約となっているQ. 実際に要約文をチェックしてみて、どういう課題を感じるか?
A. Factual Consistencyがすぐに目につく問題で、特にBERTベースな要約文はそう。TextRankはソース文書がノイジーなので、ソース文章を適当に拾ってきただけではFactual Consistencyが良くない(元の文書がかっちりしていない)。流暢性の問題はAbstractiveモデルだと特に問題なくBERT-baseでできる。Aspect-based要約のエラー例としてAspectに則っていないということがある。たとえばオバマの大統領時代の話をきいているのに、幼少時代の話をしているとか。Aspect情報をうまくモデルを扱えていないという点が課題としてある。出典元(リアルタイムに聴講): 第13回 WikiAsp: A Dataset for Multi-domain Aspect-based Summarization, NLPコロキウム
https://youtu.be/3PIJotX6i_w?si=hX5pXwNL-ovkGSF5 #RecommenderSystems #NeuralNetwork #InformationRetrieval #SIGKDD Issue Date: 2018-02-16 Deep Learning for Personalized Search and Recommender Systems, KDD'17 #NeuralNetwork #NeurIPS Issue Date: 2018-02-06 Deep Learning: Practice and Trends, NIPS'17 Comment基礎から最新まで幅広いトピックがまとまったtutorial #MachineLearning #MultitaskLearning Issue Date: 2018-02-05 An Overview of Multi-Task Learning in Deep Neural Networks, Sebastian Ruder, arXiv'17 #NeuralNetwork #MachineTranslation #NLP Issue Date: 2018-01-15 ゼロから始める ニューラルネットワーク機械翻訳, 中澤敏明, NLP'17 Comment中澤さんによるNMTチュートリアル。 #NeuralNetwork #ComputerVision #Pocket #GenerativeAdversarialNetwork Issue Date: 2017-12-28 Generative Adversarial Networks: An Overview, Dumoulin+, IEEE-SPM'17 #NeuralNetwork #MachineLearning #Pocket #NLP #Optimizer Issue Date: 2025-08-02 [Paper Note] An overview of gradient descent optimization algorithms, Sebastian Ruder, arXiv'16 Summary勾配降下法の最適化アルゴリズムの挙動を理解し、活用するための直感を提供することを目的とした記事。さまざまなバリエーションや課題を要約し、一般的な最適化アルゴリズム、並列・分散設定のアーキテクチャ、追加戦略をレビュー。 Comment元ポスト:https://x.com/goyal__pramod/status/1951192112269054113?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q勉強用にメモ #NeuralNetwork #MachineLearning #ICML Issue Date: 2018-02-22 Tutorial: Deep Reinforcement Learning, David Silver, ICML'16 #NeuralNetwork #GenerativeAdversarialNetwork #NeurIPS Issue Date: 2018-02-06 Generative Adversarial Networks (GANS), NIPS'16 CommentGoodfellow氏によるGANチュートリアル #MachineLearning Issue Date: 2018-02-05 An overview of gradient descent optimization algorithms, Sebastian Ruder, arXiv'16 #NeuralNetwork #SentimentAnalysis #NLP #EMNLP Issue Date: 2018-01-01 Neural Network for Sentiment Analysis, EMNLP'16 #InformationRetrieval #LearningToRank #Online/Interactive #SIGIR Issue Date: 2018-01-01 Online Learning to Rank for Information Retrieval, Grotov+, SIGIR'16 #InformationRetrieval #LearningToRank Issue Date: 2018-01-01 Machine Learning for Information Retrieval, Hofmann, ESSIR'15 #RecommenderSystems #InteractiveRecommenderSystems #Slide #RecSys Issue Date: 2017-12-28 Interactive Recommender Systems, Netflix, RecSys'15, 2015.09 #RecommenderSystems Issue Date: 2018-01-01 推薦システムにおけるインタラクション研究へのいざない, 土方, ヒューマンインタフェース学会誌'13 #RecommenderSystems #ContextAware #AAAI Issue Date: 2018-12-22 Context Aware Recommender Systems, Adomavicius+, AAAI'11 CommentAdomaviciusらによるContext Aware Recsysチュートリアル #InformationRetrieval #OnlineEvaluation #SIGIR Issue Date: 2018-01-01 Practical Online Retrieval Evaluation, SIGIR'11, Tutorial #Article #NLP #LanguageModel #ReinforcementLearning #Slide #PostTraining #read-later #RLVR Issue Date: 2025-08-26 The Bitter Lesson for RL: Verification as the key to Reasoning LLMs, Rishabh Agarwal, 2025.06 Comment元ポスト:https://x.com/yongyuanxi/status/1960040848051372379?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #Article #LLMAgent #Blog Issue Date: 2025-08-25 Best Practices for Building Agentic AI Systems: What Actually Works in Production, Shayan Taslim, 2025.08 Comment元ポスト:https://x.com/keigohtr/status/1959754823668265157?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #Article #NLP #SSM (StateSpaceModel) Issue Date: 2025-08-14 チュートリアル:Mamba, Vision Mamba (Vim), Hironobu Fujiyoshi+, 2024.11 #Article #LanguageModel #SyntheticData #Slide #ACL Issue Date: 2025-08-06 Synthetic Data in the Era of LLMs, Tutorial at ACL 2025 Comment元ポスト:https://x.com/gneubig/status/1952876206388359186?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #Article #NLP #LanguageModel #LLMServing #SoftwareEngineering #read-later #Admin'sPick Issue Date: 2025-07-22 LLM Servingを支える技術, Kotoba Technologies, 2025.07 Commentこちらも参照のこと:
・2263 #Article #Metrics #NLP #LanguageModel #LLMServing #MoE(Mixture-of-Experts) #SoftwareEngineering #Admin'sPick #Parallelism #Inference #Batch Issue Date: 2025-07-21 LLM推論に関する技術メモ, iwashi.co, 2025.07 Comment```
メモリ (GB) = P × (Q ÷ 8) × (1 + オーバーヘッド)
・P:パラメータ数(単位は10億)
・Q:ビット精度(例:16、32)、8で割ることでビットをバイトに変換
・オーバーヘッド(%):推論中の追加メモリまたは一時的な使用量(例:KVキャッシュ、アクティベーションバッファ、オプティマイザの状態)
```
↑これ、忘れがちなのでメモ…関連(量子化関連研究):
・2264
・1570
・1043すごいメモだ…勉強になります #Article #LLM-as-a-Judge #RewardModel Issue Date: 2025-07-17 [Personal Note] LLM-as-a-judge _ Reward Model #Article #LanguageModel #Programming #SoftwareEngineering #MCP Issue Date: 2025-07-14 advanced-mcp-features, epicweb-dev, 2025.06 CommentMCPの勉強に良いかもしれないのでメモ #Article #read-later #NormalizingFlow Issue Date: 2025-07-09 Normalizing Flow入門 第1回 変分推論, Tatsuya Yatagawa, 2021.01 Commentこの辺のポストも合わせて理解したい:
https://x.com/jbhuang0604/status/1950883022942978254?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #Article #NLP #LanguageModel #Reasoning #LongSequence #SmallModel #MultiLingual #OpenWeight #OpenSource Issue Date: 2025-07-09 SmolLM3: smol, multilingual, long-context reasoner, HuggingFace, 2025.07 Comment元ポスト:https://x.com/thom_wolf/status/1942670704278732978?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QSmolLM3を構築する際の詳細なレシピ(アーキテクチャ、データ、data mixture, 3 stageのpretraining(web, code, mathの割合と品質をステージごとに変え、stable->stable->decayで学習), midtraining(long context->reasoning, post training(sft->rl), ハイブリッドreasoningモデルの作り方、評価など)が説明されている学習/評価スクリプトなどがリリース:
https://x.com/_lewtun/status/1950209751066742982?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #Article #Pretraining #NLP #Dataset #LanguageModel #Evaluation #Blog #OpenWeight #Japanese #PostTraining Issue Date: 2025-06-25 LLM-jp-3.1 シリーズ instruct4 の公開, LLM-jp, 2025.05 Comment関連
・2089
・2090
・2091 #Article #ReinforcementLearning #Blog #Off-Policy #On-Policy Issue Date: 2025-06-19 Q-learning is not yet scalable, Seohong Park, UC Berkeley, 2025.06 Comment元ポスト:https://x.com/ar_douillard/status/1934988867570212874?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qon-policy RLでは、現在の状態からポリシーに従ってアクションを選択して、実際に選択したアクションのrewardとQ値をシグナルにしてポリシーを更新するけど、off-policy RLでは、未来において現在の(Q関数で)Q値が最大となるアクションを選択した場合に得られる価値はどんなもん?というQ関数の学習が甘い状態だととあるアクションを過大評価してしまう(=バイアス)ようなシグナルに基づいて更新されるから、系列が長くなるとバイアスが蓄積して適切なQ関数が学習できなくなってdepth方向にスケールしづらいんだよ、という話っぽい? #Article #Pretraining #MachineLearning #NLP #LanguageModel #Transformer #Chain-of-Thought #In-ContextLearning #Attention #DiffusionModel #SSM (StateSpaceModel) #Scaling Laws #PostTraining Issue Date: 2025-05-31 2025年度人工知能学会全国大会チュートリアル講演「深層基盤モデルの数理」, Taiji Suzuki, 2025.05 Comment元ポスト:https://x.com/btreetaiji/status/1927678122817921442?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #Article #ComputerVision #NLP #LanguageModel #DiffusionModel #Slide Issue Date: 2025-05-24 【DL輪読会】 Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models, Deep Learning JP, 2025.05 Comment元ポスト:https://x.com/kym384/status/1925852937835737569?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q1986 でLiteratureをざっくり把握してからこちらを読むのが良さそう。 #Article #ComputerVision #NLP #LanguageModel #DiffusionModel #Slide Issue Date: 2025-05-24 Masked Diffusion Modelの進展, Deep Learning JP, 2025.03 Comment元ポスト:https://x.com/kym384/status/1925852884656099572?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qスライド中のARのようにKV Cacheが使えない問題に対処した研究が
・1984
この辺はdLLMが有望であれば、どんどん進化していくのだろう。 #Article #Slide #ACL Issue Date: 2025-05-11 ACL 2024 参加報告, 張+, 株式会社サイバーエージェント AI Lab, 2024.08 Comment業界のトレンドを把握するのに非常に参考になる:
・Reasoning, KnowledgeGraph, KnowledgeEditing, Distillation
・PEFT, Bias, Fairness, Ethics
・Multimodal(QA, Benchmarking, Summarization)
などなど。
投稿数5000件は多いなあ… #Article #Blog Issue Date: 2025-04-18 研究者向けの技術研修資料を公開します, CyberAgent, 2025.04 Comment気になる #Article #NLP #LanguageModel #Blog #Reasoning #Test-Time Scaling Issue Date: 2025-03-09 The State of LLM Reasoning Models, Sebastian Raschka, 2025.03 #Article #InformationRetrieval #NLP #RAG(RetrievalAugmentedGeneration) #Repository Issue Date: 2025-01-05 Advanced RAG Techniques: Elevating Your Retrieval-Augmented Generation Systems, NirDiamant, 2025.01 Comment元ポスト:https://x.com/rohanpaul_ai/status/1875447223682748750?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QRAGのための細かなテクニックが(コードのサンプルへのリンク付きで)大量にまとまっている。かなり頻繁に更新れているようで非常に良さそう #Article #NLP #LanguageModel #Attention #Blog Issue Date: 2024-12-28 MHA vs MQA vs GQA vs MLA, Zain ul Abideen, 2024.07 CommentDeepSeekで使われているMulti Head Latent Attention(MLA)ってなんだ?と思い読んだ。端的に言うと、GQAやMQAは、KVのヘッドをそもそも減らしてKV Cacheを抑えよう、という手法だったが、MLAはKVを低ランクなベクトルに圧縮して保持し、使う時に復元するといった操作をすることで、MHAのパフォーマンスを落とすことなく(むしろ上がるらしい?)、利用するKV Cacheで利用するメモリを大幅に減らせるという手法らしい。・1271
MQA, GQAの概要については上記参照のこと。 #Article #NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #Chain-of-Thought #Reasoning #Mathematics #PostTraining Issue Date: 2024-12-27 LLMを数学タスクにアラインする手法の系譜 - GPT-3からQwen2.5まで, bilzard, 2024.12 Comment・1618
において、数学においてモデルのパラメータ数のスケーリングによって性能改善が見込める学習手法として、モデルとは別にVerifierを学習し、モデルが出力した候補の中から良いものを選択できるようにする、という話の気持ちが最初よくわからなかったのだが、後半のなぜsample&selectがうまくいくのか?節を読んでなんとなく気持ちが理解できた。SFTを進めるとモデルが出力する解放の多様性が減っていくというのは、興味深かった。
しかし、特定の学習データで学習した時に、全く異なるUnseenなデータに対しても解法は減っていくのだろうか?という点が気になった。あとは、学習データの多様性をめちゃめちゃ増やしたらどうなるのか?というのも気になる。特定のデータセットを完全に攻略できるような解法を出力しやすくなると、他のデータセットの性能が悪くなる可能性がある気がしており、そうするとそもそもの1shotの性能自体も改善していかなくなりそうだが、その辺はどういう設定で実験されているのだろうか。
たとえば、
・1475
などでは、
・1474
のような1600を超えるようなNLPタスクのデータでLoRAによりSFTすると、LoRAのパラメータ数を非常に大きくするとUnseenタスクに対する性能がfull-parameter tuningするよりも向上することが示されている。この例は数学に特化した例ではないが、SFTによって解法の多様性が減ることによって学習データに過剰適合して汎化性能が低下する、というのであれば、この論文のことを鑑みると「学習データにoverfittingした結果他のデータセットで性能が低下してしまう程度の多様性の学習データしか使えていないのでは」と感じてしまうのだが、その辺はどうなんだろうか。元論文を読んで確認したい。
とても勉強になった。記事中で紹介されている
> LLMを使って複数解法の候補をサンプリングし、その中から最適な1つを選択する
のルーツは 1618 とのことなので是非読みたい。
この辺はSelf-Consistency 558 あたりが最初なのかと思っていた。 #Article #Pretraining #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #Video Issue Date: 2024-12-25 Stanford CS229 I Machine Learning I Building Large Language Models (LLMs), StanfordUnivercity, 2024.09 Commentスタンフォード大学によるLLM構築に関する講義。事前学習と事後学習両方ともカバーしているらしい。 #Article #NLP Issue Date: 2024-12-15 国際会議ACL2024参加報告, Masato Mita, Cyber Agent, 2024.12 #Article #GenerativeAI #Repository Issue Date: 2024-12-12 GoogleCloudPlatform_generative-ai, Google, 2024.12 CommentGoogle Cloudで生成AI(Gemini+Vertex AI)を動かすためのサンプルコード集元ポスト:https://x.com/kazunori_279/status/1866975767869231547?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #Article Issue Date: 2024-11-27 エンジニア研修まとめ, gcchaan, 2024.11 Comment様々な企業のエンジニアの新卒研修の資料などがまとまっている。学術機関の講義なども含まれている。現在も更新されている模様。
量がすごい。 #Article #ComputerVision #NLP #SSM (StateSpaceModel) Issue Date: 2024-11-27 チュートリアル:Mamba, Vision Mamba (Vim), Hironobu Fujiyoshi, 2024.11 #Article #NLP #Prompting Issue Date: 2024-11-13 LLM Prompt Tuning Playbook, 2024.11 Comment・1462 も参照のこと #Article #InformationRetrieval #NLP #RAG(RetrievalAugmentedGeneration) Issue Date: 2024-11-07 RAGの改善方法に関する情報のまとめ(再掲), GENZITSU, 2023.10 #Article #Video #VCS #git Issue Date: 2024-11-04 システム開発プロジェクト応用第一 第5,6回 Gitによるバージョン管理, 内田公太, 2020.01 CommentVCSの歴史から原理、実用的な使い方まで、Gitについて体系的にまとまっている。普段何気なく使っているが、改めて勉強すると、なるほど、と思うことが多い。
・VCSの歴史、モチベーション(複数並列するバージョンを適切に管理したい)
・ワークツリー、インデックス、リポジトリ(HEAD)の違い
・基本的なgitコマンドから、普段あまり使わないハンク(hunk)の選択的なaddなどのコマンド
・コミットオブジェクト(ワークツリーのスナップショットを保持したもの≠前回のコミットに対する差分)
・HEAD/Detached HEADの原理
・Gitタグ
・checkoutの原理(ワークツリーとインデックスをHEADの内容に更新する)
・ブランチ、ブランチとHEADの関係性
・マージ方式(2way マージ、3wayマージ)
・2wayマージは元ファイルを参照しないのでマージ時に特定の編集がなかったことになってしまう)
・3wayマージは元ファイルも見て差分を計算するのでこのようなことが起こらない
・競合の原理、競合解決時のファイル内容
・Fast-Forwardマージ(ポインタを動かすだけで事足りる場合に利用)
・cherry pick(任意のコミットをとってくる)
・(cherry pickを連続して利用する)リベース(ベースを付け替える操作)
・歴史を修正する
・git reflogで起点とするコミットIDを見つけ、git rebase -iでコミット順変更orメッセージ変更、git commit --amendでコミット修正
・状態のリセット
・soft: HEADを指定したコミットにリセット
・mixed: インデックスをリセット
・hard: インデックスとワークツリーをリセット
・git stash
・コミット粒度とメッセージ
・単一の関心事項のみを含むような粒度でコミットしよう(一言で説明できる粒度)
・cherry pickが容易になる
・別ブランチの脆弱性への対応のみを適用したい、など
・現在形で書く。そうすると、後からcherry pickするときに内容の判断をしやすい。
神講義 #Article #EfficiencyImprovement #Pocket #LanguageModel Issue Date: 2024-09-25 LLMの効率化・高速化を支えるアルゴリズム, Tatsuya Urabe, 2024.09 #Article #ComputerVision #MachineLearning #NLP #LanguageModel #Repository Issue Date: 2024-09-07 ml-engineering CommentLLMやVLMを学習するためのツールやノウハウがまとめられたリポジトリ #Article #LanguageModel #Slide Issue Date: 2024-09-01 大規模言語モデル (LLM) の技術と最新動向, Ikuya Yamada, 2024.06 CommentLLMの原理の基礎的な内容について、丁寧かつコンパクトにまとまっている。
>ファインチューニングは新しい知識の学習ではなく知識の使い方を学習させるのに向いている
これをきちんと念頭に置いておかないと落とし穴にハマると思う。引用元の論文読みたい(1371)。画像は資料中より引用。LLMの作り方について非常にシンプルにまとまっている。
アライメントがなぜ必要か?の例もわかりやすい!
#Article #NLP #LanguageModel #OpenWeight #Slide Issue Date: 2024-08-26 論文紹介 _ The Llama 3 Herd of Models, 2024.08 CommentLlama3の事前学習や事後学習のノウハウが詰まっており(安全性なども含む)、LLM学習に必要な要素が図解されており、非常に分かりやすい。
たとえば下記図(スライド中より引用)などは、LLMの学習過程を説明する際にわかりやすそう
LLMの事前・事後学習あたりは独自ノウハウが多すぎてもはや追従困難 #Article #Pretraining #NLP #LanguageModel #Blog Issue Date: 2024-07-08 GENIAC: 172B 事前学習知見, 2024 CommentLLMの事前学習における知見がまとまっている記事とのこと・Megatron LMで学習
→ 3D Parallelismなどの分散学習手法によりHF Trainerより高速
→ Data Parallelim、Tensor Parallelism、 Pipeline Parallelismを組み合わせたもの
・GPUメンテナンス、不良で学習が継続できなかった場合はcheckpointをロードして学習
・学習曲線が安定しているように見えるがSpikeは発生している。発生時はgradient normが急激に上昇する
・LlamaなどのLLMからの継続的事前学習ではなくfrom scratchから学習しているので透明性が高い
・Transformer engineを利用
・AdamWを利用
・attention dropout, hidden dropoutは0.0
>この際、 通信を多く必要とする分散手法のワーカー(Tensor Parallelワーカー)はノード内に配置するようにMegatron-LMのデフォルトではなっているため、今回もそれを利用しました。このようにする理由は、ノード内の通信はNVLinkにより、ノード間通信よりも高速であるためです。また、Data Parallelの勾配平均化のための通信を考慮して、Data Parallelワーカーも可能な限りノード内に配置するMegatron-LMデフォルトの挙動を利用しました。
Pipeline Parallelismは他の並列化手法と比較して通信量が少ないP2P(Point-to-Point)通信であるため、パイプラインステージはノード間で配置するようにしました。これも、Megatron-LMデフォルトの挙動です。
勉強になる
・通常のデータ並列はoptimizer stateをworker間で複製するので遅い。Deep Speed Zero 1のように分散して保有することで高速化
・Tensor Parallelでself attention, MLPの計算を並列化できる
・LayerNormalization, Dropoutの演算もメモリ効率の観点から並列化
・学習を安定させるためにz-lossを利用
・batch skippingとは、gradient clippingを行っていてもなおspikeが生じる場合に、100 step前に戻り、spikeが生じた付近のデータを数百iteration程度スキップすること
#Article #NLP #LanguageModel Issue Date: 2024-07-03 より良いTransformerをつくる, Shun Kiyono, 2022 #Article #RecommenderSystems #Blog Issue Date: 2024-04-26 推薦・機械学習勉強会, Wantedly CommentWantedlyさんのRecSys勉強会の資料がまとまったリポジトリ。継続的に更新されており、最近この辺のトピックは追いきれていないので非常に有用。 #Article #NLP #LanguageModel Issue Date: 2024-04-03 LLMの現在, 202404, Preffered Elements #Article #Survey #InformationRetrieval #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2024-03-05 RAG-Research-Insights CommentRAGに関する研究が直近のものまでよくまとめられている #Article #Survey #InformationRetrieval #LanguageModel #Blog Issue Date: 2024-02-22 awesome-generative-information-retrieval #Article #EfficiencyImprovement #NLP #LanguageModel Issue Date: 2023-12-15 optimize-llm, HuggingFace CommentLLMをoptimizeする実用的なチュートリアルこちらも有用なので参照のこと
【GPU inference】
https://huggingface.co/docs/transformers/main/perf_infer_gpu_one
#Article #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2023-11-22 Deconstructing RAG CommentRAGにおける様々な戦略がまとまっている(リンク付き #Article #Dataset #LanguageModel #Evaluation Issue Date: 2023-11-16 JGLUEの構築そして 日本語LLM評価のこれから, 2023 CommentJGLUEのexample付きの詳細、構築の経緯のみならず、最近の英語・日本語LLMの代表的な評価データ(方法)がまとまっている(AlpacaEval, MTBenchなど)。また、LLMにおける自動評価の課題(図は資料より引用)が興味深く、LLM評価で生じるバイアスについても記述されている。Name biasなどはなるほどと思った。
日本語LLMの今後の評価に向けて、特にGPT4による評価を避け、きちんとアノテーションしたデータを用意しfinetuningした分類器を用いるという視点、参考にしたい。
次のスクショはRAGにかかわる周辺技術がよくまとまっていると思う。
以下ざっくり私の中の認識として
・計画
・クエリ拡張
・クエリの質が悪い場合検索性能が劣化するため、クエリをより適切に検索ができるように修正(昔はキーワードしか与えられないときに情報を増やすから”拡張”という文言が用いられているが現在はこれに限らないと思う)する技術
・分解・抽象化
・複雑なクエリから分解することでマルチホップの質問をサブ質問に分解(今ならLLMを利用すれば比較的簡単にできる)したり、あるいは抽象化したクエリ(Step-back Promptnig 1076 )を活用することで検索を改善する技術
・検索対象選定
・検索する対象そのものを選択し、検索対象をフィルタリングする技術
・資料中ではLLMを用いたフィルタリングやClassifierを用いたフィルタリングが紹介されているが、メタデータで絞り込むなどの単純な方法でも実現可能だと思われる(メタデータで絞り込む、はClassifierでのフィルタリングとリンクするかもしれないが)
・思考・行動
・518 のような自律的にLLMに思考とその結果に基づく行動をイテレーションさせる技術や、クエリを分解して回答へたどり着くために必要な推論を構築し、各推論の回答を検証しながら生成を繰り返す技術が紹介されている
・この辺の技術はクエリが非常に複雑な場合に有効ではあるが、シンプルな場合は必要ないかなという印象がある
・シンプルなユースケースの場合はどちらかというと泥臭い前処理とかが効きそう
・関連知識取得
・検索
・表層検索(TF-IDFベクトル, BM25)などの古典的な手法や、意味検索(Embeddingに基づく手法)が紹介されている
・例えばlangchainでは表層検索 + 意味検索の両者がサポートされており、簡単にハイブリッドな検索が実現できる
・知識文生成
・外部知識として検索された文書を利用するだけでなく、LLM自身が保持する知識を活用するためにLLMが生成した文書の両方を活用するとQAの正答率が向上することが紹介されている
・文書フィルタ
・検索でクエリに関連しない文書を取得してしまう応答品質が大幅に低下することが紹介されている
・個人的にはここが一番重要なパートだと考えている
・また、検索結果を要約する方法も紹介されている
・再帰・反復計算
・Retrierverから取得した結果に基づいてLLMが応答を生成し、生成した応答とoriginalのquestionの両方を組み合わせて追加でRetrieverから文書を取得し生成する手法などが紹介されている
・ リランキング
・検索結果のリランキングも古くから存在する技術であり、異なる知識を持つRankerによってリランキングさせることで性能が向上する場合がある
・回答
・回答抽出・生成
・回答となる部分のspanを抽出する手法と、spanではなくテキストを生成する手法が紹介されている
・この辺は文書要約におけるExtractive/Abstractive Summarization技術などもかなり応用が効くと思われる
・インデクシング
・不要文書のフィルタリングや、チャンク分割の戦略、資格情報をテキスト化する方法などが紹介されている
#Article #NLP #LanguageModel #Alignment #GenerativeAI #Hallucination #Blog Issue Date: 2023-11-03 生成AIが抱えるリスクと対策, LYCorp‘23 Commentこの資料をスタートにReferしている論文などを勉強すると、GenerativeAIのリスク周りに詳しくなれそう。この辺は疎いので勉強になる。
しかし、LLMのAlignmentが不十分だったり、Hallucinationを100%防ぐことは原理的に不可能だと思われるので、この辺とどう付き合っていくかがLLMと付き合っていく上で難しいところ。この辺は自分たちが活用したいユースケースに応じて柔軟に対応しなければならず、この辺の細かいカスタマイズをする地道な作業はずっと残り続けるのではないかなあ #Article #NLP #LanguageModel Issue Date: 2023-11-01 IBIS2023チュートリアル「大規模言語モデル活用技術の最前線」 CommentLLMの応用研究やPromptingを中心としたチュートリアル。アノテーションや対話式推薦システムへの活用、ReAct、プロンプトの最適化技術、CoTの基本から応用まで幅広くまとまっているので、LLMの応用技術の概観や、CoTを実践したい人に非常に有用だと思う。 #Article #NLP #LanguageModel Issue Date: 2023-10-10 Large Language Model (in 2023), OpenAI CommentLLMの研究開発動向を俯瞰するのに有用らしい #Article #LanguageModel Issue Date: 2023-09-29 GGML_GGUF_GPTQの違い Comment量子化に関する技術であるGGML, GGUF, GPTQに関する詳細なまとめ
よくわからんが筆者の言葉を引用すると
>llama.cppならGGUF、TransformerならGPTQって感じ?
ということなので、これらは量子化を行うための技術を提供するライブラリであり、GGUF/GGMLはllama.cppで利用可能で、GPTQはより汎用的に利用可能な手法だと思われる。GPTQについて論文をざっくり読んでメモった 1043 #Article #NLP #LanguageModel Issue Date: 2023-09-04 大規模言語モデル, 岡崎先生, 2023 Comment岡崎先生による大規模言語モデルのチュートリアル
最近のLLMまでの歴史、transformerなどの基礎的な内容から、最新の内容まで数式付きで詳細にまとまっている #Article #NLP #LanguageModel #Supervised-FineTuning (SFT) Issue Date: 2023-08-29 LLMのファインチューニング で 何ができて 何ができないのか Comment>LLMのファインチューニングは、「形式」の学習は効果的ですが、「事実」の学習は不得意です。
> シェイクスピアの脚本のデータセット (tiny-shakespeare) の
「ロミオ」を「ボブ」に置き換えてファインチューニングして、新モデルの頭の中では「ロミオ」と「ボブ」をどう記憶しているかを確認します。
ファインチューニングしても、Bで始まるジュリエットが恋する人物について質問しても、ボブと答えてはくれない。
> ロミオ」は「ジュリエット」が恋していたこの男性に関連付けられており、「ロミオ」を「ボブ」に置き換えるファインチューニングでは、ニューラルネットワークの知識ベースを変更することはできませんでした。
なるほど。参考: https://www.anyscale.com/blog/fine-tuning-is-for-form-not-facts?ref=blog.langchain.devimosさんのツイートを引用
> 文章が悪かったので補足。追加学習を全体に十分なデータですれば知識は獲得しえます(が事前学習の知識を忘却するリスクは高い)。巷でよくファインチューニングと呼ばれるものは、知識を司るらしいMLP部を触らず自己注意機構部のみを更新するので、そもそも知識を増やすのは難しいという認識です。
元ツイート: https://x.com/imos/status/1696507787067756846?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #Article #NLP #LanguageModel #Prompting #Blog Issue Date: 2023-05-12 Prompt Engineering vs. Blind Prompting, 2023 Commentexperimentalな手法でprompt engineeringする際のoverview #Article #MachineLearning #Self-SupervisedLearning Issue Date: 2023-04-26 A Cookbook of Self-Supervised Learning, 2023 CommentMetaによるSelf Supervised Learningの教科書 #Article #RecommenderSystems #Embeddings #EfficiencyImprovement #Library Issue Date: 2023-04-25 Training a recommendation model with dynamic embeddings Commentdynamic embeddingを使った推薦システムの構築方法の解説(理解が間違っているかもしれないが)推薦システムは典型的にはユーザとアイテムをベクトル表現し、関連度を測ることで推薦をしている。この枠組みをめっちゃスケールさせるととんでもない数のEmbeddingを保持することになり、メモリ上にEmbeddingテーブルを保持して置けなくなる。特にこれはonline machine learning(たとえばユーザのセッションがアイテムのsequenceで表現されたとき、そのsequenceを表すEmbeddingを計算し保持しておき、アイテムとの関連度を測ることで推薦するアイテムを決める、みたいなことが必要)では顕著である(この辺の理解が浅い)。しかし、ほとんどのEmbeddingはrarely seenなので、厳密なEmbeddingを保持しておくことに実用上の意味はなく、それらを単一のベクトルでできるとメモリ節約になって嬉しい(こういった処理をしてもtopNの推薦結果は変わらないと思われるので)。
これがdynamic embeddingのモチベであり、どうやってそれをTFで実装するか解説している。 #Article #Survey #Transformer Issue Date: 2023-02-14 30分で完全理解するTransformerの世界 Comment非常に詳細で実質日本語のサーベイ論文のようなもの
#Article #NeuralNetwork #MachineLearning Issue Date: 2023-01-21 tuning_playbook, Google Research CommentGoogleが公開したDeep Learningモデル学習のノウハウ。必読日本語訳
https://github.com/Valkyrja3607/tuning_playbook_ja #Article #RecommenderSystems Issue Date: 2022-12-19 推薦システムにおいて線形モデルがまだまだ有用な話 #Article #NeuralNetwork #Library #Transformer Issue Date: 2022-12-01 BetterTransformer, Out of the Box Performance for Hugging Face Transformers Commentたった1ライン追加するだけで、Transformerのinferenceが最大で4.5倍高速化されるBetterTransformerの解説記事
better_model = BetterTransformer.transform(model) #Article #NeuralNetwork #ComputerVision Issue Date: 2022-10-27 CNN vs. ViT, 牛久先生 Comment・Swin Transformer, Depth-wise conv, ConvNeXt, ViTとCNNのロバスト性の違いの話があり勉強になる
・最終的な結論が、CNNもTransformerも変わらない(明確な勝者はいない; 今のところ引き分け)というのはおもしろかったdepth-wise conv, point-wise convの解説記事:https://agirobots.com/depthwise-pointwise-convolution/
通常のCNNのフィルタによるfeature map計算を、空間方向(depth-wise conv)とチャネル方向(point-wise conv; 1x1 conv)に分解することで大幅にパラメータ数削減 #Article #NeuralNetwork #NLP #Transformer Issue Date: 2022-09-06 Transformerの最前線 〜 畳込みニューラルネットワークの先へ 〜, 牛久先生, 2022 #Article #Tools #Library Issue Date: 2022-08-03 pandas tips Comment◆遅くないpandasの書き方
https://naotaka1128.hatenadiary.jp/entry/2021/12/07/083000iterrows-%E3%81%AF%E7%B5%B6%E5%AF%BE%E3%81%AB%E4%BD%BF%E3%82%8F%E3%81%AA%E3%81%84-apply%E3%82%82
iterrows, applyを使うな、あたりは非常に参考になった。numpy配列に変換してループを回すか、np.vectorizeを使ってループを排除する。 #Article #LearningAnalytics Issue Date: 2022-03-03 ①ラーニングアナリティクスの研究動向 ─エビデンスに基づく教育の実現に向けて─, 京都大学, 緒方先生, 情報処理 Vol.59 No.9 Sep. 2018 Comment緒方先生によるLAのチュートリアル
主な研究テーマ:
①行動予測:教育・学習活動において蓄積された大量のデータを元に,機械学習を用いて予測モデルを作成し,学習者の成績や能力,ドロップアウト等の行動を予測する研究
②介入モデル:いつどこでどのような内容をどのような方法で学習者に伝えると,効果的な情報提供となるか,という研究
③オープン学習者モデル:学習データを用いて学習スタイルや特徴を推測し,それをシステム内だけにとどめるのではなく,学習者にできる限り見える形で提示する,オープン学習者モデルの研究
④推薦:学習者個人の特徴にあわせて,教材や問題,カリキュラム等を推薦する研究
⑤ティーチングアナリティクス:教師の教育活動のデータを分析する研究
⑥教育評価の自動化:収集したデータの分析を元に,学習者の評価を自動的に行う研究2021年版スライド:
https://www.let.media.kyoto-u.ac.jp/wp-content/uploads/2021/07/603b542fafc54003eb4a1a42bb92069f.pdf
典型的な研究事例:
・At-risk学生の発見と成績予測(early-warning)
・学生の成績予測
・教員が早期に単位を落としそうな学生を発見
・学生は成績予測を確認して、学びに向かう態度を改善
・教育データを用いた予測
・教育データからACADEMIC Successの予測(e.g. career success, academic achievement)
・Open learner model (student model)
・Recommendation and personalized learning
・ALEKSのようなシステム
・BKT, DKT等を用いた推薦
・Learning analytics dashboard
・Writing (Text) analytics
・Academic writingの文章を分析
・eポートフォリオ/Essay/Journalを分析、成績や感情を予測
・Emotional learning analytics
・Multimodal learning analytics
・Gaze (eye tracking)
・Bio sensors (heart rate)
・Pen, click stream
・Motion sensor (gestures)
・Audio/Video
・Collaborative learning analytics
・Group formation
・Social network analysis
・Interaction analytics
・Ubiquitous Learning analytics
・SCROLL:誰がいつどこで何を学習したかという学習ログを分析
・Learning analytics and self-regulated learning
・Learning analytics for teaching / learning design
・Assessment analytics
・create exams
・Peer evaluation #Article #Pocket #Programming #Slide Issue Date: 2022-03-02 良いコードとは何か - エンジニア新卒研修 スライド公開, CyberZ, 森 #Article #MachineLearning #Slide Issue Date: 2022-02-07 NeurIPS 2021 技術報告会, 株式会社TDAI Lab, 2022 CommentNeurIPS 2021での技術トレンドがまとめられている
1. アーキテクチャの改善
2. マルチモーダルモデル
3. Temporal Adaptation
4. Retrieval Augmentation
5. ベンチマーク見直し
6. データセット見直し
7. Human-Centered AI #Article #Blog #Programming Issue Date: 2021-11-25 Pythonのオブジェクト指向プログラミングを完全理解, kaitolucifer (Kaito), 2021 Commentオブジェクト指向の歴史的背景から、SOLID、GRASP等が詳細に解説されている。辞書的に参照するのが良いかも。 #Article #Blog #Programming Issue Date: 2021-11-25 イラストで理解するSOLID原則, baby-degu, 2021 Commentオブジェクト指向におけるSOLID原則をイラストで解説した記事。直感的で分かりやすい。 #Article #RecommenderSystems #CTRPrediction #Blog Issue Date: 2021-10-29 バンディットアルゴリズムを使って広告最適化のシミュレーションをしてみたよ, ysekky, 2014 Commentなぜクリック率を上げたいのかという説明が非常に参考になる:
>しかしその広告を掲載する側から考えればクリック率の低い広告を出すことは売上が下がってしまうため,クリック率が>低いとなかなか広告を表示することができなくなってしまいます.
その際よく使われるのはeCPMという指標です.
eCPMはその広告を1000回表示していくらの売上を上げることができるかという指標であり,
クリック率1000クリック単価で求められます.
>EPCMが高い広告のほうが表示されやすいため,クリック率を上げることで同じクリック単価でたくさんのユーザを自社のランディングページに誘導することができるようになります.
>例えば今回のケースではクリック率1.2%でクリック単価が60円ですので,eCPMは720円です。
ここでクリック率が0.1%上がるとeCPMは780円になります.
>そのときクリック単価を56円にしてもeCPMは726円になるため,つまりクリック率が0.1%上がると同じだけのランディングページへの誘導を得るための単価を4円下げることができます.
>例えばそのランディングページでの商品の購入が1%で行われるとすると,商品を1つ売るためのコストが400円も下がる事になります.
>ケースバイケースではありますが,このようにクリック率を上げることはウェブ広告を通してものを売るために非常に重要な要素になります. #Article #AdaptiveLearning #LearningAnalytics Issue Date: 2021-10-29 ラーニング・アナリティクスとは何か?, 武田俊之, コンピュータ&エデュケーション VOL.38, 2015 CommentLearning Analyticsの全体像について、コンパクトにまとまっている。
特に、そのアプローチに関するコンセプトの特徴(e.g. 学習者中心、デーア駆動)や、フレームワーク、xAPIといったデータの測定・収集方法などについて、まとめられている。 #Article #NLP #Blog #Legal Issue Date: 2021-10-26 自然言語系AIサービスと著作権侵害, 柿沼太一, 2021 #Article #MachineLearning #Pocket #Infrastructure Issue Date: 2021-10-19 Hidden Technical Debt in Machine Learning Systems, Sculley+, Google Comment

よく見るML codeが全体のごく一部で、その他の基盤が大半を占めてますよ、の図 #Article #MachineLearning #Pocket Issue Date: 2021-10-16 実臨床・Webサービス領域での機械学習研究 開発の標準化 Comment並列して走る機械学習案件をどのように効果的に捌いているか説明。
①タイトな締切
→ 高速化で対処
→ よく使う機能をML自身に実装する
②並行して走る案件
→ 並列化
→ Kubernetesを用いて、タスクごとに異なるノードで分散処理(e.g CVのFoldごとにノード分散、推論ユーザごとにノード分散)要件に合わせて、メモリ優先、CPU優先などのノードをノードプールから使い分ける
③属人化
→ 標準化
→ よく使う機能はMLシステム自身に実装
→ 設定ファイルで学習、推論の挙動を制御 #Article Issue Date: 2021-07-16 【決定版】スーパーわかりやすい最適化アルゴリズム -損失関数からAdamとニュートン法-, omiita #Article #RecommenderSystems #Pocket Issue Date: 2021-07-02 Continuously Improving Recommender Systems for Competitive Advantage Using NVIDIA Merlin and MLOps, Nvidia, 2021.01 CommentRecommender System運用のためのアーキテクチャに関する情報 #Article #Tools #Library Issue Date: 2021-06-29 optuna_tips #Article #BeamSearch #Blog Issue Date: 2021-06-24 beam search解説 _ コード付き, jonki, 2020.05 Commentビームサーチについて、コード付きで説明してくれており、大変わかりやすい。
heapqを使って実装している。また、ビームサーチをbatchに対して行う方法についても書いてある(ただ、一部に対してしかbatchでの処理は適用できていない)。
自分もバッチに対して効率的にビームサーチするにはどのように実装すれば良いのかよくわからないので、誰か教えて欲しい。 #Article #Tools #NLP #Library #python #Slide Issue Date: 2021-06-11 最先端自然言語処理ライブラリの最適な選択と有用な利用方法 _ pycon-jp-2020 Comment各形態素解析ライブラリの特徴や比較がされていて、自分の用途・目的に合わせてどの形態素解析器が良いか意思決定する際に有用

#Article #Pocket #ReinforcementLearning #Blog #Off-Policy Issue Date: 2021-06-07 ゼロから始めてオフライン強化学習とConservative Q-Learningを理解する, aiueola, 2021.05 #Article #NeuralNetwork #Tools #Library #python Issue Date: 2021-06-06 TRTorch Commentpytorchの推論を高速化できるライブラリ。6倍ほど早くなった模様。TorchScriptを介して変換するので、PythonだけでなくC++でも動作できるらしい。 #Article #Tools #Library #python Issue Date: 2021-06-05 pytorch tips Comment【PyTorchでたまに使うけどググって情報探すのに時間かかるやつ】
https://trap.jp/post/1122/
・scatter_add, einsum, Bilinear あたりが説明されている【NLLossの細かい挙動】
https://tatsukawa.hatenablog.com/entry/2020/04/06/054700【PyTorchで絶対nanを出したいマン】
https://qiita.com/syoamakase/items/40a716f93dc8afa8fd12
PyTorchでnanが出てしまう原因とその対策が色々書いてある【pipで様々なCuda versionのpytorchをinstallする方法】
https://stackoverflow.com/questions/65980206/cuda-10-2-not-recognised-on-pip-installed-pytorch-1-7-1 #Article Issue Date: 2021-06-03 ResNetからSkip Connectionを取り除く研究についてのサーベイ, 徳永拓之, LeapMind株式会社 CommentSkip Connectionは
・推論時のメモリ消費量が増える
・推論時に計算量の割に実際の計算が重たくなりがち(特にDNN専用アクセラレーターにおいてその傾向がありがち)
というデメリットがあり、SkipConnection無しで性能を出したいことから、様々な研究が行われている模様。ResNetを学習し、それを教師としてPlainCNNを学習するResidual Distillationが決定版らしい(普通のDistillationでは最終層の類似度のみを用いるが、生徒ネットワークの中間層の出力を教師ネットワークに入れてからbackpropして勾配を得る)。
50層のPlainCNNで、ResNet50とほぼ同等のtop-1 accuracyを達成。
メモリ消費量は20%弱削減され、実行速度は20〜30%程度高速になる。 #Article #Pocket #EducationalDataMining #LearningAnalytics #StudentPerformancePrediction #KnowledgeTracing Issue Date: 2021-05-30 The Knowledge-Learning-Instruction Framework: Bridging the Science-Practice Chasm to Enhance Robust Student Learning, Pelanek, User Modeling and User-Adapted Interaction, 2017 CommentLearner Modelingに関するチュートリアル。Learner Modelingの典型的なコンテキストや、KCにどのような種類があるか(KLI Frameworkに基づいた場合)、learner modeling techniques (BKTやPFA等)のチュートリアルなどが記載されている。





knowledgeをmodelingする際に利用されるデータの典型的な構造

donain modelingの典型的なアプローチ

モデルのaspectと、model purposes, learning processesのrelevanceを図示したもの。色が濃いほうが重要度が高い

Learner ModelingのMetrics

cross validation方法の適用方法(同じ学習者内と、異なる学習者間での違い。学習者内での予測性能を見たいのか、学習者間での汎化性能を見たいのかで変わるはず)

BKT、PFAや、それらを用いるContext(どのモデルをどのように自分のcontextに合わせて選択するか)、KLI Frameworkに基づくKCの構成のされ方、モデル評価方法等を理解したい場合、読んだほうが良さそう?
ざっとしか見ていないけど、重要な情報がめちゃめちゃ書いてありそう。後でしっかり読む・・・。 #Article #NeuralNetwork #ComputerVision #EfficiencyImprovement #Blog #ImageClassification Issue Date: 2021-05-24 EfficientNet解説, omiita (オミータ), 2019 Comment既存画像認識モデルの構造は変化させず、広さ、深さ、解像度を複合スケーリングすることで、従来よりも少ないパラメータ数、かつ学習速度でSoTAを達成。広さ、深さ、解像度はそれぞれ性能に互いに影響しあっており、従来のように別々にスケーリングするのではなく、3つのバランスをとりながらスケーリングする。スケーリングする際は、結果的にはそれぞれをある値で定数倍すれば良く、そのある値は最大メモリや最大FLOPS数以下(およびFLOPSが2のΦ乗で増加するような)といった制約下でAccuracyが最大化される値をグリッドサーチで見つける(らしい。ざっくりとした理解)。
転移学習しても多くのタスクでSoTA達成した。 #Article #NLP #Dataset #Evaluation #Blog Issue Date: 2021-05-19 GLUE - 英語圏における自然言語処理の標準ベンチマーク, npaka, 2020 Comment各タスクごとにサンプルとその説明が付与されており、ぱっと見でどんなタスクかすぐ分かる #Article #RecommenderSystems #Tools #Dataset #Slide Issue Date: 2020-08-29 Off Policy Evaluation の基礎とOpen Bandit Dataset & Pipelineの紹介, Yuta Saito, 2020 Comment機械学習による予測精度ではなく、機械学習モデルによって生じる意思決定を、過去の蓄積されたデータから評価する(Off policy Evaluation)の、tutorialおよび実装、データセットについて紹介。
このような観点は実務上あるし、見落としがちだと思うので、とても興味深い。 #Article #RecommenderSystems #CollaborativeFiltering #ContrastiveLearning #Blog Issue Date: 2020-07-30 Collaborative Metric Learningまとめ, guglilac, 2020 Commentuserのembeddingに対し、このuserと共起した(購入やクリックされた)itemを近くに、共起していないitemを遠くに埋め込むような学習方法 #Article #MachineLearning #Slide #kNN Issue Date: 2020-07-30 近似最近傍探索の最前線, Yusuke Matsui, 2019 Commentk-NNベースドなRecommender Systemを構築したけど、Inferenceに時間がかかって、先方のレスポンスタイムの要求が満たせない...というときに役に立ちそう。yahooのNGTといった実装も転がっている(Apache-2.0 License):
https://techblog.yahoo.co.jp/data_solution/ngtpython/ScaNNという手法もあるらしい(SoTA)
https://ai-scholar.tech/articles/vector-search/scann #Article #MachineLearning #Blog Issue Date: 2020-01-16 Key trends from NeurIPS 2019, Chip Huyen, 2019 #Article #NLP #LanguageModel #Slide Issue Date: 2020-01-13 BERT入門, Ken'ichi Matsui, 2020 Comment自然言語処理の王様「BERT」の論文を徹底解説
https://qiita.com/omiita/items/72998858efc19a368e50Transformer関連 245 あたりを先に読んでからが読むと良い
要は
・Transformerをたくさん積んだモデル
・NSPとMLMで双方向性を持った事前学習タスクを実施することで性能向上
・pooler layer(Transformer Encoderの次にくっつくlayer)を切り替えることで、様々なタスクにfine-tuning可能(i.e. pooler layerは転移学習の対象外)
・予測する際は、[CLS]トークンに対応する位置の出力を用いて分類問題や複数文間の関係性を問う問題を解いたり、各トークン位置に対応する出力を用いてQAの正解spanを予測したり、色々できる
・gMLP 344 あたりの研究が進んでくると使われなくなってくる可能性有こっちの記事もわかりやすい。
BERTについて勉強したことまとめ (2)モデル構造について
https://engineering.mobalab.net/2020/06/12/bert%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6%E5%8B%89%E5%BC%B7%E3%81%97%E3%81%9F%E3%81%93%E3%81%A8%E3%81%BE%E3%81%A8%E3%82%81-2%E3%83%A2%E3%83%87%E3%83%AB%E6%A7%8B%E9%80%A0%E3%81%AB%E3%81%A4%E3%81%84/ #Article #NLP #Slide Issue Date: 2019-11-09 EMNLP 2019 spec tutorial #Article #RecommenderSystems #Explanation #Slide #SIGKDD Issue Date: 2019-08-19 Explainable AI in Industry, KDD19 #Article #NeuralNetwork #GraphBased Issue Date: 2019-05-31 Representation Learning on Graphs: Methods and Applications, Hamilton+, 2017 #Article #Survey #Dataset Issue Date: 2019-02-12 NLP-Progress CommentNLPの様々なタスクのデータセット, およびSOTA(2018年時点)がまとめられている。 #Article #RecommenderSystems #Explanation #Admin'sPick Issue Date: 2019-01-23 Designing and Evaluating Explanations for Recommender Systems, Tintarev+, Recommender Systems Handbook, 2011 CommentRecommender Systems HandbookのChapter。162 のSurveyと同じ著者による執筆。
推薦のExplanationといえばこの人というイメージ。D論:http://navatintarev.com/papers/Nava%20Tintarev_PhD_Thesis_(2010).pdf #Article #NeuralNetwork #Tools #NLP Issue Date: 2018-11-16 AllenNLP Commenthttps://docs.google.com/presentation/d/17NoJY2SnC2UMbVegaRCWA7Oca7UCZ3vHnMqBV4SUayc/preview?slide=id.g43b8d8e880_0_8 #Article #NeuralNetwork #MachineLearning #NLP Issue Date: 2018-06-29 Pytorchによるtransformer実装チュートリアル #Article #NeuralNetwork #MachineLearning #NLP Issue Date: 2018-02-19 ニューラルネット勉強会(LSTM編), Seitaro Shinagawa, 2016 CommentLSTMの基礎から、実装する上でのTipsがまとまっている。
zero padding, dropoutのかけかた、normalizationの手法など。 #Article #MachineLearning Issue Date: 2018-02-12 Curriculum Learning Comment牛久先生によるCurriculum Learningチュートリアル #Article #MachineTranslation #NLP #Alignment #Slide Issue Date: 2018-01-15 ALAGIN 機械翻訳セミナー 単語アライメント, Graham Neubig CommentNeubigさんによる単語アライメントチュートリアル #Article #NeuralNetwork #NLP #Slide #Admin'sPick Issue Date: 2018-01-15 自然言語処理のためのDeep Learning, Yuta Kikuchi #Article #InformationRetrieval #LearningToRank Issue Date: 2018-01-01 From RankNet to LambdaRank to LambdaMART: An Overview, Burges, Microsoft Research Technical Report, 2010 #Article #InformationRetrieval #LearningToRank #Slide Issue Date: 2018-01-01 Confidence Weightedでランク学習を実装してみた, 徳永拓之, 第4回 自然言語処理勉強会@東京 #Article #InformationRetrieval #LearningToRank #Slide Issue Date: 2018-01-01 ランキング学習ことはじめ, DSIRNLP#1, 2011 #Article #MachineLearning #OnlineLearning Issue Date: 2017-12-31 オンライン学習 Comment目次
定式化
評価法:Regretなど
パーセプトロン
Passive Aggressive Algorithm
(アルゴリズムと損失の限界の評価)
Confidence Weighted Algorithm
Pegasos
Coordinate Descent
バッチ、オンライン、ストリームの比較
ビッグデータへの対応 #Article #NeuralNetwork #EfficiencyImprovement Issue Date: 2017-12-31 Efficient Methods and Hardware for Deep Learning, Han, Stanford University, 2017 #Article #UserModeling Issue Date: 2017-12-28 Machine Learning for User Modeling, User modeling and User-adapted Interaction, [Webb+, 2001], 2001.03 Comment




