Tutorial


Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #AIAgents #ContextEngineering Issue Date: 2025-11-05 GPT Summary- 本論文では、カール・マルクスの「人間の本質は社会関係の総体である」という考えを基に、機械と人間の相互作用における文脈の重要性を探求します。特に「コンテキストエンジニアリング」という概念を導入し、その歴史的背景や設計考慮事項を体系的に定義します。これにより、AIシステムにおけるコンテキストエンジニアリングの基盤を提供し、将来の可能性を示唆します。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#ComputerVision #Pocket #DiffusionModel Issue Date: 2025-10-29 GPT Summary- このモノグラフでは、拡散モデルの核心原則とその多様な定式化の起源を探ります。拡散モデリングは、データをノイズに腐敗させる前方プロセスから始まり、逆プロセスを学習してノイズをデータに戻すことを目的としています。三つの視点(変分的、スコアベース、フローベース)を通じて、ノイズ除去やデータ生成の方法を説明し、共通の基盤として時間依存の速度場を提案します。さらに、制御可能な生成や効率的な数値ソルバーについても議論し、深層学習の知識を持つ読者に拡散モデルの理解を提供します。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #AIAgents #SoftwareEngineering Issue Date: 2025-10-26 GPT Summary- 本論文では、LLMsを基にしたエージェントのアーキテクチャと実装をレビューし、複雑なタスクの自動化を目指す。主要な構成要素には、知覚システム、推論システム、記憶システム、実行システムが含まれ、これらを統合することで人間の認知プロセスを模倣する高性能なソフトウェアボットの実現を示す。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#MachineLearning #Pocket #NLP #LanguageModel #PostTraining Issue Date: 2025-10-17 GPT Summary- 本報告書では、大規模言語モデル(LLMs)のファインチューニングに関する理論と実践を統合的に検討し、歴史的な進化やファインチューニング手法の比較を行っています。7段階の構造化されたパイプラインを紹介し、不均衡データセットの管理やパラメータ効率の良い手法(LoRA、Half Fine-Tuning)に重点を置いています。また、PPOやDPOなどの新しいアプローチや、検証フレームワーク、デプロイ後のモニタリングについても議論し、マルチモーダルLLMsやプライバシー、説明責任に関する課題にも触れています。研究者や実務者に実用的な洞察を提供する内容です。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#MachineLearning #Pocket #ReinforcementLearning Issue Date: 2024-12-10 GPT Summary- この原稿は、深層強化学習と逐次的意思決定に関する最新の全体像を提供し、価値ベースのRL、ポリシー勾配法、モデルベース手法、RLとLLMsの統合について簡潔に議論しています。 Comment

あのMurphy本で有名なMurphy氏の強化学習の教科書…だと…




Paper/Blog Link My Issue
#ComputerVision #Pocket #DiffusionModel Issue Date: 2024-11-17 GPT Summary- 生成ツールの成長により、テキストから画像や動画を生成する新しいアプリケーションが可能に。拡散モデルの原理がこれらの生成ツールの基盤であり、従来のアプローチの欠点を克服。チュートリアルでは、拡散モデルの基本的なアイデアを学部生や大学院生向けに解説。 Comment

いつか読まなければならない




Paper/Blog Link My Issue
#RecommenderSystems #LanguageModel #GenerativeAI #DiffusionModel Issue Date: 2024-09-24 GPT Summary- 生成モデルは新しいデータを生成するAIモデルであり、GANやVAE、トランスフォーマーに基づくアーキテクチャが注目されている。特にレコメンダーシステムにおいては、Gen-RecSysが推薦の精度と多様性を向上させ、パーソナライズされたユーザー体験を提供する。本書では、深層生成モデルをID駆動モデル、LLM、マルチモーダルモデルの3つに分類し、それぞれの技術的進展を紹介。生成モデルの影響やリスクについても考察し、評価フレームワークの重要性を強調する。 Comment

生成モデルやGenerativeAIによるRecSysの教科書
image




Paper/Blog Link My Issue
#Pocket #LanguageModel Issue Date: 2023-04-27 GPT Summary- 本記事は、自然言語処理(NLP)タスクにおける大規模言語モデル(LLMs)の実践的なガイドを提供し、モデルやデータ、タスクに関する洞察を示します。LLMsの概要、データの影響、知識集約型タスクや生成タスクにおける使用ケースと非使用ケースを詳述し、実用的な応用と限界を探ります。また、虚偽のバイアスや展開時の考慮事項についても言及し、研究者や実務者に役立つベストプラクティスを提供します。関連リソースは定期的に更新され、オンラインでアクセス可能です。 Comment

LLMに関するチュートリアル



image

encoder-onlyとまとめられているものの中には、デコーダーがあるものがあり(autoregressive decoderではない)、
encoder-decoderは正しい意味としてはencoder with autoregressive decoderであり、
decoder-onlyは正しい意味としてはautoregressive encoder-decoder
とのこと。

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Chain-of-Thought Issue Date: 2023-11-21 GPT Summary- 大規模言語モデル(LLMs)は、言語知能の分野で劇的な進歩を遂げており、複雑な推論タスクにおいて高いパフォーマンスを示しています。特に、chain-of-thought(CoT)推論技術を活用することで、中間ステップを形成し、解釈可能性や制御可能性を向上させることができます。この論文では、CoT技術の基本的なメカニズムやその効果について詳しく解説し、言語エージェントの開発における応用例を紹介しています。将来の研究の展望にも触れており、初心者から経験豊富な研究者まで幅広い読者に対応しています。関連論文のリポジトリも提供されています。 Comment

CoTに関するチュートリアル論文




Paper/Blog Link My Issue
#Survey #NLP #LanguageModel Issue Date: 2023-07-22 GPT Summary- 本論文では、大規模言語モデル(LLMs)の普及により、研究者が分野の現状を理解し、生産的になるための問題と応用成功例を確立することを目指しています。 Comment

LLMのここ数年の進化早すぎわろたでキャッチアップむずいので、未解決の課題や、すでに良い感じのアプリケーションの分野分かりづらいので、まとめました論文




Paper/Blog Link My Issue
#RecommenderSystems #Infrastructure #python #Slide Issue Date: 2021-10-21 Comment

・ママ向けのQ&AサービスにおけるレコメンドとMLパイプラインについて紹介



◆レコメンドエンジンの変遷

 ・Tensorflowで実装したMFから始まり、その後トピックを絞り込んだ上で推薦するためにLDAを活用したレコメンド、最終的にSoftmax Recommendationを開発

  * Softmax Recommendation: https://developers.google.com/machine-learning/recommendation/dnn/softmax

  * ユーザプロファイル(e.g. 行動ベクトル, ユーザの属性情報)等を入力とし、hidden layerをかませて最終的にアイテム次元数分のスコアベクトルを得る手法

  * 行動ベクトル=ユーザが過去にクリックしたQ&Aだが、質問ベクトルを得るために内容テキストは利用せず行動ログ+word2vecで学習

  * 類似質問検索による定性評価の結果良い結果、関連質問を抽出できるベクトルとなっていることを確認

 → レコメンド手法の変遷につれ、ベンチマークを上回るようになっていった

◆MLパイプラインについて

 ・AWS Step FunctionsとAmazon Sagemakerを利用

 ・AWS Step Functions

  * AWS上の様々なサービスをワークフローとして定義できる(json形式でワークフローを記述)

 ・Amazon Sagemaker

  * 機械学習向けのIDE

  * notebook上でのデータ分析・モデル学習、実験管理や学習済みモデルのデプロイが可能

  * Sagemaker Processingを用いることで、実行したい処理やインスタンスタイプを指定することで、notebookとは別の実行環境(コンテナ)で任意のpythonスクリプトを実行可

  

image



 ・ワークフローの定義=AWS Stepfunctions, スクリプト実行のリソース=Sagemaker Processingとして利用



MLパイプラインについては下記資料により詳しい情報が書かれている

https://speakerdeck.com/takapy/sagemaker-studiotostep-functionswoyong-itemlopshefalse-bu-wota-michu-sou




Paper/Blog Link My Issue
#DocumentSummarization #NLP #Dataset #TACL Issue Date: 2021-10-20 Comment

◆Aspect-based summarizationのモチベーション

・same source対して、異なるユーザニーズが存在するので、ニーズに関して要約したい



◆Aspect: あるobjectに対する、attributeのようなものを指定?

 object: Attention Is All You Need

 aspect: Multi-Head Attention



◆Aspect Based Summarizationの歴史

・はじめは”feature”という文言で研究され(04年頃?)

・続いて*keywords*という単語で研究され

・その後Aspectという文言で研究されるようになった

・2008年頃にMcDonaldsらがAspect-Based Summarizationを提案した

・2014年以後?とかにNeural Basedな手法が盛んに研究



◆WikiAspデータセットについて

・Wikipediaを使ったAspect-based dataset

・Wikipediaを書かれるのに利用されたsource document(wikipediaにソースとして引用されているもの)に対し、aspectを各節の見出しとみなし、節のテキストを要約文とみなすことで、データセット生成

・他のAspect-basedデータセットと異なり、ソースデータが長く、要約長も5~6倍程度

・ドメイン数が他データセットは5,6程度に対し、20と膨大



◆ベースラインとして2-stageモデルを採用

first-stage: ソーステキストからROBERTaベースドなclassifierを用いて、sentencesから内包するAspectを閾値を用いて決定

     それらをgrouped sentencesとする

two-stage: 各aspectごとにまとまったテキスト集合に対して、要約モデルを適用し、要約を実施する

・要約モデルはUnsupervisedな手法であるTextRankと、Supervisedな手法であるBERTベースな手法を採用

・ドメインごとに評価した結果を見ると、BERTが強いドメインがある一方で、TextRankが強いドメインもあった

 -> Extractiveな形で要約されているドメインではTextRankが強く、Abstractiveに要約されているドメインではBERTが強い

 -> またBERTは比較的短い要約であればTextRankよりもはるかに良いが、長い要約文になるとTextRankとcomprable(あるいはTextRankの方が良い)程度の性能になる

・ROUGE-2の値がsentence-basedなORACLEを見た時に、他データセットと比較して低いので、Abstractiveな手法が必要なデータセット?



(後からのメモなので少しうろ覚えな部分あり)

Q. ROUGE-2が30とかって直観的にどのくらいのレベルのものなの?ROUGE-2が30とか40とかは高い

・最先端の要約モデルをニュース記事に適用すると、35~40くらいになる。

・このレベルの数値になると、人間が呼んでも違和感がないレベルの要約となっている

Q. 実際に要約文をチェックしてみて、どういう課題を感じるか?

A. Factual Consistencyがすぐに目につく問題で、特にBERTベースな要約文はそう。TextRankはソース文書がノイジーなので、ソース文章を適当に拾ってきただけではFactual Consistencyが良くない(元の文書がかっちりしていない)。流暢性の問題はAbstractiveモデルだと特に問題なくBERT-baseでできる。Aspect-based要約のエラー例としてAspectに則っていないということがある。たとえばオバマの大統領時代の話をきいているのに、幼少時代の話をしているとか。Aspect情報をうまくモデルを扱えていないという点が課題としてある。

出典元(リアルタイムに聴講): 第13回 WikiAsp: A Dataset for Multi-domain Aspect-based Summarization, NLPコロキウム
https://youtu.be/3PIJotX6i_w?si=hX5pXwNL-ovkGSF5




Paper/Blog Link My Issue
#NeuralNetwork #GraphBased #Pocket Issue Date: 2019-05-31 GPT Summary- グラフ上の機械学習は多様な応用があり、主な課題はグラフ構造の表現方法を見つけることです。従来はユーザー定義のヒューリスティックに依存していましたが、最近では深層学習や非線形次元削減を用いた自動学習アプローチが増加しています。本稿では、行列分解、ランダムウォーク、グラフニューラルネットワークに基づく表現学習の進展をレビューし、ノードとグラフの埋め込み方法を統一的なフレームワークで説明し、応用と今後の研究方向を示します。

Paper/Blog Link My Issue
#MachineLearning #Pocket #MultitaskLearning Issue Date: 2018-02-05 GPT Summary- マルチタスク学習(MTL)の深層ニューラルネットワークにおける概要を提供し、一般的な手法や文献を紹介。MTLの機能を明らかにし、補助タスク選択のガイドラインを示すことで、実務者のMTL適用を支援することを目指す。

Paper/Blog Link My Issue
#NeuralNetwork #ComputerVision #Pocket #GenerativeAdversarialNetwork Issue Date: 2017-12-28 GPT Summary- GANは、注釈なしのデータで深い表現を学習する手法で、競争プロセスを通じて逆伝播信号を導出します。画像合成やスタイル転送など多様な応用が可能です。本レビューは、信号処理コミュニティ向けにGANの概要を提供し、トレーニング方法や残された課題についても言及します。

Paper/Blog Link My Issue
#NeuralNetwork #MachineLearning #Pocket #NLP #Optimizer Issue Date: 2025-08-02 GPT Summary- 勾配降下法の最適化アルゴリズムの挙動を理解し、活用するための直感を提供することを目的とした記事。さまざまなバリエーションや課題を要約し、一般的な最適化アルゴリズム、並列・分散設定のアーキテクチャ、追加戦略をレビュー。 Comment

元ポスト:

Loading…

勉強用にメモ




Paper/Blog Link My Issue
#NeuralNetwork #MachineLearning #Pocket #Optimizer Issue Date: 2018-02-05 GPT Summary- 勾配降下最適化アルゴリズムの理解を深めるため、さまざまなバリエーションや課題を要約し、一般的なアルゴリズムを紹介。並列・分散設定のアーキテクチャや最適化戦略も検討。

Paper/Blog Link My Issue
#NeuralNetwork #SentimentAnalysis #NLP #Slide #EMNLP Issue Date: 2018-01-01 GPT Summary- 感情分析におけるニューラルネットワークモデルの紹介を行うチュートリアル。単語埋め込み、シーケンスモデル、ツリー構造モデルの数学的側面と利用方法を議論し、感情指向の埋め込みや文・文書レベルの感情分析に焦点を当てる。内容は3つのセクションに分かれ、基本概念から具体的なモデル(CNN、RNN、LSTMなど)までをカバーする。

Paper/Blog Link My Issue
#Article #MachineLearning #NLP #LanguageModel #Blog #Selected Papers/Blogs #Reproducibility #ResidualStream Issue Date: 2026-01-19 Comment

元ポスト:

Loading…

関連:
- [Paper Note] mHC: Manifold-Constrained Hyper-Connections, Zhenda Xie+, arXiv'25, 2025.12
- [Paper Note] Hyper-Connections, Defa Zhu+, ICLR'25, 2024.09

part1: https://taylorkolasinski.com/notes/mhc-reproduction/

HC, mHCの説明が美しい図解と数式で説明されている。分かりやすい!

HCの課題とmHCがどのように解決したかを数式的、直感的に理解でき非常に有用




Paper/Blog Link My Issue
#Article #NLP #LanguageModel Issue Date: 2025-12-22 Comment

元ポスト:

Loading…

LLMの基礎を勉強してもらう時に用語説明、コード、数式だけでなく、分かりやすい図解やmatrixの具体例まで含めて解説されているので非常に良さそう。




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Evaluation #Slide #One-Line Notes Issue Date: 2025-11-02 Comment

元ポスト:

Loading…

LLMの評価は些細な評価設定の違いで大きな変動が生じるだけでなく、事後学習済みモデルやreasoningモデルが主流になってきた現在では評価方法もアップデートが必要という話。たとえばreasoningモデルはfew-shotで評価すると性能が低下することが知られているなど。




Paper/Blog Link My Issue
#Article #NLP #Transformer #Blog #One-Line Notes Issue Date: 2025-10-30 Comment

元ポスト:

Loading…

ざっと見た感じtransformerの基本的な内容の丁寧な解説に見える。literature(RNNや、LSTM、seq2seqなど)、self/cross-attention,LayerNorm, ResidualConnection, PositionalEncodingといった話の基礎が図解付きで説明されている。




Paper/Blog Link My Issue
#Article #AIAgents #Blog Issue Date: 2025-10-27 Comment

元ポスト:

Loading…

langchain, langgraphを用いたReActエージェントの実装方法のチュートリアルと、さまざまなフレームワークで記述されたエージェントの差分を吸収して統一されたプラットフォーム上でエージェントを実装できる(framework-agnosticな)NeMo Agent Toolkitによる実装

ReAct:
- REACT : SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS, Yao+, Princeton University and Google brain, ICLR'23




Paper/Blog Link My Issue
#Article #MachineLearning #ReinforcementLearning #One-Line Notes #ReplayBuffer Issue Date: 2025-10-04 Comment

Policy Gradientに基づいたアルゴリズムは(たとえばREINFORCE系)、現在のポリシーに基づいて期待値を最大化していくことが前提になるため、基本的にはリプレイバッファが使えないが(過去の経験が影響すると現在の戦略の良さがわからなくなる)、工夫をすると使えるようになるよ、といった話の解説




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #SoftwareEngineering #read-later #Selected Papers/Blogs #ContextEngineering #One-Line Notes Issue Date: 2025-10-04 Comment

元ポスト:

Loading…

AnthropicによるContextEngineeringに関するブログ。
ざーっとみた感じ基礎的な定義からなぜ重要なのか、retrievalの活用、longnhorizon taskでの活用、compaction(summarization)など、幅広いトピックが網羅されているように見える。

最新サーベイはこちら
- [Paper Note] A Survey of Context Engineering for Large Language Models, Lingrui Mei+, arXiv'25

所見:

Loading…



Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #One-Line Notes Issue Date: 2025-09-29 Comment

元ポスト:

Loading…

reasoningモデルに関するpyTorchによるフルスクラッチでの実装と丁寧な解説つきのNotebookが公開されており内部の基礎的な挙動を理解するためにとても良さそう。




Paper/Blog Link My Issue
#Article Issue Date: 2025-09-08 Comment

元ポスト:

Loading…

とても良い統計学の教科書らしい。勉強したい




Paper/Blog Link My Issue
#Article #Metrics #NLP #LanguageModel #LLMServing #MoE(Mixture-of-Experts) #SoftwareEngineering #Selected Papers/Blogs #Parallelism #Inference #Batch Issue Date: 2025-07-21 Comment

```
メモリ (GB) = P × (Q ÷ 8) × (1 + オーバーヘッド)

- P:パラメータ数(単位は10億)
- Q:ビット精度(例:16、32)、8で割ることでビットをバイトに変換
- オーバーヘッド(%):推論中の追加メモリまたは一時的な使用量(例:KVキャッシュ、アクティベーションバッファ、オプティマイザの状態)
```

↑これ、忘れがちなのでメモ…

関連(量子化関連研究):
- [Paper Note] AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration, Ji Lin+, MLSys'24
- SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models, Guangxuan Xiao+, ICML'23
- GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers, Elias Frantar+, N/A, ICLR'23

すごいメモだ…勉強になります




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #LongSequence #SmallModel #MultiLingual #OpenWeight #OpenSource #Selected Papers/Blogs Issue Date: 2025-07-09 Comment

元ポスト:

Loading…

SmolLM3を構築する際の詳細なレシピ(アーキテクチャ、データ、data mixture, 3 stageのpretraining(web, code, mathの割合と品質をステージごとに変え、stable->stable->decayで学習), midtraining(long context->reasoning, post training(sft->rl), ハイブリッドreasoningモデルの作り方、評価など)が説明されている

学習/評価スクリプトなどがリリース:

Loading…



Paper/Blog Link My Issue
#Article #Pretraining #NLP #Dataset #LanguageModel #Evaluation #Blog #OpenWeight #Japanese #PostTraining Issue Date: 2025-06-25 Comment

関連
- [Paper Note] Instruction Pre-Training: Language Models are Supervised Multitask Learners, Daixuan Cheng+, EMNLP'24
- [Paper Note] Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data, Fahim Tajwar+, ICML'24
- [Paper Note] AnswerCarefully: A Dataset for Improving the Safety of Japanese LLM Output, Hisami Suzuki+, arXiv'25




Paper/Blog Link My Issue
#Article #ReinforcementLearning #Blog #Off-Policy #On-Policy Issue Date: 2025-06-19 Comment

元ポスト:

Loading…

on-policy RLでは、現在の状態からポリシーに従ってアクションを選択して、実際に選択したアクションのrewardとQ値をシグナルにしてポリシーを更新するけど、off-policy RLでは、未来において現在の(Q関数で)Q値が最大となるアクションを選択した場合に得られる価値はどんなもん?というQ関数の学習が甘い状態だととあるアクションを過大評価してしまう(=バイアス)ようなシグナルに基づいて更新されるから、系列が長くなるとバイアスが蓄積して適切なQ関数が学習できなくなってdepth方向にスケールしづらいんだよ、という話っぽい?




Paper/Blog Link My Issue
#Article #Slide #ACL Issue Date: 2025-05-11 Comment

業界のトレンドを把握するのに非常に参考になる:
- Reasoning, KnowledgeGraph, KnowledgeEditing, Distillation
- PEFT, Bias, Fairness, Ethics
- Multimodal(QA, Benchmarking, Summarization)
などなど。

投稿数5000件は多いなあ…




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Attention #Blog Issue Date: 2024-12-28 Comment

DeepSeekで使われているMulti Head Latent Attention(MLA)ってなんだ?と思い読んだ。端的に言うと、GQAやMQAは、KVのヘッドをそもそも減らしてKV Cacheを抑えよう、という手法だったが、MLAはKVを低ランクなベクトルに圧縮して保持し、使う時に復元するといった操作をすることで、MHAのパフォーマンスを落とすことなく(むしろ上がるらしい?)、利用するKV Cacheで利用するメモリを大幅に減らせるという手法らしい。

- GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints, Joshua Ainslie+, N/A, arXiv'23

MQA, GQAの概要については上記参照のこと。




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #Chain-of-Thought #Reasoning #Mathematics #PostTraining Issue Date: 2024-12-27 Comment

- Training Verifiers to Solve Math Word Problems, Karl Cobbe+, arXiv'21

において、数学においてモデルのパラメータ数のスケーリングによって性能改善が見込める学習手法として、モデルとは別にVerifierを学習し、モデルが出力した候補の中から良いものを選択できるようにする、という話の気持ちが最初よくわからなかったのだが、後半のなぜsample&selectがうまくいくのか?節を読んでなんとなく気持ちが理解できた。SFTを進めるとモデルが出力する解放の多様性が減っていくというのは、興味深かった。

しかし、特定の学習データで学習した時に、全く異なるUnseenなデータに対しても解法は減っていくのだろうか?という点が気になった。あとは、学習データの多様性をめちゃめちゃ増やしたらどうなるのか?というのも気になる。特定のデータセットを完全に攻略できるような解法を出力しやすくなると、他のデータセットの性能が悪くなる可能性がある気がしており、そうするとそもそもの1shotの性能自体も改善していかなくなりそうだが、その辺はどういう設定で実験されているのだろうか。

たとえば、
- Beyond Full Fine-tuning: Harnessing the Power of LoRA for Multi-Task Instruction Tuning, Xin+, LREC-COLING'24

などでは、

- Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks, Yizhong Wang+, N/A, EMNLP'22

のような1600を超えるようなNLPタスクのデータでLoRAによりSFTすると、LoRAのパラメータ数を非常に大きくするとUnseenタスクに対する性能がfull-parameter tuningするよりも向上することが示されている。この例は数学に特化した例ではないが、SFTによって解法の多様性が減ることによって学習データに過剰適合して汎化性能が低下する、というのであれば、この論文のことを鑑みると「学習データにoverfittingした結果他のデータセットで性能が低下してしまう程度の多様性の学習データしか使えていないのでは」と感じてしまうのだが、その辺はどうなんだろうか。元論文を読んで確認したい。
とても勉強になった。

記事中で紹介されている
> LLMを使って複数解法の候補をサンプリングし、その中から最適な1つを選択する

のルーツは Training Verifiers to Solve Math Word Problems, Karl Cobbe+, arXiv'21 とのことなので是非読みたい。

この辺はSelf-Consistency [Paper Note] Self-Consistency Improves Chain of Thought Reasoning in Language Models, Xuezhi Wang+, ICLR'23, 2022.03 あたりが最初なのかと思っていた。




Paper/Blog Link My Issue
#Article Issue Date: 2024-11-27 Comment

様々な企業のエンジニアの新卒研修の資料などがまとまっている。学術機関の講義なども含まれている。現在も更新されている模様。
量がすごい。




Paper/Blog Link My Issue
#Article #Video #VCS #git Issue Date: 2024-11-04 Comment

VCSの歴史から原理、実用的な使い方まで、Gitについて体系的にまとまっている。普段何気なく使っているが、改めて勉強すると、なるほど、と思うことが多い。

- VCSの歴史、モチベーション(複数並列するバージョンを適切に管理したい)
- ワークツリー、インデックス、リポジトリ(HEAD)の違い
- 基本的なgitコマンドから、普段あまり使わないハンク(hunk)の選択的なaddなどのコマンド
- コミットオブジェクト(ワークツリーのスナップショットを保持したもの≠前回のコミットに対する差分)
- HEAD/Detached HEADの原理
- Gitタグ
- checkoutの原理(ワークツリーとインデックスをHEADの内容に更新する)
- ブランチ、ブランチとHEADの関係性
- マージ方式(2way マージ、3wayマージ)
 - 2wayマージは元ファイルを参照しないのでマージ時に特定の編集がなかったことになってしまう)
 - 3wayマージは元ファイルも見て差分を計算するのでこのようなことが起こらない
- 競合の原理、競合解決時のファイル内容
 - Fast-Forwardマージ(ポインタを動かすだけで事足りる場合に利用)
- cherry pick(任意のコミットをとってくる)
 - (cherry pickを連続して利用する)リベース(ベースを付け替える操作)
 - 歴史を修正する
  - git reflogで起点とするコミットIDを見つけ、git rebase -iでコミット順変更orメッセージ変更、git commit --amendでコミット修正
- 状態のリセット
 - soft: HEADを指定したコミットにリセット
 - mixed: インデックスをリセット
 - hard: インデックスとワークツリーをリセット
- git stash
- コミット粒度とメッセージ
 - 単一の関心事項のみを含むような粒度でコミットしよう(一言で説明できる粒度)
  - cherry pickが容易になる
  - 別ブランチの脆弱性への対応のみを適用したい、など
  - 現在形で書く。そうすると、後からcherry pickするときに内容の判断をしやすい。
 

神講義




Paper/Blog Link My Issue
#Article #LanguageModel #Slide Issue Date: 2024-09-01 Comment

LLMの原理の基礎的な内容について、丁寧かつコンパクトにまとまっている。



>ファインチューニングは新しい知識の学習ではなく知識の使い方を学習させるのに向いている



これをきちんと念頭に置いておかないと落とし穴にハマると思う。引用元の論文読みたい(Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?, Zorik Gekhman+, N/A, EMNLP'24 )。




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #OpenWeight #Slide Issue Date: 2024-08-26 Comment

Llama3の事前学習や事後学習のノウハウが詰まっており(安全性なども含む)、LLM学習に必要な要素が図解されており、非常に分かりやすい。



たとえば下記図(スライド中より引用)などは、LLMの学習過程を説明する際にわかりやすそう

image

LLMの事前・事後学習あたりは独自ノウハウが多すぎてもはや追従困難




Paper/Blog Link My Issue
#Article #Pretraining #NLP #LanguageModel #Blog Issue Date: 2024-07-08 Comment

LLMの事前学習における知見がまとまっている記事とのこと

・Megatron LMで学習
 → 3D Parallelismなどの分散学習手法によりHF Trainerより高速
 → Data Parallelim、Tensor Parallelism、 Pipeline Parallelismを組み合わせたもの
・GPUメンテナンス、不良で学習が継続できなかった場合はcheckpointをロードして学習
・学習曲線が安定しているように見えるがSpikeは発生している。発生時はgradient normが急激に上昇する
・LlamaなどのLLMからの継続的事前学習ではなくfrom scratchから学習しているので透明性が高い
・Transformer engineを利用
・AdamWを利用
・attention dropout, hidden dropoutは0.0

>この際、 通信を多く必要とする分散手法のワーカー(Tensor Parallelワーカー)はノード内に配置するようにMegatron-LMのデフォルトではなっているため、今回もそれを利用しました。このようにする理由は、ノード内の通信はNVLinkにより、ノード間通信よりも高速であるためです。また、Data Parallelの勾配平均化のための通信を考慮して、Data Parallelワーカーも可能な限りノード内に配置するMegatron-LMデフォルトの挙動を利用しました。
Pipeline Parallelismは他の並列化手法と比較して通信量が少ないP2P(Point-to-Point)通信であるため、パイプラインステージはノード間で配置するようにしました。これも、Megatron-LMデフォルトの挙動です。

勉強になる

・通常のデータ並列はoptimizer stateをworker間で複製するので遅い。Deep Speed Zero 1のように分散して保有することで高速化
・Tensor Parallelでself attention, MLPの計算を並列化できる
・LayerNormalization, Dropoutの演算もメモリ効率の観点から並列化
・学習を安定させるためにz-lossを利用
・batch skippingとは、gradient clippingを行っていてもなおspikeが生じる場合に、100 step前に戻り、spikeが生じた付近のデータを数百iteration程度スキップすること




Paper/Blog Link My Issue
#Article #RecommenderSystems #Blog Issue Date: 2024-04-26 Comment

WantedlyさんのRecSys勉強会の資料がまとまったリポジトリ。継続的に更新されており、最近この辺のトピックは追いきれていないので非常に有用。




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #GenerativeAI #Repository #OpenSource Issue Date: 2024-04-14 Comment

HuggingFaceによる様々な実用的なアプリケーションをオープンソースの実装やモデルで実現するノートブックがまとまったリポジトリ。LLM-as-a-judge, RAG, PEFTによるPrompt Tuning(Prefix Tuningとかそっち系の話だと思われる)など、現在16種類ほどあるらしい。

改めて見たら数がかなり増えていた




Paper/Blog Link My Issue
#Article #Dataset #LanguageModel #Evaluation Issue Date: 2023-11-16 Comment

JGLUEのexample付きの詳細、構築の経緯のみならず、最近の英語・日本語LLMの代表的な評価データ(方法)がまとまっている(AlpacaEval, MTBenchなど)。また、LLMにおける自動評価の課題(図は資料より引用)が興味深く、LLM評価で生じるバイアスについても記述されている。Name biasなどはなるほどと思った。
image

日本語LLMの今後の評価に向けて、特にGPT4による評価を避け、きちんとアノテーションしたデータを用意しfinetuningした分類器を用いるという視点、参考にしたい。
image




Paper/Blog Link My Issue
#Article #InformationRetrieval #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) Issue Date: 2023-11-06 Comment

(以下スクショはスライドより引用)



次のスクショはRAGにかかわる周辺技術がよくまとまっていると思う。

image



以下ざっくり私の中の認識として

- 計画

- クエリ拡張

- クエリの質が悪い場合検索性能が劣化するため、クエリをより適切に検索ができるように修正(昔はキーワードしか与えられないときに情報を増やすから”拡張”という文言が用いられているが現在はこれに限らないと思う)する技術

- 分解・抽象化

- 複雑なクエリから分解することでマルチホップの質問をサブ質問に分解(今ならLLMを利用すれば比較的簡単にできる)したり、あるいは抽象化したクエリ(Step-back Promptnig [Paper Note] Take a Step Back: Evoking Reasoning via Abstraction in Large Language Models, Huaixiu Steven Zheng+, N/A, ICLR'24 )を活用することで検索を改善する技術

- 検索対象選定

- 検索する対象そのものを選択し、検索対象をフィルタリングする技術

- 資料中ではLLMを用いたフィルタリングやClassifierを用いたフィルタリングが紹介されているが、メタデータで絞り込むなどの単純な方法でも実現可能だと思われる(メタデータで絞り込む、はClassifierでのフィルタリングとリンクするかもしれないが)

- 思考・行動

- REACT : SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS, Yao+, Princeton University and Google brain, ICLR'23 のような自律的にLLMに思考とその結果に基づく行動をイテレーションさせる技術や、クエリを分解して回答へたどり着くために必要な推論を構築し、各推論の回答を検証しながら生成を繰り返す技術が紹介されている

- この辺の技術はクエリが非常に複雑な場合に有効ではあるが、シンプルな場合は必要ないかなという印象がある

- シンプルなユースケースの場合はどちらかというと泥臭い前処理とかが効きそう

- 関連知識取得

- 検索

- 表層検索(TF-IDFベクトル, BM25)などの古典的な手法や、意味検索(Embeddingに基づく手法)が紹介されている

- 例えばlangchainでは表層検索 + 意味検索の両者がサポートされており、簡単にハイブリッドな検索が実現できる

- 知識文生成

- 外部知識として検索された文書を利用するだけでなく、LLM自身が保持する知識を活用するためにLLMが生成した文書の両方を活用するとQAの正答率が向上することが紹介されている

- 文書フィルタ

- 検索でクエリに関連しない文書を取得してしまう応答品質が大幅に低下することが紹介されている

- 個人的にはここが一番重要なパートだと考えている

- また、検索結果を要約する方法も紹介されている

- 再帰・反復計算

- Retrierverから取得した結果に基づいてLLMが応答を生成し、生成した応答とoriginalのquestionの両方を組み合わせて追加でRetrieverから文書を取得し生成する手法などが紹介されている

- リランキング

- 検索結果のリランキングも古くから存在する技術であり、異なる知識を持つRankerによってリランキングさせることで性能が向上する場合がある

- 回答

- 回答抽出・生成

- 回答となる部分のspanを抽出する手法と、spanではなくテキストを生成する手法が紹介されている

- この辺は文書要約におけるExtractive/Abstractive Summarization技術などもかなり応用が効くと思われる

- インデクシング

- 不要文書のフィルタリングや、チャンク分割の戦略、資格情報をテキスト化する方法などが紹介されている



image

image




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Alignment #GenerativeAI #Hallucination #Blog Issue Date: 2023-11-03 Comment

この資料をスタートにReferしている論文などを勉強すると、GenerativeAIのリスク周りに詳しくなれそう。この辺は疎いので勉強になる。
しかし、LLMのAlignmentが不十分だったり、Hallucinationを100%防ぐことは原理的に不可能だと思われるので、この辺とどう付き合っていくかがLLMと付き合っていく上で難しいところ。この辺は自分たちが活用したいユースケースに応じて柔軟に対応しなければならず、この辺の細かいカスタマイズをする地道な作業はずっと残り続けるのではないかなあ




Paper/Blog Link My Issue
#Article #NLP #LanguageModel Issue Date: 2023-11-01 Comment

LLMの応用研究やPromptingを中心としたチュートリアル。アノテーションや対話式推薦システムへの活用、ReAct、プロンプトの最適化技術、CoTの基本から応用まで幅広くまとまっているので、LLMの応用技術の概観や、CoTを実践したい人に非常に有用だと思う。




Paper/Blog Link My Issue
#Article #LanguageModel Issue Date: 2023-09-29 Comment

量子化に関する技術であるGGML, GGUF, GPTQに関する詳細なまとめ

よくわからんが筆者の言葉を引用すると

>llama.cppならGGUF、TransformerならGPTQって感じ?



ということなので、これらは量子化を行うための技術を提供するライブラリであり、GGUF/GGMLはllama.cppで利用可能で、GPTQはより汎用的に利用可能な手法だと思われる。

GPTQについて論文をざっくり読んでメモった GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers, Elias Frantar+, N/A, ICLR'23




Paper/Blog Link My Issue
#Article #NLP #LanguageModel Issue Date: 2023-09-04 Comment

岡崎先生による大規模言語モデルのチュートリアル

最近のLLMまでの歴史、transformerなどの基礎的な内容から、最新の内容まで数式付きで詳細にまとまっている




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) Issue Date: 2023-08-29 Comment

>LLMのファインチューニングは、「形式」の学習は効果的ですが、「事実」の学習は不得意です。

> シェイクスピアの脚本のデータセット (tiny-shakespeare) の
「ロミオ」を「ボブ」に置き換えてファインチューニングして、新モデルの頭の中では「ロミオ」と「ボブ」をどう記憶しているかを確認します。

ファインチューニングしても、Bで始まるジュリエットが恋する人物について質問しても、ボブと答えてはくれない。
> ロミオ」は「ジュリエット」が恋していたこの男性に関連付けられており、「ロミオ」を「ボブ」に置き換えるファインチューニングでは、ニューラルネットワークの知識ベースを変更することはできませんでした。

なるほど。

参考: https://www.anyscale.com/blog/fine-tuning-is-for-form-not-facts?ref=blog.langchain.dev

imosさんのツイートを引用
> 文章が悪かったので補足。追加学習を全体に十分なデータですれば知識は獲得しえます(が事前学習の知識を忘却するリスクは高い)。巷でよくファインチューニングと呼ばれるものは、知識を司るらしいMLP部を触らず自己注意機構部のみを更新するので、そもそも知識を増やすのは難しいという認識です。

元ツイート:

Loading…



Paper/Blog Link My Issue
#Article #RecommenderSystems #Embeddings #EfficiencyImprovement #Library Issue Date: 2023-04-25 Comment

dynamic embeddingを使った推薦システムの構築方法の解説

(理解が間違っているかもしれないが)推薦システムは典型的にはユーザとアイテムをベクトル表現し、関連度を測ることで推薦をしている。この枠組みをめっちゃスケールさせるととんでもない数のEmbeddingを保持することになり、メモリ上にEmbeddingテーブルを保持して置けなくなる。特にこれはonline machine learning(たとえばユーザのセッションがアイテムのsequenceで表現されたとき、そのsequenceを表すEmbeddingを計算し保持しておき、アイテムとの関連度を測ることで推薦するアイテムを決める、みたいなことが必要)では顕著である(この辺の理解が浅い)。しかし、ほとんどのEmbeddingはrarely seenなので、厳密なEmbeddingを保持しておくことに実用上の意味はなく、それらを単一のベクトルでできるとメモリ節約になって嬉しい(こういった処理をしてもtopNの推薦結果は変わらないと思われるので)。
これがdynamic embeddingのモチベであり、どうやってそれをTFで実装するか解説している。




Paper/Blog Link My Issue
#Article #NeuralNetwork #Library #Transformer Issue Date: 2022-12-01 Comment

たった1ライン追加するだけで、Transformerのinferenceが最大で4.5倍高速化されるBetterTransformerの解説記事

better_model = BetterTransformer.transform(model)




Paper/Blog Link My Issue
#Article #NeuralNetwork #ComputerVision Issue Date: 2022-10-27 Comment

・Swin Transformer, Depth-wise conv, ConvNeXt, ViTとCNNのロバスト性の違いの話があり勉強になる

・最終的な結論が、CNNもTransformerも変わらない(明確な勝者はいない; 今のところ引き分け)というのはおもしろかった

depth-wise conv, point-wise convの解説記事: https://agirobots.com/depthwise-pointwise-convolution/



通常のCNNのフィルタによるfeature map計算を、空間方向(depth-wise conv)とチャネル方向(point-wise conv; 1x1 conv)に分解することで大幅にパラメータ数削減




Paper/Blog Link My Issue
#Article #LearningAnalytics Issue Date: 2022-03-03 Comment

緒方先生によるLAのチュートリアル



主な研究テーマ:

①行動予測:教育・学習活動において蓄積された大量のデータを元に,機械学習を用いて予測モデルを作成し,学習者の成績や能力,ドロップアウト等の行動を予測する研究

②介入モデル:いつどこでどのような内容をどのような方法で学習者に伝えると,効果的な情報提供となるか,という研究

③オープン学習者モデル:学習データを用いて学習スタイルや特徴を推測し,それをシステム内だけにとどめるのではなく,学習者にできる限り見える形で提示する,オープン学習者モデルの研究

④推薦:学習者個人の特徴にあわせて,教材や問題,カリキュラム等を推薦する研究

⑤ティーチングアナリティクス:教師の教育活動のデータを分析する研究

⑥教育評価の自動化:収集したデータの分析を元に,学習者の評価を自動的に行う研究

2021年版スライド:

https://www.let.media.kyoto-u.ac.jp/wp-content/uploads/2021/07/603b542fafc54003eb4a1a42bb92069f.pdf



典型的な研究事例:

・At-risk学生の発見と成績予測(early-warning)

・学生の成績予測

 - 教員が早期に単位を落としそうな学生を発見

 - 学生は成績予測を確認して、学びに向かう態度を改善

・教育データを用いた予測

- 教育データからACADEMIC Successの予測(e.g. career success, academic achievement)

・Open learner model (student model)

・Recommendation and personalized learning

- ALEKSのようなシステム

- BKT, DKT等を用いた推薦

・Learning analytics dashboard

・Writing (Text) analytics

 - Academic writingの文章を分析

 - eポートフォリオ/Essay/Journalを分析、成績や感情を予測

・Emotional learning analytics

・Multimodal learning analytics

 - Gaze (eye tracking)

 - Bio sensors (heart rate)

 - Pen, click stream

 - Motion sensor (gestures)

 - Audio/Video

・Collaborative learning analytics

 - Group formation

 - Social network analysis

 - Interaction analytics

・Ubiquitous Learning analytics

 - SCROLL:誰がいつどこで何を学習したかという学習ログを分析

・Learning analytics and self-regulated learning

・Learning analytics for teaching / learning design

・Assessment analytics

 - create exams

 - Peer evaluation




Paper/Blog Link My Issue
#Article #MachineLearning #Slide Issue Date: 2022-02-07 Comment

NeurIPS 2021での技術トレンドがまとめられている

1. アーキテクチャの改善

2. マルチモーダルモデル

3. Temporal Adaptation

4. Retrieval Augmentation

5. ベンチマーク見直し

6. データセット見直し

7. Human-Centered AI




Paper/Blog Link My Issue
#Article #Blog #Coding Issue Date: 2021-11-25 Comment

オブジェクト指向の歴史的背景から、SOLID、GRASP等が詳細に解説されている。辞書的に参照するのが良いかも。




Paper/Blog Link My Issue
#Article #Blog #Coding Issue Date: 2021-11-25 Comment

オブジェクト指向におけるSOLID原則をイラストで解説した記事。直感的で分かりやすい。




Paper/Blog Link My Issue
#Article #RecommenderSystems #CTRPrediction #Blog Issue Date: 2021-10-29 Comment

なぜクリック率を上げたいのかという説明が非常に参考になる:

>しかしその広告を掲載する側から考えればクリック率の低い広告を出すことは売上が下がってしまうため,クリック率が>低いとなかなか広告を表示することができなくなってしまいます.

その際よく使われるのはeCPMという指標です.

eCPMはその広告を1000回表示していくらの売上を上げることができるかという指標であり,

クリック率1000クリック単価で求められます.

>EPCMが高い広告のほうが表示されやすいため,クリック率を上げることで同じクリック単価でたくさんのユーザを自社のランディングページに誘導することができるようになります.

>例えば今回のケースではクリック率1.2%でクリック単価が60円ですので,eCPMは720円です。

ここでクリック率が0.1%上がるとeCPMは780円になります.

>そのときクリック単価を56円にしてもeCPMは726円になるため,つまりクリック率が0.1%上がると同じだけのランディングページへの誘導を得るための単価を4円下げることができます.

>例えばそのランディングページでの商品の購入が1%で行われるとすると,商品を1つ売るためのコストが400円も下がる事になります.

>ケースバイケースではありますが,このようにクリック率を上げることはウェブ広告を通してものを売るために非常に重要な要素になります.




Paper/Blog Link My Issue
#Article #AdaptiveLearning #LearningAnalytics Issue Date: 2021-10-29 Comment

Learning Analyticsの全体像について、コンパクトにまとまっている。

特に、そのアプローチに関するコンセプトの特徴(e.g. 学習者中心、デーア駆動)や、フレームワーク、xAPIといったデータの測定・収集方法などについて、まとめられている。




Paper/Blog Link My Issue
#Article #MachineLearning #Pocket Issue Date: 2021-10-16 Comment

並列して走る機械学習案件をどのように効果的に捌いているか説明。

①タイトな締切
→ 高速化で対処
→ よく使う機能をML自身に実装する
②並行して走る案件
→ 並列化
 → Kubernetesを用いて、タスクごとに異なるノードで分散処理(e.g CVのFoldごとにノード分散、推論ユーザごとにノード分散)要件に合わせて、メモリ優先、CPU優先などのノードをノードプールから使い分ける
 
③属人化
→ 標準化
 → よく使う機能はMLシステム自身に実装
 → 設定ファイルで学習、推論の挙動を制御




Paper/Blog Link My Issue
#Article Issue Date: 2021-07-16

Paper/Blog Link My Issue
#Article #BeamSearch #Blog Issue Date: 2021-06-24 Comment

ビームサーチについて、コード付きで説明してくれており、大変わかりやすい。

heapqを使って実装している。また、ビームサーチをbatchに対して行う方法についても書いてある(ただ、一部に対してしかbatchでの処理は適用できていない)。

自分もバッチに対して効率的にビームサーチするにはどのように実装すれば良いのかよくわからないので、誰か教えて欲しい。




Paper/Blog Link My Issue
#Article #Tools #NLP #Library #python #Slide Issue Date: 2021-06-11 Comment

各形態素解析ライブラリの特徴や比較がされていて、自分の用途・目的に合わせてどの形態素解析器が良いか意思決定する際に有用

image




My Issue
#Article #Tools #Library #python Issue Date: 2021-06-05 Comment

【PyTorchでたまに使うけどググって情報探すのに時間かかるやつ】

https://trap.jp/post/1122/



- scatter_add, einsum, Bilinear あたりが説明されている

【NLLossの細かい挙動】

https://tatsukawa.hatenablog.com/entry/2020/04/06/054700

【PyTorchで絶対nanを出したいマン】

https://qiita.com/syoamakase/items/40a716f93dc8afa8fd12



PyTorchでnanが出てしまう原因とその対策が色々書いてある

【pipで様々なCuda versionのpytorchをinstallする方法】

https://stackoverflow.com/questions/65980206/cuda-10-2-not-recognised-on-pip-installed-pytorch-1-7-1




Paper/Blog Link My Issue
#Article Issue Date: 2021-06-03 Comment

Skip Connectionは

- 推論時のメモリ消費量が増える
- 推論時に計算量の割に実際の計算が重たくなりがち(特にDNN専用アクセラレーターにおいてその傾向がありがち)

というデメリットがあり、SkipConnection無しで性能を出したいことから、様々な研究が行われている模様。

ResNetを学習し、それを教師としてPlainCNNを学習するResidual Distillationが決定版らしい(普通のDistillationでは最終層の類似度のみを用いるが、生徒ネットワークの中間層の出力を教師ネットワークに入れてからbackpropして勾配を得る)。

50層のPlainCNNで、ResNet50とほぼ同等のtop-1 accuracyを達成。
メモリ消費量は20%弱削減され、実行速度は20〜30%程度高速になる。




Paper/Blog Link My Issue
#Article #Pocket #EducationalDataMining #LearningAnalytics #StudentPerformancePrediction #KnowledgeTracing Issue Date: 2021-05-30 Comment

Learner Modelingに関するチュートリアル。Learner Modelingの典型的なコンテキストや、KCにどのような種類があるか(KLI Frameworkに基づいた場合)、learner modeling techniques (BKTやPFA等)のチュートリアルなどが記載されている。



image

image

image

image

image

knowledgeをmodelingする際に利用されるデータの典型的な構造

image



donain modelingの典型的なアプローチ

image



モデルのaspectと、model purposes, learning processesのrelevanceを図示したもの。色が濃いほうが重要度が高い

image



Learner ModelingのMetrics

image



cross validation方法の適用方法(同じ学習者内と、異なる学習者間での違い。学習者内での予測性能を見たいのか、学習者間での汎化性能を見たいのかで変わるはず)

image

BKT、PFAや、それらを用いるContext(どのモデルをどのように自分のcontextに合わせて選択するか)、KLI Frameworkに基づくKCの構成のされ方、モデル評価方法等を理解したい場合、読んだほうが良さそう?

ざっとしか見ていないけど、重要な情報がめちゃめちゃ書いてありそう。後でしっかり読む・・・。




Paper/Blog Link My Issue
#Article #NeuralNetwork #ComputerVision #EfficiencyImprovement #Blog #ImageClassification Issue Date: 2021-05-24 Comment

既存画像認識モデルの構造は変化させず、広さ、深さ、解像度を複合スケーリングすることで、従来よりも少ないパラメータ数、かつ学習速度でSoTAを達成。広さ、深さ、解像度はそれぞれ性能に互いに影響しあっており、従来のように別々にスケーリングするのではなく、3つのバランスをとりながらスケーリングする。スケーリングする際は、結果的にはそれぞれをある値で定数倍すれば良く、そのある値は最大メモリや最大FLOPS数以下(およびFLOPSが2のΦ乗で増加するような)といった制約下でAccuracyが最大化される値をグリッドサーチで見つける(らしい。ざっくりとした理解)。
転移学習しても多くのタスクでSoTA達成した。




Paper/Blog Link My Issue
#Article #RecommenderSystems #Tools #Dataset #Slide #One-Line Notes Issue Date: 2020-08-29 Comment

機械学習による予測精度ではなく、機械学習モデルによって生じる意思決定を、過去の蓄積されたデータから評価する(Off policy Evaluation)の、tutorialおよび実装、データセットについて紹介。
このような観点は実務上あるし、見落としがちだと思うので、とても興味深い。




Paper/Blog Link My Issue
#Article #MachineLearning #Slide #kNN Issue Date: 2020-07-30 Comment

k-NNベースドなRecommender Systemを構築したけど、Inferenceに時間がかかって、先方のレスポンスタイムの要求が満たせない...というときに役に立ちそう。

yahooのNGTといった実装も転がっている(Apache-2.0 License):

https://techblog.yahoo.co.jp/data_solution/ngtpython/

ScaNNという手法もあるらしい(SoTA)
https://ai-scholar.tech/articles/vector-search/scann




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Slide Issue Date: 2020-01-13 Comment

自然言語処理の王様「BERT」の論文を徹底解説

https://qiita.com/omiita/items/72998858efc19a368e50

Transformer関連 [Paper Note] Attention Is All You Need, Ashish Vaswani+, arXiv'17 あたりを先に読んでからが読むと良い



要は

・Transformerをたくさん積んだモデル

・NSPとMLMで双方向性を持った事前学習タスクを実施することで性能向上

・pooler layer(Transformer Encoderの次にくっつくlayer)を切り替えることで、様々なタスクにfine-tuning可能(i.e. pooler layerは転移学習の対象外)

・予測する際は、[CLS]トークンに対応する位置の出力を用いて分類問題や複数文間の関係性を問う問題を解いたり、各トークン位置に対応する出力を用いてQAの正解spanを予測したり、色々できる

・gMLP MLP-like Architecture あたりの研究が進んでくると使われなくなってくる可能性有

こっちの記事もわかりやすい。



BERTについて勉強したことまとめ (2)モデル構造について

https://engineering.mobalab.net/2020/06/12/bert%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6%E5%8B%89%E5%BC%B7%E3%81%97%E3%81%9F%E3%81%93%E3%81%A8%E3%81%BE%E3%81%A8%E3%82%81-2%E3%83%A2%E3%83%87%E3%83%AB%E6%A7%8B%E9%80%A0%E3%81%AB%E3%81%A4%E3%81%84/




Paper/Blog Link My Issue
#Article #RecommenderSystems #Explanation #Selected Papers/Blogs Issue Date: 2019-01-23 Comment

Recommender Systems HandbookのChapter。[Paper Note] A Survey of Explanations in Recommender Systems, Tintarev+, ICDEW'07 のSurveyと同じ著者による執筆。

推薦のExplanationといえばこの人というイメージ。

D論: http://navatintarev.com/papers/Nava%20Tintarev_PhD_Thesis_(2010).pdf




Paper/Blog Link My Issue
#Article #MachineLearning #OnlineLearning Issue Date: 2017-12-31 Comment

## 目次

定式化

評価法:Regretなど

パーセプトロン

Passive Aggressive Algorithm

(アルゴリズムと損失の限界の評価)

Confidence Weighted Algorithm

Pegasos

Coordinate Descent

バッチ、オンライン、ストリームの比較

ビッグデータへの対応