Slide

#Tutorial #Analysis #NLP #LanguageModel
Issue Date: 2025-10-07 言語モデルの内部機序:解析と解釈, HEINZERLING+, NLP'25, 2025.03 Comment

元ポスト:

Loading…


#RecommenderSystems #Tutorial #Infrastructure #python
Issue Date: 2021-10-21 コミュニティサービスにおけるレコメンデーションの変遷とMLパイプラインについて, PyCon'21 Comment

・ママ向けのQ&AサービスにおけるレコメンドとMLパイプラインについて紹介



◆レコメンドエンジンの変遷

 ・Tensorflowで実装したMFから始まり、その後トピックを絞り込んだ上で推薦するためにLDAを活用したレコメンド、最終的にSoftmax Recommendationを開発

  * Softmax Recommendation: https://developers.google.com/machine-learning/recommendation/dnn/softmax

  * ユーザプロファイル(e.g. 行動ベクトル, ユーザの属性情報)等を入力とし、hidden layerをかませて最終的にアイテム次元数分のスコアベクトルを得る手法

  * 行動ベクトル=ユーザが過去にクリックしたQ&Aだが、質問ベクトルを得るために内容テキストは利用せず行動ログ+word2vecで学習

  * 類似質問検索による定性評価の結果良い結果、関連質問を抽出できるベクトルとなっていることを確認

 → レコメンド手法の変遷につれ、ベンチマークを上回るようになっていった

◆MLパイプラインについて

 ・AWS Step FunctionsとAmazon Sagemakerを利用

 ・AWS Step Functions

  * AWS上の様々なサービスをワークフローとして定義できる(json形式でワークフローを記述)

 ・Amazon Sagemaker

  * 機械学習向けのIDE

  * notebook上でのデータ分析・モデル学習、実験管理や学習済みモデルのデプロイが可能

  * Sagemaker Processingを用いることで、実行したい処理やインスタンスタイプを指定することで、notebookとは別の実行環境(コンテナ)で任意のpythonスクリプトを実行可

  

image



 ・ワークフローの定義=AWS Stepfunctions, スクリプト実行のリソース=Sagemaker Processingとして利用



MLパイプラインについては下記資料により詳しい情報が書かれている

https://speakerdeck.com/takapy/sagemaker-studiotostep-functionswoyong-itemlopshefalse-bu-wota-michu-sou



#RecommenderSystems #Tutorial #Explanation #SIGKDD
Issue Date: 2019-08-19 Explainable AI in Industry, KDD'19

#RecommenderSystems #NeuralNetwork #Tutorial #InformationRetrieval #SIGKDD Issue Date: 2018-02-16 Deep Learning for Personalized Search and Recommender Systems, KDD'17 #NeuralNetwork #Tutorial #NeurIPS Issue Date: 2018-02-06 Deep Learning: Practice and Trends, NIPS'17 Comment

基礎から最新まで幅広いトピックがまとまったtutorial



#NeuralNetwork #Tutorial #MachineLearning #ICML Issue Date: 2018-02-22 Tutorial: Deep Reinforcement Learning, David Silver, ICML'16 #NeuralNetwork #Tutorial #SentimentAnalysis #NLP #EMNLP Issue Date: 2018-01-01 Neural Network for Sentiment Analysis, EMNLP'16 #Tutorial #InformationRetrieval #LearningToRank Issue Date: 2018-01-01 Machine Learning for Information Retrieval, Hofmann, ESSIR'15 #RecommenderSystems #Tutorial #InteractiveRecommenderSystems #RecSys Issue Date: 2017-12-28 Interactive Recommender Systems, Netflix, RecSys'15, 2015.09 #Tutorial #InformationRetrieval #OnlineEvaluation #SIGIR Issue Date: 2018-01-01 Practical Online Retrieval Evaluation, SIGIR'11, Tutorial #Article #Survey #Robotics #CoRL Issue Date: 2025-10-05 CoRL2025速報, robotpaper.challenge, 2025.10 Comment

元ポスト:

Loading…


#Article #MachineLearning #LanguageModel #Infrastructure #GenerativeAI #read-later #One-Line Notes Issue Date: 2025-09-28 AIインフラを考える, Masayuki Kobayashi, 第38回 ISOC-JP Workshop, 2025.09 Comment

元ポスト:

Loading…

KVCacheサイズとデータ転送量の部分はパフォーマンスチューニングの際に重要なのですぐにでも活用できそう。前半部分は私にとっては難しかったので勉強したい。



#Article #Frontend Issue Date: 2025-09-21 モダンフロントエンドデザインパターン 優れたUXを実現するには, Daisuke Awaji, AWS Japan, 2023.06 Comment

元ポスト:

Loading…


#Article #ComputerVision #NLP #Chip #VisionLanguageModel #Robotics #VisionLanguageActionModel #EmbodiedAI Issue Date: 2025-09-01 AIロボティクス検討会 第1回事務局資料, 経済産業省, 2025.08 Comment

元ポスト:

Loading…

Nvidiaの投資額が文字通り桁違いの5000億ドル



#Article #Tutorial #NLP #LanguageModel #ReinforcementLearning #PostTraining #read-later #RLVR Issue Date: 2025-08-26 The Bitter Lesson for RL: Verification as the key to Reasoning LLMs, Rishabh Agarwal, 2025.06 Comment

元ポスト:

Loading…

著者ポスト:

Loading…


#Article #ContextEngineering Issue Date: 2025-08-22 LLM時代の検索とコンテキストエンジニアリング, Yusuke Shibui, LayerX, 2025.08 #Article #ComputerVision #SSM (StateSpaceModel) Issue Date: 2025-08-12 第62回名古屋CV・PRML勉強会:CVPR2025論文紹介 (MambaOut), Naoki Okamoto, 2025.08 Comment

元ポスト:

Loading…

元論文は以下:
- [Paper Note] MambaOut: Do We Really Need Mamba for Vision?, Weihao Yu+, arXiv'24



#Article #Tutorial #LanguageModel #SyntheticData #ACL #Selected Papers/Blogs Issue Date: 2025-08-06 Synthetic Data in the Era of LLMs, Tutorial at ACL 2025 Comment

元ポスト:

Loading…


#Article #LLMAgent #Coding #SoftwareEngineering #Sequrity Issue Date: 2025-07-26 運用して初めてわかったDevinのセキュリティ課題 - Devin Meetup Tokyo 2025, 株式会社メルカリHiroki Akamatsu, 2025.07 #Article #NLP #LLMAgent #Coding Issue Date: 2025-07-25 AI時代のソフトウェア開発を考える(2025_07版) _ Agentic Software Engineering Findy 2025-07 Edition, Takuto Wada, 2025.07 Comment

Vibe Codingによってソフトウェアエンジニアリングの課題は解決されたわけではなく、昔からある問題は依然として存在し(技術的負債、レビューなど)、道具が変わりこれらが顕在化するスピードが急速に速まっただけ、という話な模様。
どの領域に、どのAIを使うか(委託, 伴走)なども考察されている。ロジックの複雑さが小さいものは委託(補完など)、ロジックの複雑さが高く競合との差別化が重要なエリアには伴走、といった使い方。AIは自走するが迷走、暴走もするのでガードレールがより一層重要。自分自身の能力の向上も不可欠。



#Article #NLP #LanguageModel #Prompting #Attack Issue Date: 2025-07-23 プロンプトインジェクション2.0 : 進化する防御機構とその回避手法, yuasa, 2025.07 #Article #RecommenderSystems #TwoTowerModel Issue Date: 2025-07-17 DMMにおけるレコメンドの紹介‗20250716_traP×DMM, 合同会社DMM.com, 2025.07 Comment

Two Towerモデル + LightGBMによるリランキング



#Article #NLP #LanguageModel #Evaluation #Japanese #SoftwareEngineering #Selected Papers/Blogs Issue Date: 2025-07-16 論文では語られないLLM開発において重要なこと Swallow Projectを通して, Kazuki Fujii, NLPコロキウム, 2025.07 Comment

独自LLM開発の私の想像など遥かに超える非常に困難な側面が記述されており、これをできるのはあまりにもすごいという感想を抱いた(小並感だけど本当にすごいと思う。すごいとしか言いようがない)



#Article #Transformer #SpeechProcessing #Conversation #read-later Issue Date: 2025-07-15 【輪講資料】Moshi: a speech-text foundation model for real-time dialogue, Hayato Tsukagoshi, 2025.07 #Article #RecommenderSystems #Blog Issue Date: 2025-07-15 推薦システムにおけるPost Processの取り組み, Wantedly, 2025.07 Comment

元ポスト:

Loading…

Wantedlyスカウトにおいて、オンラインで動的にスカウト利用者から指定されるフィルタリング要件に対して、未閲覧のユーザの比率を動的に調整してランキングするPost Processによって、主要KPIが大幅に改善した話。モデル改善に興味が行きがちだが、顧客理解に基づくPost Processでここまで主要KPIが改善するのは美しく、非常に興味深い。

スライド資料:

Loading…


#Article #LLMAgent #Coding #SoftwareEngineering #ContextEngineering Issue Date: 2025-07-06 Claude Code の Context Engineering, schroneko, 2025.07 #Article #Survey #ComputerVision #CVPR Issue Date: 2025-06-26 CVPR 2025 速報, Kataoka+, 2025.06 Comment

元ポスト:

Loading…

すごいまとめだ…



#Article #NLP #LanguageModel #SmallModel Issue Date: 2025-05-28 SSII2025 [OS1-03] PFNにおけるSmall Language Modelの開発, 鈴木 脩司, 画像センシングシンポジウム, 2025.05 Comment

元ポスト:

Loading…

関連
- Training Compute-Optimal Large Language Models, Jordan Hoffmann+, NeurIPS'22
- Scaling Laws for Neural Language Models, Jared Kaplan+, arXiv'20
- Distillation Scaling Laws, Dan Busbridge+, ICML'25
- Textbooks Are All You Need, Suriya Gunasekar+, N/A, arXiv'23

先行研究を元に仮説を立てて、有望なアプローチを取る意思決定が非常に勉強になる。
Scaling Lawsが不確実性のある意思決定において非常に有用な知見となっている。

同じようにPruningとKnowledge Distilationを実施した事例として下記が挙げられる
- Llama-3_1-Nemotron-Ultra-253B-v1, Nvidia, 2025.04



#Article #Tutorial #ComputerVision #NLP #LanguageModel #DiffusionModel Issue Date: 2025-05-24 【DL輪読会】 Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models, Deep Learning JP, 2025.05 Comment

元ポスト:

Loading…

Masked Diffusion Modelの進展, Deep Learning JP, 2025.03 でLiteratureをざっくり把握してからこちらを読むのが良さそう。



#Article #Tutorial #ComputerVision #NLP #LanguageModel #DiffusionModel Issue Date: 2025-05-24 Masked Diffusion Modelの進展, Deep Learning JP, 2025.03 Comment

元ポスト:

Loading…

スライド中のARのようにKV Cacheが使えない問題に対処した研究が
- dKV-Cache: The Cache for Diffusion Language Models, Xinyin Ma+, arXiv'25

この辺はdLLMが有望であれば、どんどん進化していくのだろう。



#Article #Tutorial #ACL Issue Date: 2025-05-11 ACL 2024 参加報告, 張+, 株式会社サイバーエージェント AI Lab, 2024.08 Comment

業界のトレンドを把握するのに非常に参考になる:
- Reasoning, KnowledgeGraph, KnowledgeEditing, Distillation
- PEFT, Bias, Fairness, Ethics
- Multimodal(QA, Benchmarking, Summarization)
などなど。

投稿数5000件は多いなあ…



#Article #LLMAgent #SoftwareEngineering Issue Date: 2025-04-26 Cursor_Devin全社導入の理想と現実, Ryoichi Saito, 2025.04 Comment

Devinの思わぬ挙動のくだりが非常に面白かった。まだまだ使いづらいところが多そうだなあ…。



#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) Issue Date: 2025-03-16 LLM 開発を支える多様な Fine-Tuning:PFN での取り組み, 中鉢魁三郎, PFN, 2025.03 Comment

知識の追加の部分で下記研究が引用されている

- Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?, Zorik Gekhman+, N/A, EMNLP'24
- LoRA Learns Less and Forgets Less, Dan Biderman+, TMLR'24



#Article #LanguageModel #LLMAgent Issue Date: 2025-03-14 AI_Agent_の作り方_近藤憲児, Kenji KONDO, 2025.03 #Article Issue Date: 2025-02-26 Docker入門2024, Cybozu #Article #Pretraining #NLP #LanguageModel Issue Date: 2025-02-12 LLMの事前学習のためのテキストデータの収集と構築, Shun Kiyono, 2015.02 Comment

詳細は著書に記載とのこと。興味深い。



#Article #NLP #LanguageModel #Alignment Issue Date: 2024-12-19 【NLPコロキウム】Stepwise Alignment for Constrained Language Model Policy Optimization (NeurIPS 2024) , 2024.12 Comment

- RLHF/DPO 小話, 和地瞭良/ Akifumi Wachi, 2024.04

も参照のこと。

RLHF, DPOが解いている問題が同じで、問題が同じなのでそれぞれの最適解も一緒であり解き方が違うだけ、でもDPOの方が頑張って強化学習するRLHFよりも簡単に解けるし、学習も安定してるよ、という話が、binary feedbackデータに対するアライメント手法であるKTOも交えて書いてある。

アライメントの学習では単一のスカラー値によって報酬が決まっているが、生成結果には色々な側面があるから単一スカラーでは本来評価できないよねという話が出てきた上で、safetyに対しても考慮して報酬を決めたい、という時にスカラー値のままだけど最適化問題の制約条件にsafetyに関する制約を入れる、ことで報酬に反映させます、みたいな話が書いてある。
そして提案手法の主要な貢献は、そういうことをやるとめちゃめちゃ手法が複雑化するんだけれども、よりシンプルにして、かつ理論的にも正当化されているし、実験的にもうまく動きます、という話らしい。



#Article #Survey #ComputerVision #Pocket #NLP #LanguageModel Issue Date: 2024-11-18 Large Vision Language Model (LVLM)に関する知見まとめ, Daiki Shiono, 2024.11 #Article #EfficiencyImprovement #Pocket #LanguageModel Issue Date: 2024-11-14 TensorRT-LLMによる推論高速化, Hiroshi Matsuda, NVIDIA AI Summit 2024.11 Comment

元ポスト:

Loading…

非常に興味深いので後で読む



#Article #Pocket #LanguageModel Issue Date: 2024-10-05 今日から始める大規模言語モデルのプロダクト活用, y_matsuwitter, 2024.10 #Article #Pocket #Management Issue Date: 2024-09-25 NLP Experimental Design, Graham Neubig, 2024 #Article #RecommenderSystems Issue Date: 2024-09-15 クリックを最大化しない推薦システム, Ryoma Sato, 2024.01 Comment

おもしろそうなので後で読む

クリック率やコンバージョン率に最適化することが従来のやり方だが、クリックベイトのため粗悪なコンテンツを推薦してしまったり、人気のあるアイテムに推薦リストが偏ってしまい、長期的なユーザの利益を害するという話。

20年くらい前からこの辺をなんとかするために、推薦のセレンディピティや多様性を考慮する手法が研究されており、それらのエッセンスが紹介されている。また、Calibrated Recommendation Calibrated Recommendation, Herald Steck, Netflix, RecSys'18 (ユーザの推薦リストがのジャンルの比率がユーザの好む比率になるように最適化する方法で、劣モジュラ関数を最適化するためgreedyに解いてもある程度良い近似解が保証されている)などの概要も説明されていて非常に勉強になった。

セレンディピティのある推薦アルゴリズムをGoogle上でA/Bテストしたら、ユーザの満足度とコアユーザー転換率が大幅に向上したと言う話や、推薦はフィルターバブル問題を実は悪化させないといった研究がGroupLensのKonstan先生のチームから出ているなど、興味深い話題が盛りだくさんだった。



#Article Issue Date: 2024-09-03 AI時代を生き抜くために処理をちゃんと書けるようになろう, きしだ なおき, LINEヤフー, 2024.01 #Article #Analysis #LanguageModel #OpenWeight #Japanese Issue Date: 2024-09-03 LLMに日本語テキストを学習させる意義, Koshiro Saito+, 第261回自然言語処理研究発表会, 2024.08 Comment

英日翻訳や日本特有の知識を問われるようなQAにおいて、日本語データによる学習の効果があることが示唆されている模様。
たとえば、論文紹介 / The Llama 3 Herd of Models, 2024.08 に示されている通り、Llama2における日本語データの割合は0.2%とかなので、英語圏のOpenLLMにおいて、日本語データの比率がどれだけ少ないかがわかる。



#Article #Tutorial #LanguageModel Issue Date: 2024-09-01 大規模言語モデル (LLM) の技術と最新動向, Ikuya Yamada, 2024.06 Comment

LLMの原理の基礎的な内容について、丁寧かつコンパクトにまとまっている。



>ファインチューニングは新しい知識の学習ではなく知識の使い方を学習させるのに向いている



これをきちんと念頭に置いておかないと落とし穴にハマると思う。引用元の論文読みたい(Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?, Zorik Gekhman+, N/A, EMNLP'24 )。



#Article #Tutorial #NLP #LanguageModel #OpenWeight Issue Date: 2024-08-26 論文紹介 _ The Llama 3 Herd of Models, 2024.08 Comment

Llama3の事前学習や事後学習のノウハウが詰まっており(安全性なども含む)、LLM学習に必要な要素が図解されており、非常に分かりやすい。



たとえば下記図(スライド中より引用)などは、LLMの学習過程を説明する際にわかりやすそう

image

LLMの事前・事後学習あたりは独自ノウハウが多すぎてもはや追従困難



#Article #Pocket #Management Issue Date: 2024-08-10 現代的システム開発概論2024, 2024.08 #Article #NeuralNetwork #EfficiencyImprovement #NLP #LanguageModel #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) #PostTraining #Selected Papers/Blogs Issue Date: 2023-04-25 LoRA論文解説, Hayato Tsukagoshi, 2023.04 Comment

ベースとなる事前学習モデルの一部の線形層の隣に、低ランク行列A,Bを導入し、A,Bのパラメータのみをfinetuningの対象とすることで、チューニングするパラメータ数を激減させた上で同等の予測性能を達成し、推論速度も変わらないようにするfinetuning手法の解説

LoRAを使うと、でかすぎるモデルだと、そもそもGPUに載らない問題や、ファインチューニング後のモデルファイルでかすぎワロタ問題が回避できる。

前者は事前学習済みモデルのBPのための勾配を保存しておく必要がなくなるため学習時にメモリ節約になる。後者はA,Bのパラメータだけ保存すればいいので、ストレージの節約になる。

かつ、学習速度が25%程度早くなる。

既存研究であるAdapter(transformerの中に学習可能なMLPを差し込む手法)は推論コストが増加し、prefix tuningは学習が非常に難しく、高い性能を達成するためにprefixとして128 token入れたりしなければならない。

huggingfaceがすでにLoRAを実装している
https://github.com/huggingface/peft



#Article #Tutorial #Pocket #Coding Issue Date: 2022-03-02 良いコードとは何か - エンジニア新卒研修 スライド公開, CyberZ, 森 #Article #Tutorial #MachineLearning Issue Date: 2022-02-07 NeurIPS 2021 技術報告会, 株式会社TDAI Lab, 2022 Comment

NeurIPS 2021での技術トレンドがまとめられている

1. アーキテクチャの改善

2. マルチモーダルモデル

3. Temporal Adaptation

4. Retrieval Augmentation

5. ベンチマーク見直し

6. データセット見直し

7. Human-Centered AI



#Article #Tutorial #Tools #NLP #Library #python Issue Date: 2021-06-11 最先端自然言語処理ライブラリの最適な選択と有用な利用方法 _ pycon-jp-2020 Comment

各形態素解析ライブラリの特徴や比較がされていて、自分の用途・目的に合わせてどの形態素解析器が良いか意思決定する際に有用

image



#Article #RecommenderSystems #Tutorial #Tools #Dataset Issue Date: 2020-08-29 Off Policy Evaluation の基礎とOpen Bandit Dataset & Pipelineの紹介, Yuta Saito, 2020 Comment

機械学習による予測精度ではなく、機械学習モデルによって生じる意思決定を、過去の蓄積されたデータから評価する(Off policy Evaluation)の、tutorialおよび実装、データセットについて紹介。
このような観点は実務上あるし、見落としがちだと思うので、とても興味深い。



#Article #Tutorial #MachineLearning #kNN Issue Date: 2020-07-30 近似最近傍探索の最前線, Yusuke Matsui, 2019 Comment

k-NNベースドなRecommender Systemを構築したけど、Inferenceに時間がかかって、先方のレスポンスタイムの要求が満たせない...というときに役に立ちそう。

yahooのNGTといった実装も転がっている(Apache-2.0 License):

https://techblog.yahoo.co.jp/data_solution/ngtpython/

ScaNNという手法もあるらしい(SoTA)
https://ai-scholar.tech/articles/vector-search/scann



#Article #Tutorial #NLP #LanguageModel Issue Date: 2020-01-13 BERT入門, Ken'ichi Matsui, 2020 Comment

自然言語処理の王様「BERT」の論文を徹底解説

https://qiita.com/omiita/items/72998858efc19a368e50

Transformer関連 [Paper Note] Attention Is All You Need, Ashish Vaswani+, arXiv'17 あたりを先に読んでからが読むと良い



要は

・Transformerをたくさん積んだモデル

・NSPとMLMで双方向性を持った事前学習タスクを実施することで性能向上

・pooler layer(Transformer Encoderの次にくっつくlayer)を切り替えることで、様々なタスクにfine-tuning可能(i.e. pooler layerは転移学習の対象外)

・予測する際は、[CLS]トークンに対応する位置の出力を用いて分類問題や複数文間の関係性を問う問題を解いたり、各トークン位置に対応する出力を用いてQAの正解spanを予測したり、色々できる

・gMLP MLP-like Architecture あたりの研究が進んでくると使われなくなってくる可能性有

こっちの記事もわかりやすい。



BERTについて勉強したことまとめ (2)モデル構造について

https://engineering.mobalab.net/2020/06/12/bert%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6%E5%8B%89%E5%BC%B7%E3%81%97%E3%81%9F%E3%81%93%E3%81%A8%E3%81%BE%E3%81%A8%E3%82%81-2%E3%83%A2%E3%83%87%E3%83%AB%E6%A7%8B%E9%80%A0%E3%81%AB%E3%81%A4%E3%81%84/



#Article #Tutorial #NLP Issue Date: 2019-11-09 EMNLP 2019 spec tutorial #Article #NeuralNetwork #Survey #NLP #LanguageModel #Selected Papers/Blogs Issue Date: 2019-11-09 事前学習言語モデルの動向 _ Survey of Pretrained Language Models, Kyosuke Nishida, 2019 Comment

[2019/06まで]

・ELMo(双方向2層LSTM言語モデル)

・GPT(left-to-rightの12層Transformer自己回帰言語モデル)

・BERT(24層のTransformer双方向言語モデル)

・MT-DNN(BERTの上にマルチタスク層を追加した研究)

・XLM(パラレル翻訳コーパスを用いてクロスリンガルに穴埋めを学習)

・TransformerXL(系列長いに制限のあった既存モデルにセグメントレベルの再帰を導入し長い系列を扱えるように)

・GPT-2(48層Transformerの自己回帰言語モデル)

・ERNIE 1.0(Baidu, エンティティとフレーズの外部知識を使ってマスクに利用)

・ERNIE(Tsinghua, 知識グラフの情報をfusionしたLM)

・Glover(ドメイン、日付、著者などを条件とした生成を可能としたGPT)

・MASS(Encoder-Decoder型の生成モデルのための事前学習)

・UniLM(Sequence-to-Sequenceを可能にした言語モデル)

・XLNet(自己回帰(単方向)モデルと双方向モデルの両方の利点を得ることを目指す)



[2019/07~]

・SpanBERT(i.i.dではなく範囲でマスクし、同時に範囲の境界も予測する)

・ERNIE 2.0(Baidu, マルチタスク事前学習; 単語レベル・構造レベル・意味レベル)

・RoBERTa(BERTと同じ構造で工夫を加えることで性能向上)

 - より大きなバッチサイズを使う(256から8192)

 - より多くのデータを使う(16GBから160GB)

 - より長いステップ数の学習をする(BERT換算で16倍)

 - 次文予測(NSP)は不要

 → GLUEでBERT, XLNetをoutperform

・StructBERT (ALICE, NSPに代わる学習の目的関数を工夫)

 - マスクした上で単語の順番をシャッフルし元に戻す

 - ランダム・正順・逆順の3種類を分類

 → BERTと同サイズ、同データでBERT, RoBERTa超え

・DistilBERT(蒸留により、12層BERTを6層に小型化(40%減))

 - BERTの出力を教師として、生徒が同じ出力を出すように学習

 - 幅(隠れ層)サイズを減らすと、層数を経あrスよりも悪化

 → 推論は60%高速化、精度は95%程度を保持

・Q8BERT(精度を落とさずにfine-tuning時にBERTを8bit整数に量子化)

 - Embedding, FCは8bit化、softmax, LNorm, GELUは32bitをキープ

 → モデルサイズ1/4, 速度3.7倍

・CTRL(条件付き言語モデル)

 - 条件となる制御テキストを本文の前に与えて学習

 - 48層/1280次元Transformer(パラメータ数1.6B)

・MegatronLM(72層、隠れ状態サイズ3072、長さ1024; BERTの24倍サイズ)

・ALBERT(BERTの層のパラメータをすべて共有することで学習を高速化; 2020年あたりのデファクト)

 - Largeを超えたモデルは学習が難しいため、表現は落ちるが学習しやすくした

 - 単語埋め込みを低次元にすることでパラメータ数削減

 - 次文予測を、文の順序入れ替え判定に変更

 → GLUE, RACE, SQuADでSoTAを更新

・T5(NLPタスクをすべてtext-to-textとして扱い、Enc-Dec Transformerを745GBコーパスで事前学習して転移する)

 - モデルはEncoder-DecoderのTransformer

 - 学習タスクをエンコーダ・デコーダに合わせて変更

 - エンコーダ側で範囲を欠落させて、デコーダ側で予測

 → GLUE, SuperGLUE, SQuAD1.1, CNN/DMでSoTA更新

・BART(Seq2Seqの事前学習として、トークンマスク・削除、範囲マスク、文の入れ替え、文書の回転の複数タスクで学習)

 → CNN/DMでT5超え、WMT'16 RO-ENで逆翻訳を超えてSoTA

ELMo, GPT, BERT, GPT-2, XLNet, RoBERTa, DistilBERT, ALBERT, T5あたりは良く見るような感

各データセットでの各モデルの性能も後半に記載されており興味深い。



ちなみに、CNN/DailyMail Datasetでは、T5, BARTあたりがSoTA。

R2で比較すると

 - Pointer-Generator + Coverage Vectorが17,28

 - LEAD-3が17.62

 - BARTが21.28

 - T5が21.55

となっている



#Article #NeuralNetwork #Tutorial #MachineLearning #NLP Issue Date: 2018-02-19 ニューラルネット勉強会(LSTM編), Seitaro Shinagawa, 2016 Comment

LSTMの基礎から、実装する上でのTipsがまとまっている。

zero padding, dropoutのかけかた、normalizationの手法など。



#Article #Tutorial #MachineLearning #CurriculumLearning Issue Date: 2018-02-12 Curriculum Learning(関東CV勉強会), Yoshitaka Ushiku, 2015.05 Comment

牛久先生によるCurriculum Learningチュートリアル



#Article #Tutorial #MachineTranslation #NLP #Alignment Issue Date: 2018-01-15 ALAGIN 機械翻訳セミナー 単語アライメント, Graham Neubig, 2014.03 Comment

Neubigさんによる単語アライメントチュートリアル



#Article #NeuralNetwork #Tutorial #NLP #Selected Papers/Blogs Issue Date: 2018-01-15 自然言語処理のためのDeep Learning, Yuta Kikuchi, 2013.09 #Article #Tutorial #InformationRetrieval #LearningToRank Issue Date: 2018-01-01 Confidence Weightedでランク学習を実装してみた, 徳永拓之, 第4回 自然言語処理勉強会@東京 #Article #Tutorial #InformationRetrieval #LearningToRank Issue Date: 2018-01-01 ランキング学習ことはじめ, DSIRNLP#1, 2011