Repositoryに関する論文・技術記事メモの一覧

Repository

Research ideas you can't be outscaled on., Anthea Li, 2026.06

Paper/Blog Link My Issue
#Article #Blog #ScientificDiscovery #Selected Papers/Blogs #One-Line Notes #Author Thread-Post Issue Date: 2026-06-11 Comment

元ポスト:

Loading…

計算リソースやスケールよりも洞察が重要な研究アイデアを共有できるページのようである。興味深い。

Terminal-Bench Science: Evaluating AI Agents on Real-World Computational Workflows in the Natural Sciences, harbor-framework, 2026.05

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Evaluation #ScientificDiscovery #Science #One-Line Notes #Author Thread-Post Issue Date: 2026-05-27 Comment

元ポスト:

Loading…

ターミナル上でのscienceに関するワークフローを定義しAI Agentを評価することで、教科書的な知識を問うのではなく、より複雑で実践的なタスクによる評価をしたい、というモチベーションのpjで、Discordを通じてタスクを生成するcontributorを募集しているようである。

smol-audio, Deep-unlearning, 2026.04

Paper/Blog Link My Issue
#Article #Tutorial #NLP #SpeechProcessing #Finetuning #TTS #AudioLanguageModel Issue Date: 2026-04-28 Comment

元ポスト:

Loading…

claude-code-best-practice, shanraisshan

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Coding #SoftwareEngineering #read-later #Selected Papers/Blogs Issue Date: 2026-04-25 Comment

元ポスト:

Loading…

MMX The official CLI for the MiniMax AI Platform: Built for AI agents. Generate text, images, video, speech, and music — from any agent or terminal., MiniMax-AI, 2026.04

Paper/Blog Link My Issue
#Article #Tools #NLP #LanguageModel #AIAgents #Omni #Initial Impression Notes #AgentHarness Issue Date: 2026-04-11 Comment

元ポスト:

Loading…

MiniMax AIのAPIを用いて、omni-modalなタスクを実行できるCLIツールのようである。

Taking the Pulse of Agentic AI from the Developer Community at the End of Q1 2026, InclusionAI, 2026.04

Paper/Blog Link My Issue
#Article #Survey #Tools #NLP #LanguageModel #Library #AIAgents #GenerativeAI #read-later Issue Date: 2026-04-11 Comment

元ポスト:

Loading…

AutoAgent: first open source library for self-optimizing agents, Kevin Gu, 2026.04

Paper/Blog Link My Issue
#Article #NLP #AIAgents #Selected Papers/Blogs #One-Line Notes #AgentHarness Issue Date: 2026-04-04 Comment

github: https://github.com/kevinrgu/autoagent

Automatic Prompt EngineeringやAutoAgentと同様に、何らかの実施したいタスクのtest suiteがあり、performance metricを取得する前提で、Agnet Harnessを自動的にチューニングするという話のようである。

test dataが十分にある場合は非常に強力だと思われるが、test dataが少量、あるいはない場合では適用は難しい可能性がある。そのような場合はRubric-as-a-Reward+Strong LLMのような方法がtest suiteの代替になるかもしれないが、どこまでうまくいくだろうか。

LiteParse, run-llama, 2026.03

Paper/Blog Link My Issue
#Article #Tools #NLP #DocParser #One-Line Notes Issue Date: 2026-03-19 Comment

元ポスト:

Loading…

GPU無しで500ページを2秒程度で処理でき、50種類以上のフォーマットに対応した非VLM依存のparser

OpenClaw — Personal AI Assistant, openclaw, 2026.03

Paper/Blog Link My Issue
#Article #ComputerVision #Tools #NLP #AIAgents #ComputerUse #Selected Papers/Blogs #WorkspaceAgents Issue Date: 2026-03-19 Comment

2026.04.07:

Loading…

OpenMAIC, THU-MAIC, 2026.03

Paper/Blog Link My Issue
#Article #Multi #Tools #NLP #LanguageModel #Education #AdaptiveLearning #AIAgents #Selected Papers/Blogs #One-Line Notes Issue Date: 2026-03-17 Comment

マルチエージェントによってスケーラブル、adaptiveにオンライン教育を実現するフレームワークのようである

元ポスト:

Loading…

autoresearch, karpathy, 2026.03

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #ScientificDiscovery #Selected Papers/Blogs #One-Line Notes #autoresearch Issue Date: 2026-03-10 Comment

元ポスト:

Loading…

リポジトリのDiscussionsに、定期的にsession reportがアップロードされるようだ:
https://github.com/karpathy/autoresearch/discussions/43

nanochatは現在、126回の実験を経て、Validation BPBが0.997900 -> 0.969686 まで改善しているとのこと。

pjの目的やテーマは、**研究者がpythonファイルのコードをいじるのではなく、program.mdと呼ばれるAgentにコンテキストとして与えるmarkdownファイルのみの編集を通じて、研究組織（≠単一のPh.D student）をエミュレートできるか？** という点にありそうである。
https://github.com/karpathy/autoresearch/blob/master/program.md

その題材の一つとして、nanochatを簡略化したGPTを用いて、GPTの事前学習の性能を改善させるようなtraining.pyの編集をAI Agentsに実施させ、5分間学習させて成果を報告させるという形式をとっている（と解釈した。）

続報:

Loading…

Google Workspace CLI, Google, 2026.03

Paper/Blog Link My Issue
#Article #Tools #NLP #LanguageModel #AIAgents #ContextEngineering #One-Line Notes #AgentSkills Issue Date: 2026-03-06 Comment

元ポスト:

Loading…

google workspaceにone-lineのコマンドでアクセス可能なCLIツールとのこと。40以上のAgentSkillsを内包。

ocr-bench, davanstrien, 2026.03

Paper/Blog Link My Issue
#Article #ComputerVision #Tools #NLP #Evaluation #LLM-as-a-Judge #OCR #One-Line Notes #Initial Impression Notes Issue Date: 2026-03-06 Comment

元ポスト:

Loading…

自分が試したいドキュメントのコレクションに対して、5つほどのOpenなOCRで実際に書き起こしを行い、VLM-as-a-JudgeでスコアリングしELOでの当該ドキュメントセットに対するスコアボードを作成するツール

非常に興味深く実用的だが、個人的にOlmOCRもサポートして欲しいなぁと思うなど。あと、機密性の高い文書などを扱う場面では、セキュリティ面にどれだけ配慮されているのかが気になってしまう。

AReaL: A Large-Scale Asynchronous Reinforcement Learning System, inclusionAI, 2026.03

Paper/Blog Link My Issue
#Article #Tools #NLP #LanguageModel #ReinforcementLearning #Reasoning #OpenSource #read-later #Asynchronous Issue Date: 2026-03-05 Comment

元ポスト:

Loading…

agent-vault, botiverse, 2026.02

Paper/Blog Link My Issue
#Article #Tools #NLP #LanguageModel #AIAgents #Privacy Issue Date: 2026-03-02

TAKT, nrslib, 2026.01

Paper/Blog Link My Issue
#Article #Tools #NLP #LanguageModel #AIAgents #Coding #SoftwareEngineering Issue Date: 2026-03-01 Comment

色々使ってみたいなぁ（小並感）

元ポスト:

Loading…

NDLOCR-Liteの公開について, NDL Lab, 2026.02

Paper/Blog Link My Issue
#Article #NeuralNetwork #ComputerVision #NLP #Blog #Japanese #Selected Papers/Blogs #Encoder-Decoder #OCR #One-Line Notes Issue Date: 2026-02-28 Comment

元ポスト:

Loading…

江戸期以前の和古書、清代以前の漢籍といった古典籍資料のデジタル化画像からテキストデータを作成するOCRとのこと。以前はGPUで動作していたが、CPUで動作するようにした軽量版とのこと。すごい。

AdderBoard, anadim, 2026.02

Paper/Blog Link My Issue
#Article #MachineLearning #Transformer #Mathematics #SoftwareEngineering #Selected Papers/Blogs Issue Date: 2026-02-28 Comment

10桁の加算を実現するtransformerを実現するレースが実施されている模様。もともとはClaude Code, Codexがそれぞれ6k, 1.6kパラメータからスタートしたところ、現在は人間が（おそらく重みを）手書きした139 params, 学習によって実現された311 paramsまで効率化が進んでいる模様。

ルールは
- self-attention-basedなDecoder-only transformerを利用すること
- 10Kのheld out セットにおいて>=99%以上のAccを実現すること
- アルゴリズムのハードコーディングは不可

という感じな模様。

>Self-attention is required. The model must contain at least one self-attention layer. This is the defining feature of a transformer — without it, you have an MLP or RNN, not a transformer.

と書かれているので、linear attentionは実質RNNのようなものなので、linear attentionのような亜種はおそらく不可であり、オリジナルで提案されているself-attentionが必要そうである。

prime-lab-trainer, abideenml, 2026.02

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #AIAgents #ExperimentManagement #SoftwareEngineering #AgentSkills Issue Date: 2026-02-28 Comment

- Introducing Lab: The Full-Stack Platform for Training your Own Models, Prime Intellect, 2026.02

に対して任意のHF Datasetを用いて自動的にRLによるモデルの学習をsubmit可能なClaude Code skillとのこと。

元ポスト:

Loading…

IA Agents Minimal agent framework for the Gemini Interactions API, philschmid, 2026.02

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #read-later #MinimalCode #Initial Impression Notes Issue Date: 2026-02-17 Comment

元ポスト:

Loading…

Gemini Interactions APIを用いたエージェントのminimal code。これは非常に勉強になりそう。

RLHF Book - Code Examples, Nathan Lambert, 2026.01

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #PostTraining #Selected Papers/Blogs #MinimalCode #Initial Impression Notes Issue Date: 2026-01-26 Comment

元ポスト:

Loading…

Qwen 1.7Bモデルでの様々なRLアルゴリズムでのミニマルコード集。学習曲線つきで非常に実用的

SETA: Scaling Environments for Terminal Agents, CAMEL-AI, 2026.01

Paper/Blog Link My Issue
#Article #Tools #NLP #LanguageModel #ReinforcementLearning #AIAgents #SyntheticData #Evaluation #Blog #SoftwareEngineering #PostTraining Issue Date: 2026-01-12 Comment

元ポスト:

Loading…

HF: https://huggingface.co/datasets/camel-ai/seta-env

GitHubのreadmeに日本語がある！？

mini-sglang: A compact implementation of SGLang, designed to demystify the complexities of modern LLM serving systems, sgl-project, 2025

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #python #LLMServing #SoftwareEngineering #read-later #Selected Papers/Blogs #MinimalCode Issue Date: 2025-12-28 Comment

元ポスト:

Loading…

めっちゃ勉強したい

Agent Skills, OpenAI, 2025.12

Paper/Blog Link My Issue
#Article #NLP #AIAgents #AgentSkills Issue Date: 2025-12-21 Comment

元ポスト:

Loading…

CodexにおけるSkillsのカタログ。

Agent Skillsを最初に提唱したのはAnthropicと記憶している:
- Equipping agents for the real world with Agent Skills, Anthropic, 2025.10

GPT-4V-Act, ddupont808, 2023.10

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #ComputerUse #VisionLanguageModel #One-Line Notes #Grounding Issue Date: 2025-11-25 Comment

GPT4V(VLM)と、SoMを用いてVLMによってWebUIとClick/Keyboard操作を通じてinteractできる実装

- [Paper Note] Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V, Jianwei Yang+, arXiv'23, 2023.10

Awesome Spatial Intelligence in VLMs, mll-lab-nu, 2025.11

Paper/Blog Link My Issue
#Article #Survey #ComputerVision #NLP #MultiModal #VisionLanguageModel #SpatialUnderstanding Issue Date: 2025-11-18 Comment

元ポスト:

Loading…

VLM, マルチモーダルなLLMにおけるSpatial Intelligenceに関する論文リスト

LMMs Engine, EvolvingLMMs-Lab, 2025.10

Paper/Blog Link My Issue
#Article #ComputerVision #MachineLearning #NLP #MultiModal #PostTraining #Selected Papers/Blogs #UMM #One-Line Notes Issue Date: 2025-10-27 Comment

元ポスト:

Loading…

事前学習済みのLLM, VLM, dLM, DiffusionModelなどからUMMを学習できる事後学習フレームワーク。
LigerKernelでメモリ使用量を30%削減し、SparseAttentionもサポートし、Muon Optimizerもサポートしている。

nanochat, karpathy, 2025.10

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #Pretraining #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #ChatGPT #mid-training #GRPO #read-later #Selected Papers/Blogs #Inference #MinimalCode #KV Cache Issue Date: 2025-10-22 Comment

元ポスト:

Loading…

新たなスピードランが...!!

FP8で記録更新とのこと:

Loading…

nano chatの過去の改善のポイントまとめ:

Loading…

nanochatにおいてKarpathy氏がAIによる自動改善をするエージェントをセットアップしたところ、12時間で110の変更が加わり、ValLossを0.864215から0.85039まで改善しているとのこと。

Loading…

現在の最高性能は2時間で0.71854なのでまだまだ及んでいないが、このまま回しておいたらどこまで改善するだろうか？

ポストに本人が返信をしているが、Karpathy氏の関心は、どのハーネスがnanochatに最も大きな改善をもたらすか、という点らしい。

supermemory, supermemoryai, 2025.10

Paper/Blog Link My Issue
#Article #NLP #AIAgents #Personalization #API #SoftwareEngineering #memory Issue Date: 2025-10-13

RL Scaling Laws for Mathematical Reasoning, Joan Cabezas, 2025.10

Paper/Blog Link My Issue
#Article #Analysis #MachineLearning #NLP #ReinforcementLearning #Mathematics #Scaling Laws #read-later #reading #One-Line Notes Issue Date: 2025-10-11 Comment

元ポスト:

Loading…

Qwen3をGSM8KでRL Finetuningしたらパラメータ数が小さいモデルは大きなgainを得たが、パラメータが大きいモデルはそれほどでもなかったので、パラメータ数が大きいほどスケールするわけではなく（むしろ恩恵が小さくなる）、かつ報酬をstrictにするとQwenは指示追従能力がないことで学習が全然進まなかった（柔軟なものにしたらそうではなかったので適切な報酬が重要）、GSM8KでRL FinetuninpしたモデルのreasoningはMMLUに転移しなかったので、RL Finetuningは学習データとして与えたドメインのパターンを学習しているだけなのではないか、みたいな話がポストに記述されている。

AI2のResearcherからの所見:

Loading…

元の話とこの辺をしっかり読み解いたらとても勉強になりそうな予感👀

Scaling Laws系の研究:
- [Paper Note] Training Compute-Optimal Large Language Models, Jordan Hoffmann+, NeurIPS'22, 2022.03
- [Paper Note] Scaling Laws for Neural Language Models, Jared Kaplan+, arXiv'20, 2020.01
- [Paper Note] Scaling Data-Constrained Language Models, Niklas Muennighoff+, NeurIPS'23
- [Paper Note] Scaling Laws for Autoregressive Generative Modeling, Tom Henighan+, arXiv'20, 2020.10
- Scaling Laws for Value-Based RL, Fu+, 2025.09 (RL関連)
- [Paper Note] Bayesian scaling laws for in-context learning, Aryaman Arora+, COLM'25, 2024.10 (ICL関連)

画像とかData Mixture, MoEなど他にも色々あるが、一旦上記らへんと元ポスト・AI2からの所見を読み解いたらどういったものが見えてくるだろうか？（全部読んでじっくり考えたいけど時間が無いので...）一旦GPTにきいてみよう

GPTにきいてみた（私は無課金勢だがthinking timeが挟まれたのとデコーディング速度の適度な遅さと、limitに到達しましたというメッセージがなかったことから鑑みるに、以下はGPT-5によって回答されていると考えられる）
https://chatgpt.com/share/68ec5024-83fc-8006-b8c6-14060191fb91

RLのScaling Lawsに関する研究がでました:
- [Paper Note] The Art of Scaling Reinforcement Learning Compute for LLMs, Devvrit Khatri+, arXiv'25, 2025.10

Tora: Torchtune-LoRA for RL, shangshang-wang, 2025.10

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #PEFT(Adaptor/LoRA) Issue Date: 2025-10-10 Comment

元ポスト:

Loading…

PipelineRL, Piche+, ServiceNow, 2025.04

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #AIAgents #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2025-10-05 Comment

code: https://github.com/ServiceNow/PipelineRL

元ポスト:

Loading…

Inflight Weight Updates

（この辺の細かい実装の話はあまり詳しくないので誤りがある可能性が結構あります）
通常のon-policy RLでは全てのGPU上でのsequenceのロールアウトが終わるまで待ち、全てのロールアウト完了後にモデルの重みを更新するため、長いsequenceのデコードをするGPUの処理が終わるまで、短いsequenceの生成で済んだGPUは待機しなければならない。一方、PipelineRLはsequenceのデコードの途中でも重みを更新し、生成途中のsequenceは古いKV Cacheを保持したまま新しい重みでsequenceのデコードを継続する。これによりGPU Utilizationを最大化できる（ロールアウト完了のための待機時間が無くなる）。また、一見古いKV Cacheを前提に新たな重みで継続して部分sequenceを継続するとポリシーのgapにより性能が悪化するように思えるが、性能が悪化しないことが実験的に示されている模様。

Conventional RLの疑似コード部分を見るととてもわかりやすくて参考になる。Conventional RL（PPOとか）では、実装上は複数のバッチに分けて重みの更新が行われる（らしい）。このとき、GPUの利用を最大化しようとするとバッチサイズを大きくせざるを得ない。このため、逐次更新をしたときのpolicyのgapがどんどん蓄積していき大きくなる（=ロールアウトで生成したデータが、実際に重み更新するときにはlagが蓄積されていきどんどんoff-policyデータに変化していってしまう）という弊害がある模様。かといってlagを最小にするために小さいバッチサイズにするとgpuの効率を圧倒的に犠牲にするのでできない。Inflight Weight Updatesではこのようなトレードオフを解決できる模様。

また、trainerとinference部分は完全に独立させられ、かつplug-and-playで重みを更新する、といった使い方も想定できる模様。

あとこれは余談だが、引用ポストの主は下記研究でattentionメカニズムを最初に提案したBahdanau氏である。
- [Paper Note] Neural Machine Translation by Jointly Learning to Align and Translate, Dzmitry Bahdanau+, ICLR'15

続報:

Loading…

論文:
- [Paper Note] PipelineRL: Faster On-policy Reinforcement Learning for Long Sequence Generation, Alexandre Piché+, arXiv'25, 2025.09

続報:

Loading…

元ポスト:

Loading…

FinePDFs, HuggingFaceFW, 2025.09

Paper/Blog Link My Issue
#Article #Pretraining #NLP #Dataset #LanguageModel #Selected Papers/Blogs Issue Date: 2025-09-07 Comment

元ポスト:

Loading…

Thomas Wolf氏のポスト:

Loading…

ODC-By 1.0 license

OpenHands PR Arena, neulab, 2025.09

Paper/Blog Link My Issue
#Article #Dataset #AIAgents #Evaluation #Coding #SoftwareEngineering #Selected Papers/Blogs Issue Date: 2025-09-04 Comment

元ポスト:

Loading…

実際に存在するIssueにタグ付けすることで、リアルタイムに複数LLMによってPRを作成（API callはOpenHandswが負担する）し、ユーザは複数LLMの中で良いものを選択する、といったことができる模様？リーダーボードも将来的に公開するとのことなので、実際にユーザがどのモデルのoutputを選んだかによって勝敗がつくので、それに基づいてランキング付けをするのだろうと推測。興味深い。

slime, THUDM & Zhihu, 2025.09

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #Library #ReinforcementLearning #PostTraining #Asynchronous Issue Date: 2025-09-02 Comment

元ポスト:

Loading…

GLM-4.5のRL学習に利用されたフレームワーク

- [Paper Note] GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models, GLM-4. 5 Team+, arXiv'25

RLinf: Reinforcement Learning Infrastructure for Agentic AI, RLinf, 2025.09

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #Library #ReinforcementLearning #PostTraining #VisionLanguageModel Issue Date: 2025-09-01 Comment

元ポスト:

Loading…

DeepCode, Data Intelligence Lab@HKU, 2025.08

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Coding Issue Date: 2025-08-19 Comment

研究論文からコードを生成するpaper2code、テキストからweb pageを生成するtext2web、textからスケーラブルなバックエンドを構築するtext2backendを現状サポートしているvibe coding frameworkらしい。
論文のベンチマークの再現の自動化やパフォーマンス向上、自動コード検証などが追加されるらしい。

研究の出版に対して再現実験など現状到底間に合わないので、再現性があるかどうかを自動的に検証して欲しいなぁ、とは思っていたので個人的に嬉しい。

reasoning-minimal, torotoki, 2025.08

Paper/Blog Link My Issue
#Article #NLP #ReinforcementLearning #python #GRPO #On-Policy #MinimalCode Issue Date: 2025-08-19 Comment

TRLのGRPOTrainer、および独自定義のReward（フォーマット/acc）を用いたミニマルなGRPOの実装。GRPOを実施する際には参照のこと。

simple-paged-attention, torotoki, 2025.06

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #Attention #python #read-later #MinimalCode Issue Date: 2025-08-19 Comment

CUDA + C++によるミニマルなpaged-attentionの実装。アルゴリズムの理解+実装理解の参考に非常に良さそう。

PagedAttentionは現在の主要なLLM Inference/Serving EngineのひとつであるvLLM で（提案|実装）された技術であり、元論文は下記:
- [Paper Note] Efficient Memory Management for Large Language Model Serving with PagedAttention, Woosuk Kwon+, SOSP'23

この辺もあわせて読むとおもしろいかもしれない:
https://nttdocomo-developers.jp/entry/2024/12/19/090000_6

Qwen Code, Qwen Team, 2025.07

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Coding Issue Date: 2025-07-23

Modded-NanoGPT, KellerJordan, 2024.05

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #Pretraining #NLP #LanguageModel #Transformer #Optimizer #Selected Papers/Blogs #Decoder Issue Date: 2025-07-15 Comment

NanoGPT speedrun

MuonとAdamWのweight decayをHyperball optimizationに置き換えることで記録更新されたようである:

Loading…

Hyperball optimizationについては以下:
- Fantastic Pretraining Optimizers and Where to Find Them 2.1: Hyperball Optimization, Wen+, 2026.01

SOAP preconditioningをMuon直交化の前に加えることでSoTAとのこと。
関連:
- [Paper Note] SOAP: Improving and Stabilizing Shampoo using Adam, Nikhil Vyas+, ICLR'25

Loading…

Nemo-RL, Nvidia, 2025.05

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #Library #PostTraining Issue Date: 2025-06-25

Nano-vLLM, GeeeekExplorer, 2025.06

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #python #Blog #LLMServing #MinimalCode #Initial Impression Notes Issue Date: 2025-06-22 Comment

元ポスト:

Loading…

vLLMと同等のinference speedを実現するミニマムでクリーンな実装。勉強用に良さそう。

POLARIS: A Post-Training Recipe for Scaling Reinforcement Learning on Advanced Reasoning Models,

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #PostTraining #Initial Impression Notes Issue Date: 2025-06-21 Comment

元ポスト:

Loading…

PJで利用されているRLライブラリ:
- verl: Volcano Engine Reinforcement Learning for LLMs, ByteDance Seed Team, 2025.04

AIME2025のみの評価だが4Bでこの性能…？

Deepwiki, Cognition, 2025.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Blog #One-Line Notes Issue Date: 2025-04-26 Comment

githubリポジトリに関するリッチなドキュメントに対してDevinを通じて対話的に質問ができる模様。サインアップ不要で、githubリポジトリのドメインをdeepwikiに変えるだけで利用可能

Open R1, HuggingFace, 2025.01

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #Reasoning #OpenSource #Selected Papers/Blogs #One-Line Notes #Reference Collection Issue Date: 2025-01-26 Comment

HFによるDeepSeekR1を完全に再現する取り組み

Update1: https://huggingface.co/blog/open-r1/update-1

Update2: https://huggingface.co/blog/open-r1/update-2

512機のH100を利用…

Update3: https://huggingface.co/blog/open-r1/update-3

LLM Datasets, mlabonne, 2025.01

Paper/Blog Link My Issue
#Article #NLP #Dataset #LanguageModel #Supervised-FineTuning (SFT) #PostTraining #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-01-25 Comment

LLMの事後学習用のデータをまとめたリポジトリ

現在も更新されている。

Advanced RAG Techniques: Elevating Your Retrieval-Augmented Generation Systems, NirDiamant, 2025.01

Paper/Blog Link My Issue
#Article #Tutorial #InformationRetrieval #NLP #RAG(RetrievalAugmentedGeneration) #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-01-05 Comment

元ポスト:

Loading…

RAGのための細かなテクニックが（コードのサンプルへのリンク付きで）大量にまとまっている。かなり頻繁に更新れているようで非常に良さそう

まだ更新されている。

LiteLLM, BerriAI, 2023.08

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #python #API #One-Line Notes Issue Date: 2025-01-03 Comment

様々なLLMのAPIを共通のインタフェースで呼び出せるライブラリ

- aisuite, andrewyng, 2024.11

とどちらがいいんだ・・・？

aisuiteのissueの113番のスレッドを見ると、

- LiteLLMはもはやLiteではなくなっており、コードベースの保守性が低い

- aisuiteは複数のLLMプロバイダーをシンプルに利用する方法を提供する

- 今後発表されるロードマップを見れば、LiteLLMとの差別化の方向性が分かるはずだ

といった趣旨のことが記述されていた。

v1.82.7--v1.82.8において、機密情報を漏洩させるマルウェアが仕込まれていたとのこと。

Loading…

Karpathy氏の所見:

Loading…

floret, explosion, 2021

Paper/Blog Link My Issue
#Article #NeuralNetwork #Embeddings #Word #Library #RepresentationLearning #One-Line Notes Issue Date: 2024-12-28 Comment

fasttextを拡張したもの。本家fasttextがアーカイブ化してしまったので、代替手段に良さそう。

元ポスト:

Loading…

Genesis, Genesis-Embodied-AI, 2024.12

Paper/Blog Link My Issue
#Article #GenerativeAI #Physics #Reading Reflections #Simulation Issue Date: 2024-12-20 Comment

新たな物理AIエンジン。デモ動画がすごい
https://genesis-embodied-ai.github.io

参考: https://www.linkedin.com/posts/philipp-schmid-a6a2bb196_wtf-new-open-source-physics-ai-engine-absolutely-activity-7275404749858865152-Iprb?utm_source=share&utm_medium=member_ios

GoogleCloudPlatform_generative-ai, Google, 2024.12

Paper/Blog Link My Issue
#Article #Tutorial #GenerativeAI #One-Line Notes Issue Date: 2024-12-12 Comment

Google Cloudで生成AI（Gemini+Vertex AI）を動かすためのサンプルコード集

元ポスト:

Loading…

日本語LLMまとめ, LLM-jp, 2024.12

Paper/Blog Link My Issue
#Article #Survey #NLP #Dataset #LanguageModel #Evaluation #OpenWeight #Japanese #OpenSource #One-Line Notes Issue Date: 2024-12-02 Comment

LLM-jpによる日本語LLM（Encoder-Decoder系, BERT系, Bi-Encoders, Cross-Encodersを含む）のまとめ。
テキスト生成に使うモデル、入力テキスト処理に使うモデル、Embedding作成に特化したモデル、視覚言語モデル、音声言語モデル、日本語LLM評価ベンチマーク/データセットが、汎用とドメイン特化型に分けてまとめられている。
各モデルやアーキテクチャの原論文、学習手法の原論文もまとめられている。すごい量だ…。

LLM Self-Correction Papers, Ryo Kamoi, 2024.11

Paper/Blog Link My Issue
#Article #Survey #NLP #LanguageModel #SelfCorrection #One-Line Notes Issue Date: 2024-11-30 Comment

self-correctionの専門家によるself-correction関連の論文のリーディングリスト。ぜひチェックしたい。

元ポスト:

Loading…

aisuite, andrewyng, 2024.11

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #python #API #One-Line Notes Issue Date: 2024-11-28 Comment

複数のLLM Providerの呼び出しを共通のインタフェースで呼び出せる。変更するのは、モデルを指定するパラメータのみ。

元ポスト: https://www.linkedin.com/posts/andrewyng_announcing-new-open-source-python-package-activity-7266851242604134400-Davp?utm_source=share&utm_medium=member_ios

YomiToku, Kotaro Kinoshita, 2024.11

Paper/Blog Link My Issue
#Article #ComputerVision #Library #OCR #One-Line Notes Issue Date: 2024-11-27 Comment

いわゆるAI-OCRで、縦書きの認識も可能で、表などの構造化された情報も認識可能とのこと。
手書きは認識できるのだろうか?
CC BY-NC-SA 4.0

元ツイート:

Loading…

Lingua, Meta

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #Library #MinimalCode #One-Line Notes Issue Date: 2024-11-05 Comment

研究目的のための、minimal、かつ高速なLLM training/inferenceのコードが格納されたリポジトリ。独自のモデルやデータ、ロスなどが簡単に実装できる模様。

Prompt-Engineering-Guide, DAIR.AI

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Prompting #One-Line Notes Issue Date: 2024-10-20 Comment

LLMのsettingから、few-shot, self-consistencyなどのprompting技術、さまざまなタスクの実例などが網羅的にまとまっている

textlesslib, FAIR, 2022.02

Paper/Blog Link My Issue
#Article #SpeechProcessing #One-Line Notes Issue Date: 2024-10-04 Comment

元ポスト:

Loading…

2024年11月にアーカイブされている。

AutoGen, Microsoft, 2024.10

Paper/Blog Link My Issue
#Article #LanguageModel #Library #AIAgents #Conversation #MCP #One-Line Notes Issue Date: 2024-10-02 Comment

マルチエージェントを構築するためのフレームワーク。MCP Serverとの連携も可能で、AssistantAgent classを入れ子のように設定することで、親エージェントが特定領域に特化した子エージェントをtool useとして呼び出すようなマルチエージェントを構築できるように見受けられる。

ECCV2024-Papers-with-Code, 2024.09

Paper/Blog Link My Issue
#Article #ComputerVision #One-Line Notes Issue Date: 2024-09-30 Comment

ECCV2024の全体像を概観するのに有用

以下、Claude 3.5 Sonnetに目次を入力し一言で各項目を説明させた内容。
hallucinationがあるかもしれないので参考程度で。

--------------------
各項目の概要を一言で説明いたします：

1. 3DGS(Gaussian Splatting): 3D空間内のガウス関数を用いた新しい3Dレンダリング手法。

2. Mamba / SSM: 長期依存関係を効率的に処理する新しい系列モデルアーキテクチャ。

3. Avatars: デジタル環境でユーザーを表現する仮想キャラクター。

4. Backbone: ディープラーニングモデルの主要な特徴抽出部分。

5. CLIP: 画像とテキストを同じ空間に埋め込む大規模マルチモーダルモデル。

6. MAE: 画像の一部を隠してから再構築する自己教師あり学習手法。

7. Embodied AI: 物理的な環境と相互作用する AI システム。

8. GAN: 生成モデルと識別モデルを競争させて学習する生成モデル。

9. GNN: グラフ構造データを処理するための神経ネットワーク。

10. 多模态大语言模型(MLLM): テキスト、画像、音声など複数のモダリティを扱う大規模言語モデル。

11. 大语言模型(LLM): 大量のテキストデータで学習された大規模な言語モデル。

12. NAS: 最適なニューラルネットワークアーキテクチャを自動探索する技術。

13. OCR: 画像内のテキストを認識し、デジタルテキストに変換する技術。

14. NeRF: 3D空間をニューラルネットワークで表現する手法。

15. DETR: Transformerを用いた新しい物体検出アーキテクチャ。

16. Prompt: AIモデルに与える指示や文脈を設定するテキスト。

17. 扩散模型(Diffusion Models): ノイズを徐々に除去して画像を生成する生成モデル。

18. ReID(重识别): 異なる画像や映像間で同一の人物や物体を再識別する技術。

19. 长尾分布(Long-Tail): データセット内で頻度の低いクラスや事例を扱う問題。

20. Vision Transformer: 画像処理にTransformerアーキテクチャを適用したモデル。

21. 视觉和语言(Vision-Language): 画像と言語を組み合わせて処理するタスク。

22. 自监督学习(Self-supervised Learning): ラベルなしデータから有用な表現を学習する手法。

23. 数据增强(Data Augmentation): 学習データを人工的に増やす技術。

24. 目标检测(Object Detection): 画像内の物体の位置と種類を特定する技術。

25. 异常检测(Anomaly Detection): 通常とは異なるパターンやデータを検出する技術。

26. 目标跟踪(Visual Tracking): 映像内の物体の動きを追跡する技術。

27. 语义分割(Semantic Segmentation): 画像内の各ピクセルをカテゴリに分類する技術。

28. 实例分割(Instance Segmentation): 画像内の個々の物体インスタンスを分割する技術。

29. 全景分割(Panoptic Segmentation): 意味分割とインスタンス分割を組み合わせた技術。

30. 医学图像(Medical Image): 医療目的で撮影された画像。

31. 医学图像分割(Medical Image Segmentation): 医療画像内の臓器や病変部位を分割する技術。

32. 视频目标分割(Video Object Segmentation): 動画内の物体を追跡し分割する技術。

33. 视频实例分割(Video Instance Segmentation): 動画内の個々の物体インスタンスを分割する技術。

34. 参考图像分割(Referring Image Segmentation): 言語記述に基づいて画像内の物体を分割する技術。

35. 图像抠图(Image Matting): 画像から前景を精密に抽出する技術。

36. 图像编辑(Image Editing): 画像の内容を変更または操作する技術。

37. Low-level Vision: 画像の低レベル特徴や処理を扱う分野。

38. 超分辨率(Super-Resolution): 低解像度画像から高解像度画像を生成する技術。

39. 去噪(Denoising): 画像からノイズを除去する技術。

40. 去模糊(Deblur): ぼけた画像をシャープにする技術。

41. 自动驾驶(Autonomous Driving): 人間の操作なしで車両を制御する技術。

42. 3D点云(3D Point Cloud): 3D空間内の点の集合でオブジェクトや環境を表現するデータ形式。

43. 3D目标检测(3D Object Detection): 3D空間内の物体の位置と種類を特定する技術。

44. 3D语义分割(3D Semantic Segmentation): 3Dデータの各点をカテゴリに分類する技術。

45. 3D目标跟踪(3D Object Tracking): 3D空間内の物体の動きを追跡する技術。

46. 3D语义场景补全(3D Semantic Scene Completion): 部分的な3Dデータから完全な3Dシーンを推定する技術。

47. 3D配准(3D Registration): 複数の3Dデータセットを整列させる技術。

48. 3D人体姿态估计(3D Human Pose Estimation): 3D空間内の人体の姿勢を推定する技術。

49. 3D人体Mesh估计(3D Human Mesh Estimation): 3D人体メッシュモデルを推定する技術。

50. 图像生成(Image Generation): AIを用いて新しい画像を生成する技術。

51. 视频生成(Video Generation): AIを用いて新しい動画を生成する技術。

52. 3D生成(3D Generation): AIを用いて新しい3Dモデルを生成する技術。

53. 视频理解(Video Understanding): 動画の内容を解析し理解する技術。

54. 行为识别(Action Recognition): 動画内の人物の行動を識別する技術。

55. 行为检测(Action Detection): 動画内の特定の行動を検出し位置特定する技術。

56. 文本检测(Text Detection): 画像内のテキストの位置を検出する技術。

57. 知识蒸馏(Knowledge Distillation): 大きなモデルの知識を小さなモデルに転移する技術。

58. 模型剪枝(Model Pruning): モデルの重要でないパラメータを削除して軽量化する技術。

59. 图像压缩(Image Compression): 画像データを効率的に圧縮する技術。

60. 三维重建(3D Reconstruction): 2D画像から3Dモデルを構築する技術。

61. 深度估计(Depth Estimation): 2D画像から奥行き情報を推定する技術。

62. 轨迹预测(Trajectory Prediction): 物体や人の将来の動きを予測する技術。

63. 车道线检测(Lane Detection): 道路上の車線を検出する技術。

64. 图像描述(Image Captioning): 画像の内容を自然言語で説明する技術。

65. 视觉问答(Visual Question Answering): 画像に関する質問に答える技術。

66. 手语识别(Sign Language Recognition): 手話のジェスチャーを認識し解釈する技術。

67. 视频预测(Video Prediction): 動画の将来のフレームを予測する技術。

68. 新视点合成(Novel View Synthesis): 既存の画像から新しい視点の画像を生成する技術。

69. Zero-Shot Learning(零样本学习): 学習時に見たことのないクラスを認識する学習手法。

70. 立体匹配(Stereo Matching): ステレオ画像から深度情報を抽出する技術。

71. 特征匹配(Feature Matching): 異なる画像間で対応する特徴点を見つける技術。

72. 场景图生成(Scene Graph Generation): 画像内の物体間の関係を構造化して表現する技術。

73. 计数(Counting): 画像内の特定オブジェクトの数を数える技術。

74. 隐式神经表示(Implicit Neural Representations): 連続関数としてシーンや形状を表現する手法。

75. 图像质量评价(Image Quality Assessment): 画像の品質を客観的に評価する技術。

76. 视频质量评价(Video Quality Assessment): 動画の品質を客観的に評価する技術。

77. 数据集(Datasets): 機械学習モデルの学習や評価に使用されるデータの集合。

続いて、各項目をもう少し詳細に説明するように生成したテキスト

---------
はい、各項目についてより詳細な説明を提供いたします。

1. 3DGS(Gaussian Splatting):
3D空間内にガウス関数を配置し、これらを2D画像に投影することで3Dシーンを表現する手法です。従来のNeRFよりも高速でクオリティの高い3Dレンダリングを実現します。

2. Mamba / SSM:
State Space Model (SSM)に基づく新しい系列モデルアーキテクチャです。Transformerと比較して長い系列を効率的に処理でき、様々なタスクで高いパフォーマンスを示しています。

3. Avatars:
オンライン空間やゲーム、VR環境などでユーザーを表現する仮想キャラクターです。最近では、AIを用いてよりリアルで自然なアバターの生成や制御が可能になっています。

4. Backbone:
深層学習モデルの主要な特徴抽出部分を指します。ResNet、VGG、EfficientNetなどが代表的で、様々なタスクの基礎となる重要な役割を果たします。

5. CLIP:
OpenAIが開発した大規模なマルチモーダルモデルで、画像とテキストを同じ特徴空間に埋め込むことができます。これにより、柔軟な画像検索や分類が可能になります。

6. MAE (Masked Autoencoder):
画像の一部をマスクし、それを再構築するタスクを通じて自己教師あり学習を行う手法です。事前学習モデルとして高い性能を示しています。

7. Embodied AI:
物理的な環境と直接相互作用するAIシステムを指します。ロボティクスや自動運転など、実世界でのタスク遂行に焦点を当てています。

8. GAN (Generative Adversarial Networks):
生成モデルと識別モデルを競争させることで学習を行う生成モデルです。高品質な画像生成など、様々な分野で応用されています。

9. GNN (Graph Neural Networks):
グラフ構造のデータを処理するための神経ネットワークです。ソーシャルネットワーク分析や分子構造予測など、関係性のあるデータの処理に適しています。

10. 多模态大语言模型(MLLM):
テキストだけでなく、画像、音声、動画などの複数のモダリティを理解し処理できる大規模言語モデルです。より豊かなコミュニケーションや理解が可能になります。

11. 大语言模型(LLM):
GPT-3やLLaMAなど、大量のテキストデータで学習された巨大な言語モデルです。自然言語処理の多くのタスクで高い性能を示しています。

12. NAS (Neural Architecture Search):
機械学習を用いて最適なニューラルネットワークの構造を自動的に探索する技術です。人手によるモデル設計の労力を軽減し、より効率的なモデルの発見を目指します。

13. OCR (Optical Character Recognition):
画像内のテキストを認識し、機械可読なテキストに変換する技術です。文書のデジタル化や自動データ入力などに広く使用されています。

14. NeRF (Neural Radiance Fields):
3D空間をニューラルネットワークで表現する手法です。少数の2D画像から高品質な3Dシーンの再構築と新視点の合成が可能です。

15. DETR (DEtection TRansformer):
Transformerアーキテクチャを物体検出タスクに適用したモデルです。従来の手法と比べてシンプルでありながら高い性能を示しています。

16. Prompt:
AIモデル、特に大規模言語モデルに与える指示や文脈を設定するテキストです。適切なプロンプト設計により、モデルの出力を制御し、望ましい結果を得ることができます。

17. 扩散模型(Diffusion Models):
ノイズを徐々に除去しながら画像を生成する生成モデルです。DALL-E 2やStable Diffusionなど、高品質な画像生成で注目を集めています。

18. ReID (重识别):
異なる画像や映像間で同一の人物や物体を再識別する技術です。監視カメラシステムや顧客追跡などに応用されています。

19. 长尾分布(Long-Tail):
データセット内で頻度の低いクラスや事例を扱う問題です。現実世界のデータ分布に対応するため、機械学習モデルの公平性と汎化性能の向上が課題となっています。

20. Vision Transformer:
自然言語処理で成功を収めたTransformerアーキテクチャを画像処理に適用したモデルです。CNNと比較して、大規模データセットでの学習時に高い性能を示しています。

21. 视觉和语言(Vision-Language):
画像と言語を組み合わせて処理するタスクや研究分野です。画像キャプション生成、視覚的質問応答、画像-テキスト検索などが含まれます。

22. 自监督学习(Self-supervised Learning):
大量のラベルなしデータから有用な特徴表現を学習する手法です。事前学習モデルの作成に広く使用され、少量のラベル付きデータでの fine-tuning で高い性能を実現します。

23. 数据增强(Data Augmentation):
既存の学習データに変形や変更を加えて人工的にデータセットを拡張する技術です。モデルの汎化性能向上やオーバーフィッティングの抑制に効果があります。

24. 目标检测(Object Detection):
画像内の物体の位置と種類を特定する技術です。矩形のバウンディングボックスで物体の位置を示し、各物体のクラスを予測します。自動運転や監視システムなどで広く使用されています。

25. 异常检测(Anomaly Detection):
データセット内の通常とは異なるパターンやデータポイントを検出する技術です。不正検知、産業用機器の故障予測、医療診断などに応用されています。

26. 目标跟踪(Visual Tracking):
動画シーケンス内で物体の動きを追跡する技術です。自動運転、スポーツ分析、監視システムなど、様々な分野で活用されています。

27. 语义分割(Semantic Segmentation):
画像内の各ピクセルをあらかじめ定義されたカテゴリに分類する技術です。自動運転における道路環境の理解や医療画像解析などに応用されています。

28. 实例分割(Instance Segmentation):
画像内の個々の物体インスタンスを分割し、それぞれに固有のラベルを付与する技術です。物体検出と意味分割を組み合わせたタスクと言えます。

29. 全景分割(Panoptic Segmentation):
意味分割とインスタンス分割を統合した技術で、画像内のすべてのピクセルに対してクラスとインスタンスIDを割り当てます。シーンの完全な理解を目指しています。

30. 医学图像(Medical Image):
X線、CT、MRI、超音波などの医療目的で撮影された画像を指します。診断、治療計画、医学研究などに使用されます。

31. 医学图像分割(Medical Image Segmentation):
医療画像内の臓器、腫瘍、血管などの特定の構造や病変部位を分割する技術です。診断支援や手術計画立案に重要な役割を果たします。

32. 视频目标分割(Video Object Segmentation):
動画シーケンス内の特定の物体を追跡し、フレームごとに分割する技術です。ビデオ編集やアウグメンテッドリアリティなどに応用されています。

33. 视频实例分割(Video Instance Segmentation):
動画内の個々の物体インスタンスを追跡し、フレームごとに分割するタスクです。ビデオ解析や自動運転システムでの環境理解に役立ちます。

34. 参考图像分割(Referring Image Segmentation):
自然言語による記述に基づいて、画像内の特定の物体や領域を分割する技術です。人間とAIのインタラクションを促進します。

35. 图像抠图(Image Matting):
画像から前景オブジェクトを精密に抽出する技術です。背景置換や合成など、画像編集タスクで重要な役割を果たします。

36. 图像编辑(Image Editing):
画像の内容を変更または操作する技術の総称です。物体の除去・追加、スタイル変換、色調整など、様々な編集操作が含まれます。

37. Low-level Vision:
画像の低レベル特徴や基本的な処理を扱う分野です。ノイズ除去、超解像、エッジ検出などの基礎的なタスクが含まれます。

38. 超分辨率(Super-Resolution):
低解像度の画像から高解像度の画像を生成する技術です。監視カメラ映像の鮮明化や古い写真の復元などに応用されています。

39. 去噪(Denoising):
画像からノイズを除去し、クリアな画像を得る技術です。低光量撮影や医療画像の品質向上など、様々な場面で使用されています。

40. 去模糊(Deblur):
ぼけた画像をシャープにする技術です。手ブレや被写体ブレの補正、古い写真の復元などに活用されています。

41. 自动驾驶(Autonomous Driving):
人間の操作なしで車両を制御する技術です。コンピュータビジョン、センサー融合、決定システムなど、多岐にわたる技術の統合が必要です。

42. 3D点云(3D Point Cloud):
3D空間内の点の集合でオブジェクトや環境を表現するデータ形式です。LiDARなどのセンサーから取得され、3D認識タスクの基礎となります。

43. 3D目标检测(3D Object Detection):
3D空間内の物体の位置、サイズ、向きを特定する技術です。自動運転や拡張現実などの分野で重要な役割を果たします。

44. 3D语义分割(3D Semantic Segmentation):
3Dデータの各点や領域をあらかじめ定義されたカテゴリに分類する技術です。自動運転での環境理解やロボティクスでの物体認識に応用されています。

45. 3D目标跟踪(3D Object Tracking):
時系列の3Dデータ内で物体の動きを追跡する技術です。自動運転システムにおける他の車両や歩行者の動きの予測などに使用されます。

46. 3D语义场景补全(3D Semantic Scene Completion):
部分的な3Dデータから、オクルージョンや欠損のある領域を含む完全な3Dシーンを推定する技術です。ロボットナビゲーションや拡張現実に応用されています。

47. 3D配准(3D Registration):
複数の3Dデータセット（点群や表面モデルなど）を正確に整列させる技術です。3Dスキャンデータの統合や位置合わせに使用されます。

48. 3D人体姿态估计(3D Human Pose Estimation):
2D画像や3Dデータから人体の3次元的な姿勢を推定する技術です。モーションキャプチャ、アニメーション、スポーツ分析などに応用されています。

49. 3D人体Mesh估计(3D Human Mesh Estimation):
2D画像や3Dスキャンデータから詳細な3D人体メッシュモデルを推定する技術です。バーチャルフィッティングやアニメーション制作などに活用されています。

50. 图像生成(Image Generation):
AIを用いて新しい画像を生成する技術です。GANやDiffusion Modelなどが代表的で、アート創作やデータ拡張に応用されています。

51. 视频生成(Video Generation):
AIを用いて新しい動画を生成する技術です。短い入力クリップからの動画の延長や、テキスト記述からの動画生成などが研究されています。

52. 3D生成(3D Generation):
AIを用いて新しい3Dモデルを生成する技術です。製品デザイン、ゲーム開発、建築設計などの分野で注目されています。

53. 视频理解(Video Understanding):
動画の内容を解析し、シーンの構造、物体の関係、イベントの進行などを理解する技術です。ビデオ検索や自動要約などに応用されています。

54. 行为识别(Action Recognition):
動画内の人物の行動を識別する技術です。監視システム、スポーツ分析、ヒューマン・コンピュータ・インタラクションなどで活用されています。

55. 行为检测(Action Detection):
動画内の特定の行動をリアルタイムで検出し、その時間的・空間的位置を特定する技術です。セキュリティシステムや異常行動の検知などに応用されています。

はい、続きを説明いたします。

56. 文本检测(Text Detection):
画像や動画内のテキストの位置を検出する技術です。OCRシステムの前処理として重要で、看板の認識や文書分析などに使用されます。

57. 知识蒸馏(Knowledge Distillation):
大規模で複雑な「教師」モデルの知識を、より小さな「生徒」モデルに転移する技術です。モデルの軽量化と性能維持の両立を目指します。

58. 模型剪枝(Model Pruning):
学習済みモデルから重要度の低いパラメータや層を削除し、モデルを軽量化する技術です。モバイルデバイスでの効率的な実行などに役立ちます。

59. 图像压缩(Image Compression):
画像データを効率的に圧縮し、ストレージやネットワーク帯域幅を節約する技術です。最近では機械学習を用いた新しい圧縮手法も研究されています。

60. 三维重建(3D Reconstruction):
2D画像や動画から3Dモデルを構築する技術です。建築、考古学、映画制作など、様々な分野で活用されています。

61. 深度估计(Depth Estimation):
単眼または複眼の2D画像から、シーンの奥行き情報を推定する技術です。3D再構成や拡張現実などのアプリケーションで重要な役割を果たします。

62. 轨迹预测(Trajectory Prediction):
物体や人の過去の動きに基づいて、将来の動きを予測する技術です。自動運転、群衆行動分析、スポーツ戦略立案などに応用されています。

63. 车道线检测(Lane Detection):
道路上の車線を検出し追跡する技術です。自動運転システムや先進運転支援システム（ADAS）において重要な要素となっています。

64. 图像描述(Image Captioning):
画像の内容を自然言語で説明する文章を自動生成する技術です。視覚障害者支援や画像検索の高度化などに応用されています。

65. 视觉问答(Visual Question Answering):
画像に関する自然言語の質問に対して、適切な回答を生成する技術です。画像理解とテキスト生成の両方の能力が必要とされます。

66. 手语识别(Sign Language Recognition):
手話のジェスチャーを認識し、それを文字や音声に変換する技術です。聴覚障害者とのコミュニケーション支援に役立ちます。

67. 视频预测(Video Prediction):
過去のフレームに基づいて、動画の将来のフレームを予測する技術です。動画圧縮、異常検知、自動運転など、様々な応用が考えられています。

68. 新视点合成(Novel View Synthesis):
既存の画像や限られた視点の情報から、新しい視点の画像を生成する技術です。仮想現実や自由視点映像などに応用されています。

69. Zero-Shot Learning(零样本学习):
学習時に見たことのないクラスを認識する学習手法です。事前に学習していない新しいカテゴリの物体を識別する能力を持ちます。

70. 立体匹配(Stereo Matching):
ステレオカメラで撮影された左右の画像から対応点を見つけ、深度情報を抽出する技術です。3D再構成や深度推定の基礎となります。

71. 特征匹配(Feature Matching):
異なる画像間で対応する特徴点を見つける技術です。画像のスティッチング、物体追跡、SLAMなど、様々なコンピュータビジョンタスクの基礎となります。

72. 场景图生成(Scene Graph Generation):
画像内の物体間の関係を構造化して表現する技術です。シーンの意味的理解や高度な画像検索などに応用されています。

73. 计数(Counting):
画像や動画内の特定オブジェクトの数を自動的に数える技術です。群衆の推定、在庫管理、生物学的サンプルの計数などに使用されています。

74. 隐式神经表示(Implicit Neural Representations):
3Dシーンや形状を連続関数としてニューラルネットワークで表現する手法です。NeRFはこの手法の一例で、効率的なシーン表現が可能です。

75. 图像质量评价(Image Quality Assessment):
画像の品質を客観的に評価する技術です。画像処理アルゴリズムの性能評価や、品質に基づいた画像フィルタリングなどに使用されます。

76. 视频质量评价(Video Quality Assessment):
動画の品質を客観的に評価する技術です。ストリーミングサービスの品質監視や、ビデオ圧縮アルゴリズムの最適化などに応用されています。

77. 数据集(Datasets):
機械学習モデルの学習や評価に使用されるデータの集合です。ImageNet、COCO、KITTI

など、各タスクに特化した大規模データセットが開発され、研究や技術開発を加速しています。

これらの技術は相互に関連し合い、コンピュータビジョンと機械学習の分野を形作っています。多くの応用分野で革新的なソリューションを生み出すとともに、新たな課題にも直面しており、今後さらなる発展が期待されています。

mise-en-place

Paper/Blog Link My Issue
#Article #Tools Issue Date: 2024-09-15 Comment

pj単位で開発ツール、環境変数、タスクのバージョン管理ができる模様。とても便利そう。使いたい。

PaperQA2, Future-House, 2023.02

Paper/Blog Link My Issue
#Article #NLP #QuestionAnswering #AIAgents #GenerativeAI #RAG(RetrievalAugmentedGeneration) #Author Thread-Post Issue Date: 2024-09-11 Comment

元ポスト:

Loading…

ml-engineering

Paper/Blog Link My Issue
#Article #Tutorial #ComputerVision #MachineLearning #NLP #LanguageModel #One-Line Notes Issue Date: 2024-09-07 Comment

LLMやVLMを学習するためのツールやノウハウがまとめられたリポジトリ

NanoFlow, 2024.08

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #python #LLMServing #KeyPoint Notes Issue Date: 2024-08-31 Comment

vLLMよりも2倍程度高速なLLM serving framework。

オフライン評価

オンラインでのlatency評価

機能はvLLMの方が多いが、速度はこちらの方がかなり速そうではある。latencyのrequirementが厳しい場合などは検討しても良いかもしれない。

しかしLLM serving frameworkも群雄割拠ですね。

元ポスト:

Loading…

- DeepSpeed, vLLM, CTranslate2 で rinna 3.6b の生成速度を比較する, 2024.06

も参照のこと

2025年9月を最後にコミットがないようだ。

Firecrawl, 2024.09

Paper/Blog Link My Issue
#Article #Dataset #LanguageModel #API #One-Line Notes Issue Date: 2024-08-30 Comment

sitemapなしでWebサイト全体をクローリングできるAPI。LLMで利用可能なマークダウンや、構造化データに変換もしてくれる模様。

kotaemon, 2024.05

Paper/Blog Link My Issue
#Article #Tools #NLP #RAG(RetrievalAugmentedGeneration) #python #One-Line Notes Issue Date: 2024-08-29 Comment

RAGのための美しいユーザと開発者向けのUI。カスタマイズも可能らしい

2026年3月時点でもアップデートが継続されており、Star数は25.2kを記録している。

LitServe, 2024.04

Paper/Blog Link My Issue
#Article #MachineLearning #Library #MultiModal #API #One-Line Notes #EfficientEvaluation Issue Date: 2024-08-25 Comment

FastAPIより2倍早いAPIライブラリ。LLMやVisionなど多くのモーダルに対応し、マルチワーカーでオートスケーリングやバッチングやストリーミングにも対応。PyTorchモデルだけでなく、JAXなど様々なフレームワークのモデルをデプロイ可能
元ツイート:

Loading…

Liger-Kernel, 2024.08

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #Supervised-FineTuning (SFT) #PostTraining #Selected Papers/Blogs #One-Line Notes Issue Date: 2024-08-25 Comment

LLMを学習する時に、ワンライン追加するだけで、マルチGPUトレーニングのスループットを20%改善し、メモリ使用量を60%削減するらしい

元ツイート:

Loading…

Unsloth Unsloth, unslothai, 2024.07 はLoRA/QLoRAが可能な一方でまだMulti-GPUはサポートしていない。一方、Liger-KernelはLoRAよりもfull-parameter tuningとMulti-GPUにフォーカスしており、目的に応じて使い分けが必要。

https://github.com/linkedin/Liger-Kernel/issues/57

list of recommender systems

Paper/Blog Link My Issue
#Article #RecommenderSystems #Survey #Dataset #Library #OpenSource #One-Line Notes Issue Date: 2024-08-07 Comment

推薦システムに関するSaaS, OpenSource, Datasetなどがまとめられているリポジトリ

OpenDevin: Code Less, Make More, 2024

Paper/Blog Link My Issue
#Article #NaturalLanguageGeneration #NLP #LanguageModel #AIAgents #One-Line Notes Issue Date: 2024-07-04 Comment

LLMによるOpenSourceなソフトウェア生成エージェントプラットフォーム

full timeのスタッフを雇用しworldクラスのUXを目指すとのこと。楽しみ。
参考:

Loading…

Open化される前の最初のDevinのツイート

Loading…

mergekit-evolve

Paper/Blog Link My Issue
#Article #LanguageModel #Library #ModelMerge #One-Line Notes Issue Date: 2024-04-29 Comment

[Paper Note] Evolutionary Optimization of Model Merging Recipes, Takuya Akiba+, N/A, Nature Machine Intelligence, Vol.7, 2025.01 のように進化的アルゴリズムでモデルマージができるライブラリ
解説記事: https://note.com/npaka/n/nad2ff954ab81

大きなVRAMが無くとも、大きめのSRAMがあれば動作するらしい

AirLLM, 2024.04

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #Library #One-Line Notes Issue Date: 2024-04-28 Comment

4GBのSingle GPUで、70Bモデルのinferenceを実現できるライブラリ。トークンの生成速度は検証する必要がある。transformer decoderの各layerの演算は独立しているため、GPUに全てのlayerを載せず、必要な分だけ載せてinferenceするといった操作を繰り返す模様。

元ツイート:

Loading…

Open Source Cookbook

Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #GenerativeAI #OpenSource #Selected Papers/Blogs #One-Line Notes Issue Date: 2024-04-14 Comment

HuggingFaceによる様々な実用的なアプリケーションをオープンソースの実装やモデルで実現するノートブックがまとまったリポジトリ。LLM-as-a-judge, RAG, PEFTによるPrompt Tuning（Prefix Tuningとかそっち系の話だと思われる）など、現在16種類ほどあるらしい。

改めて見たら数がかなり増えていた

Recommenders, recommenders-team, 2018.12

Paper/Blog Link My Issue
#Article #RecommenderSystems #Library #One-Line Notes Issue Date: 2024-01-15 Comment

古典的な手法から、Deepな手法まで非常に幅広く網羅された推薦アルゴリズムのフレームワーク。元々Microsoft配下だった模様。

現在もメンテナンスが続いており、良さそう

A Review of Public Japanese Training Sets, shisa, 2023.12

Paper/Blog Link My Issue
#Article #Pretraining #NLP #Dataset #LanguageModel #InstructionTuning #Japanese Issue Date: 2023-12-11

GPT4All: Training an Assistant-style Chatbot with Large Scale Data Distillation from GPT-3.5-Turbo, Anand+, 2023.10

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #Tools #NLP #LanguageModel #One-Line Notes Issue Date: 2023-11-21 Comment

ローカルマシンでChatGPT likeなUIでチャットボットを動作させられるOpensource。
Mistral7BやGGUFフォーマットのモデルのよつな（おそらく量子化されたものも含む）ローカルマシンで動作させられる規模感のモデルがサポートされている。
https://gpt4all.io/index.html

LLaMA-Factory, hiyouga, 2023.07

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #Supervised-FineTuning (SFT) #One-Line Notes Issue Date: 2023-11-14 Comment

簡単に利用できるLLaMAのfinetuning frameworkとのこと。
元ツイート:

Loading…

LLaMAベースなモデルなら色々対応している模様

Hallucination Leaderboard, 2023

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Hallucination #Factuality #One-Line Notes Issue Date: 2023-11-14 Comment

1000個の短いドキュメントに対して、事実情報のみを用いて要約を生成させ、要約結果と原文書のFactual consistencyを別に訓練したモデルで測定して評価してリーダーボードを作成している。

Claude2よりLLaMA2の方が性能が良いのが面白いし、Palmの性能があまり良くない。

元ツイート:

Loading…

CTO handbook

Paper/Blog Link My Issue
#Article #Mindset #Blog Issue Date: 2023-10-24

MentalLLaMA, 2023

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Health #One-Line Notes Issue Date: 2023-10-09 Comment

メンタルヘルスの分析に対してinstruction tuningしたはじめてのLLM

Japanese Simple SimCSE, hppRC, 2023.10

Paper/Blog Link My Issue
#Article #Sentence #Embeddings #NLP #RepresentationLearning #OpenWeight #Japanese #One-Line Notes Issue Date: 2023-10-07 Comment

日本語の事前学習言語モデルと、日本語の学習データを利用してSimCSEを学習し網羅的に評価をした結果が記載されている。Supervised SimCSE, UnsupervisednSimCSEの両方で実験。また、学習するデータセットを変更したときの頑健性も検証。性能が良かったモデルはSentenceTransformersから利用可能な形で公開されている。

Auto train advanced

Paper/Blog Link My Issue
#Article #MachineLearning #Tools #LanguageModel #Supervised-FineTuning (SFT) #Blog #PEFT(Adaptor/LoRA) #One-Line Notes #needs-revision Issue Date: 2023-07-11 Comment

Hugging Face Hub上の任意のLLMに対して、localのカスタムトレーニングデータを使ってfinetuningがワンラインでできる。
peftも使える。

現在はもうメンテナンスされていないようだ。

OpenSource PaLM, 2023

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #OpenWeight #OpenSource #One-Line Notes #needs-revision Issue Date: 2023-05-08 Comment

150m,410m,1bのモデルがある。Googleの540bには及ばず、emergent abilityもなかぬか期待できなさそなパラメータ数だが、どの程度の性能なのだろうか。

現在モデルファイルはHF上から削除されているようだ。

Awesome Vector Search Engine

Paper/Blog Link My Issue
#Article #Survey #Embeddings #InformationRetrieval #Search #Library #One-Line Notes Issue Date: 2023-04-27 Comment

ベクトルの類似度を測るサービスやライブラリ等がまとまったリポジトリ

nlpaug

Paper/Blog Link My Issue
#Article #NLP #Library #DataAugmentation #One-Line Notes Issue Date: 2023-01-21 Comment

Data Augmentationのためのオープンソースライブラリ

deploy-API-to-GCP

Paper/Blog Link My Issue
#Article #Tools #Infrastructure #ML-LLM Ops #Blog #API #SoftwareEngineering Issue Date: 2022-12-01 Comment

FlaskAPIを（Flaskでなくても良い）Google Cloud Run上で、TerraFormで定義したインフラ環境でデプロイするためのリポジトリ

0. リポジトリをclone
1. Flaskアプリ作成
2. FlaskアプリをDocker化
3. TerraFormのStateを保存するためのCloudStorage作成
4. TerraFormのコード作成
5. GitHub Actionでデプロイ（CI/CD）

5によってmainブランチに対するプルリクが本番環境にデプロイされる。

Cloud Runについて
https://dev.classmethod.jp/articles/gc-cloud-run/

pytorch-fm, 2020

Paper/Blog Link My Issue
#Article #RecommenderSystems #CollaborativeFiltering #Library #FactorizationMachines #One-Line Notes Issue Date: 2021-07-03 Comment

下記モデルが実装されているすごいリポジトリ。論文もリンクも記載されており、Factorization Machinesを勉強する際に非常に参考になると思う。MITライセンス。各手法はCriteoのCTRPredictionにおいて、AUC0.8くらい出ているらしい。

- Logistic Regression

- Factorization Machine

- Field-aware Factorization Machine

- Higher-Order Factorization Machines

- Factorization-Supported Neural Network

- Wide&Deep

- Attentional Factorization Machine

- Neural Factorization Machine

- Neural Collaborative Filtering

- Field-aware Neural Factorization Machine

- Product Neural Network

- Deep Cross Network

- DeepFM

- xDeepFM

- AutoInt (Automatic Feature Interaction Model)

- AFN(AdaptiveFactorizationNetwork Model)

OpenKE, 2021

Paper/Blog Link My Issue
#Article #Embeddings #MachineLearning #Tools #Library #KnowledgeGraph #One-Line Notes Issue Date: 2021-06-10 Comment

Wikipedia, Freebase等のデータからKnowledge Embeddingを学習できるオープンソースのライブラリ

Repository

Research ideas you can't be outscaled on., Anthea Li, 2026.06

Terminal-Bench Science: Evaluating AI Agents on Real-World Computational Workflows in the Natural Sciences, harbor-framework, 2026.05

smol-audio, Deep-unlearning, 2026.04

claude-code-best-practice, shanraisshan

MMX The official CLI for the MiniMax AI Platform: Built for AI agents. Generate text, images, video, speech, and music — from any agent or terminal., MiniMax-AI, 2026.04

Taking the Pulse of Agentic AI from the Developer Community at the End of Q1 2026, InclusionAI, 2026.04

AutoAgent: first open source library for self-optimizing agents, Kevin Gu, 2026.04

LiteParse, run-llama, 2026.03

OpenClaw — Personal AI Assistant, openclaw, 2026.03

OpenMAIC, THU-MAIC, 2026.03

autoresearch, karpathy, 2026.03

Google Workspace CLI, Google, 2026.03

ocr-bench, davanstrien, 2026.03

AReaL: A Large-Scale Asynchronous Reinforcement Learning System, inclusionAI, 2026.03

agent-vault, botiverse, 2026.02

TAKT, nrslib, 2026.01

NDLOCR-Liteの公開について, NDL Lab, 2026.02

AdderBoard, anadim, 2026.02

prime-lab-trainer, abideenml, 2026.02

IA Agents Minimal agent framework for the Gemini Interactions API, philschmid, 2026.02

RLHF Book - Code Examples, Nathan Lambert, 2026.01

SETA: Scaling Environments for Terminal Agents, CAMEL-AI, 2026.01

mini-sglang: A compact implementation of SGLang, designed to demystify the complexities of modern LLM serving systems, sgl-project, 2025

Agent Skills, OpenAI, 2025.12

GPT-4V-Act, ddupont808, 2023.10

Awesome Spatial Intelligence in VLMs, mll-lab-nu, 2025.11

LMMs Engine, EvolvingLMMs-Lab, 2025.10

nanochat, karpathy, 2025.10

supermemory, supermemoryai, 2025.10

RL Scaling Laws for Mathematical Reasoning, Joan Cabezas, 2025.10

Tora: Torchtune-LoRA for RL, shangshang-wang, 2025.10

PipelineRL, Piche+, ServiceNow, 2025.04

OpenManus, Liang+, FoundationAgents, 2025.04

OpenDeepResearch, LangChain, 2025.07

Checkpoint Engine, MoonshotAI, 2025.09

FinePDFs, HuggingFaceFW, 2025.09

OpenHands PR Arena, neulab, 2025.09

slime, THUDM & Zhihu, 2025.09

RLinf: Reinforcement Learning Infrastructure for Agentic AI, RLinf, 2025.09

DeepCode, Data Intelligence Lab@HKU, 2025.08

reasoning-minimal, torotoki, 2025.08

simple-paged-attention, torotoki, 2025.06

Qwen Code, Qwen Team, 2025.07

Modded-NanoGPT, KellerJordan, 2024.05

Nemo-RL, Nvidia, 2025.05

Nano-vLLM, GeeeekExplorer, 2025.06

POLARIS: A Post-Training Recipe for Scaling Reinforcement Learning on Advanced Reasoning Models,

Deepwiki, Cognition, 2025.04

Open R1, HuggingFace, 2025.01

LLM Datasets, mlabonne, 2025.01

Advanced RAG Techniques: Elevating Your Retrieval-Augmented Generation Systems, NirDiamant, 2025.01

LiteLLM, BerriAI, 2023.08

floret, explosion, 2021

Genesis, Genesis-Embodied-AI, 2024.12

GoogleCloudPlatform_generative-ai, Google, 2024.12

日本語LLMまとめ, LLM-jp, 2024.12

LLM Self-Correction Papers, Ryo Kamoi, 2024.11

aisuite, andrewyng, 2024.11

YomiToku, Kotaro Kinoshita, 2024.11

Lingua, Meta

Prompt-Engineering-Guide, DAIR.AI

textlesslib, FAIR, 2022.02

AutoGen, Microsoft, 2024.10

ECCV2024-Papers-with-Code, 2024.09

mise-en-place

PaperQA2, Future-House, 2023.02

ml-engineering

NanoFlow, 2024.08

Firecrawl, 2024.09

kotaemon, 2024.05

LitServe, 2024.04

Liger-Kernel, 2024.08

list of recommender systems

OpenDevin: Code Less, Make More, 2024

mergekit-evolve

AirLLM, 2024.04

Open Source Cookbook

Recommenders, recommenders-team, 2018.12

A Review of Public Japanese Training Sets, shisa, 2023.12