EdgeDevices


Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Decoding #One-Line Notes #Reference Collection #Latency Issue Date: 2026-04-22 GPT Summary- μLMsを導入し、エッジデバイスで即座に文脈に基づく応答の最初の数語を生成し、クラウドモデルがその後を完成させることで、遅延を隠蔽する協調生成フレームワークを設計。経験的結果は、極小モデルでも大規模モデルと同等の生成が可能であることを示し、リソース制約のあるデバイスでの高い応答性を実現。 Comment

元ポスト:

Loading…

オンデバイスのMicro LLM(8M--30M)パラメータが冒頭の単語を生成し、その続きをCloud側のLLMが生成することで、Cloud LLMのlatencyの遅さをマスクする
image




Paper/Blog Link My Issue
#ComputerVision #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #SyntheticData #MultiModal #Reasoning #SmallModel #OpenWeight #ComputerUse #PostTraining #VisionLanguageModel #One-Line Notes #GUI Issue Date: 2026-01-19 GPT Summary- LightAgentは、モバイルプラットフォーム向けにデバイスとクラウドの協力を活用したGUIエージェントシステムを提案。これにより、オフライン性能とコスト効率を両立し、強化された二段階トレーニングを通じて高い意思決定能力を実現。実験を通じて大規模モデルに匹敵する性能を示し、クラウドコストを大幅に削減。 Comment

pj page: https://github.com/HKUDS/OpenPhone

3Bで10B級の性能を誇る低latencyのedge device向けSVLM

元ポスト:

Loading…




Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #ImageSegmentation #SmallModel #OpenWeight #Video #2D (Image) Issue Date: 2025-11-09 GPT Summary- SAM 2は動画セグメンテーションの基盤モデルであり、メモリバンクメカニズムを通じて性能を向上させています。本研究では、モバイルデバイス上での効率を高めるために、EdgeTAMを提案し、2D空間パーセプターを用いて計算コストを削減します。これにより、メモリの空間構造を保持しつつ、推論オーバーヘッドなしで性能を向上させる蒸留パイプラインも導入。EdgeTAMは複数のデータセットで高いJ&Fスコアを達成し、iPhone 15 Pro Maxで16 FPSで動作します。 Comment

元ポスト:

Loading…

SAM2より性能は少し劣るが、edge-deviceてわ動作可能で非常に高速なモデル(promptによって制御可能なsegmentation)とのこと
- [Paper Note] SAM 2: Segment Anything in Images and Videos, Nikhila Ravi+, ICLR'25, 2024.08




Paper/Blog Link My Issue
#NLP #Distillation #SmallModel #SIGKDD #Encoder Issue Date: 2025-08-28 GPT Summary- リソース制限のあるエッジ環境で効率的なNLPモデルを展開するために、クロス蒸留法を用いたEdge ultra-lIte BERTフレームワーク(EI-BERT)を提案。EI-BERTはモデル圧縮のためにハードトークンプルーニング、クロス蒸留、パラメータ量子化を活用し、最小1.91 MBのBERTベースモデルを実現。Alipayエコシステムで成功裏に展開され、840万のデイリーアクティブデバイスにレコメンデーショントラフィックを提供。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#EfficiencyImprovement #MachineLearning #LanguageModel #Inference Issue Date: 2025-08-24 GPT Summary- 超低ビットLLMモデルの登場により、リソース制約のある環境でのLLM推論が可能に。1ビットおよび2ビットのマイクロカーネルを設計し、PyTorch-TPPに統合することで、推論効率を最大2.2倍向上。これにより、AI PCやエッジデバイスでの超低ビットLLMモデルの効率的な展開が期待される。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#ComputerVision #NLP #MultiModal #SmallModel #OpenWeight #Architecture #COLM #read-later #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-07-09 GPT Summary- SmolVLMは、リソース効率の良い推論のために設計されたコンパクトなマルチモーダルモデルシリーズであり、低い計算オーバーヘッドを持つアーキテクチャやトークン化戦略を採用。最小モデルのSmolVLM-256Mは、1GB未満のGPUメモリでIdefics-80Bモデルを上回る性能を発揮し、最大モデルは2.2Bパラメータで最先端のVLMに匹敵。これにより、エネルギー効率の良い実用的な展開が可能となる。 Comment

HFSpace: https://huggingface.co/blog/smolervlm

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=qMUbhGUFUb




Paper/Blog Link My Issue
#NLP #LanguageModel #Quantization #MLSys Issue Date: 2025-07-21 GPT Summary- Activation-aware Weight Quantization(AWQ)を提案し、LLMの低ビット重み量子化を効率化。顕著な重みチャネルを保護することで量子化誤差を削減し、異なるドメインに一般化可能。AWQは言語モデリングやドメイン特化型ベンチマークで優れた性能を示し、4ビットのオンデバイスLLM/VLM向け推論フレームワークTinyChatを実装。これにより、デスクトップおよびモバイルGPUでの処理速度を3倍以上向上させ、70B Llama-2モデルの展開を容易にする。 Comment

日本語解説: https://qiita.com/kyad/items/96a4a2bdec3f0dc09d23




Paper/Blog Link My Issue
#Survey #NLP #LanguageModel #SmallModel #needs-revision Issue Date: 2024-11-07 GPT Summary- 大規模言語モデル(LLM)は多様なタスクで能力を示すが、パラメータサイズや計算要求から制限を受け、プライバシーやリアルタイムアプリケーションに課題がある。これに対し、小型言語モデル(SLM)は低遅延、コスト効率、簡単なカスタマイズが可能で、特に専門的なドメインにおいて有用である。SLMの需要が高まる中、定義や応用に関する包括的な調査が不足しているため、SLMを専門的なタスクに適したモデルとして定義し、強化するためのフレームワークを提案する。 Comment

image

image




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #FoundationModel #Blog #OpenWeight #RecurrentModels #Operator Issue Date: 2025-09-26 Comment

元ポスト:

Loading…

LiquidAIによるedgeデバイス向けのFoundation Model。品質、スピード、メモリ、ハードウェアのバランスを最適にしておるとのこと。たとえばQwenと比較して2倍のデコードとprefill速度とのこと。また、同サイズのモデル群よりも高い性能を実現しているらしい。
下記グラフはMMLU, IFEval,IFBENCH,GSM8K,MMMLUでの評価の平均。他にもGPQA,MGSMでも評価しており、同サイズのモデルと比べて同等か少し劣るくらい。

image

アーキテクチャはRNNをベースにしており、従来の時間がstepごとに発展するRNNではなく、連続時間を扱えるようなRNNの変種なようでより柔軟に時間スケールを扱えるようなアーキテクチャらしい。また、LIV Operatorと呼ばれる入力に応じて動的に異なる線形変換を実施するOperatorを採用している模様。たとえば入力に応じて、convolution, attention, recurrenceなどのoperationが変化する。これに基づいて、さまざまなアーキテクチャのNNを定義できるようになったので、最適なアーキテクチャを模索するためにSTARと呼ばれるアルゴリズムでNeural Architecture Searchを実施した模様。

メモリに制約があるエッジデバイス向けにKVCache不要で現在の隠れ状態のみを保持すれば良いRNNベースのアーキテクチャを採用するのは理に適っている。

日本語解説: https://qiita.com/peony_snow/items/36fb856925c2d7beef26




Paper/Blog Link My Issue
#Article #MachineTranslation #NLP #LanguageModel #AIAgents #RAG(RetrievalAugmentedGeneration) #Mathematics #SmallModel #OpenWeight #Japanese #DocParser Issue Date: 2025-09-26 Comment

blog: https://www.liquid.ai/blog/introducing-liquid-nanos-frontier-grade-performance-on-everyday-devices

モデルファミリーに350Mの日英翻訳モデルが含まれている…だと!?

タスクスペシフィックなedgeデバイス向けのSLM群。

以下のようなモデルファミリー。非構造テキストからのデータ抽出、日英翻訳、RAG, tooluse, Math, フランス語のチャットモデル。これまでマルチリンガルに特化したMTとかはよく見受けられたが、色々なタスクのSLMが出てきた。
image

元ポスト:

Loading…

LFM2はこちら:
- Introducing LFM2: The Fastest On-Device Foundation Models on the Market, LiquidAI, 2025.07




Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #Blog #SmallModel #OpenWeight #VisionLanguageModel #KeyPoint Notes Issue Date: 2024-09-25 Comment

11Bと90BのVLMと、エッジデバイス向けの1B, 3BのSLMを発表。
image
image
image

Llama3.2のVLMでは、事前学習されたimage encoderを事前学習された言語モデルに対して組み合わせるためのAdapterを複数学習することによって実現。

具体的には、Llama 3.1(text only model)に対して、image encoderとAdapterを追加し、大規模でノイジーな(image,text)ペアで事前学習。続いて、中規模のサイズの高品質なin-domain(i.e. 様々なドメインの)の知識を高めるような(image,text)ペアで学習した。

事後学習では、Llama3.1と同様にSFT, Rejection Sampling, DPOのラウンドを複数回繰り返した。Llama3.1を用いて、in-domainの画像に対するQAをData Augmentationし、フィルタリングすることで合成データを作成。さらに報酬モデルを活用して全ての回答候補をランクづけして高品質なSFTデータを取得。また、モデルの安全性が高まるようなデータも追加した。

Llama3.1の事後学習のプロセスについては 論文紹介 / The Llama 3 Herd of Models, 2024.08 も参照のこと。