EvolutionaryAlgorithm


Paper/Blog Link My Issue
#NLP #ReinforcementLearning #AIAgents #SelfImprovement #ScientificDiscovery #PostTraining #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2026-01-24 GPT Summary- 自動化されたAI研究は科学的発見の加速に寄与するが、現在のLLMはしばしば効果的でないアイデアを生成。アイデア実装のための自動実行器を構築し、並行GPU実験を通じてその効果を検証。進化的探索と強化学習の2方法を分析し、前者はGRPOベースラインを上回るサンプル効率、後者は単純なアイデアに収束し上限を制限。実行に基づくAI研究の未来を探る。 Comment

アイデアを実行できる環境を与え、進化的な探索をRLと実行結果に基づくReward(ベンチマーク性能など)によって実施するような話で、実行結果に基づくRewardに基づいてRLすると、平均的にうまくいくように最適化され性能を最大化することに苦労する、といった知見が得られた、という趣旨の話が元ポストで記述されている。

best solutionを見つけるようにRLする研究がこちら:
- [Paper Note] Learning to Discover at Test Time, Mert Yuksekgonul+, arXiv'26, 2026.01

元ポスト:

Loading…




Paper/Blog Link My Issue
#Multi #MachineLearning #NLP #LanguageModel #AIAgents #Generalization #AdversarialTraining Issue Date: 2026-01-12 GPT Summary- 大規模言語モデル(LLMs)を用いた自己対戦アルゴリズム「デジタルレッドクイーン(DRQ)」を提案。DRQは、コアウォーというゲームでアセンブリプログラムを進化させ、動的な目的に適応することで「レッドクイーン」ダイナミクスを取り入れる。多くのラウンドを経て、戦士は人間の戦士に対して一般的な行動戦略に収束する傾向を示し、静的な目的から動的な目的へのシフトの価値を強調。DRQは、サイバーセキュリティや薬剤耐性などの実用的な多エージェント敵対的ドメインでも有用である可能性を示唆。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Transformer #SmallModel #OpenWeight #Architecture #read-later #Selected Papers/Blogs #Latency #Operator Issue Date: 2026-01-23 GPT Summary- SLMの効率的な展開はレイテンシ制約のあるアプリで重要。本研究は、SLMのレイテンシ決定要因を特定し、深さと幅の比率、オペレータ選択が鍵であることを示す。深く細いモデルが精度向上につながるが、トレードオフフロンティアからは外れることがある。新しい効率的アテンションの代替手段を評価し、最適なオペレータを用いた進化的検索フレームワークを開発。さらに重み正規化技術を用い、SLMの性能を向上。新ハイブリッドSLM「Nemotron-Flash」は、精度を平均+5.5%向上させ、レイテンシを大幅に低下、スループットを著しく改善。 Comment

解説:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #ScientificDiscovery #One-Line Notes Issue Date: 2026-01-05 GPT Summary- 科学的発見エージェントのために、目的関数の自動設計を行うSAGAを提案。二層アーキテクチャにより、LLMエージェントが新しい目的を提案し、内部ループで最適化を実施。これにより、目的の空間を体系的に探求し、抗生物質や無機材料などの応用で効果を向上させることを示す。 Comment

元ポスト:

Loading…

目的関数そのものも進化させるような枠組み




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #SmallModel #read-later #Selected Papers/Blogs #Latency Issue Date: 2025-11-25 GPT Summary- 本研究では、小型言語モデル(SLMs)の実デバイスにおけるレイテンシの主要な決定要因を特定し、SLM設計とトレーニングの原則を提供します。深さ-幅比とオペレーター選択がレイテンシに影響を与えることを示し、深く細いモデルが一般的に良好な精度を達成する一方で、必ずしも精度-レイテンシのトレードオフの最前線に位置しないことを発見しました。効率的なアテンションの代替手段を評価し、ハイブリッドSLM内での最適なオペレーターの組み合わせを進化的探索フレームワークで発見。これにより、Nemotron-Flashという新しいSLMファミリーを導入し、精度が平均+5.5%向上し、レイテンシが1.3倍/1.9倍低下、スループットが18.7倍/45.6倍向上しました。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #SoftwareEngineering #One-Line Notes Issue Date: 2025-11-23 GPT Summary- Live-SWE-agentは、実世界のソフトウェア問題を解決するために、ランタイム中に自律的に自己進化する初のライブソフトウェアエージェントである。最も基本的なエージェントスキャフォールドから始まり、bashツールを用いて自らの実装を進化させる。評価結果では、SWE-bench Verifiedベンチマークで75.4%の解決率を達成し、既存のオープンソースエージェントを上回る性能を示した。さらに、SWE-Bench Proベンチマークでも最良の解決率を記録した。 Comment

github: https://github.com/OpenAutoCoder/live-swe-agent

ReAct方式に追加でself-reflectionを導入することでagentのscaffolding(=ただし、カスタムツールのみ)をbashのみが使える状態から自己進化させる枠組み。

元ポスト:

Loading…

scaffoldingのスタート地点は同一なので、そういう意味ではapple-to-appceなのかもしれないが、self-improvementの能力が高いモデルの方が有利という側面もありそうなので留意が必要




Paper/Blog Link My Issue
#MachineLearning #NLP #LanguageModel #Finetuning Issue Date: 2025-10-07 GPT Summary- 進化戦略(ES)を用いて、事前学習済みの大規模言語モデル(LLMs)の全パラメータをファインチューニングする初の成功事例を報告。ESは数十億のパラメータに対して効率的に探索でき、サンプル効率やロバスト性、パフォーマンスの安定性において既存の強化学習(RL)手法を上回ることを示す。これにより、LLMファインチューニングの新たな方向性が開かれる。 Comment

元ポスト:

Loading…

続報:

Loading…




Paper/Blog Link My Issue
#NLP #AIAgents #ScientificDiscovery #read-later #Selected Papers/Blogs Issue Date: 2025-09-25 GPT Summary- ShinkaEvolveは、科学的発見を促進するための新しいオープンソースフレームワークであり、LLMsを利用して高い効率性とパフォーマンスを実現します。従来のコード進化手法の制限を克服し、親サンプリング技術や新規性拒否サンプリング、バンディットベースのアンサンブル選択戦略を導入。多様なタスクでの評価により、サンプル効率と解の質が向上し、150サンプルで新たな最先端ソリューションを発見しました。ShinkaEvolveは、オープンソースでのアクセス性を提供し、計算問題における発見を民主化します。 Comment

pj page: https://sakana.ai/shinka-evolve/

元ポスト:

Loading…

国際的なプログラミングコンテストでShinkaEvolveのサポートの元、チームが優勝した模様:
-

Loading…

-
Loading…