GenerativeAI
Issue Date: 2025-11-16 [Paper Note] EditLens: Quantifying the Extent of AI Editing in Text, Katherine Thai+, arXiv'25, 2025.10 GPT Summary- AIによるテキスト編集の検出に関する研究を行い、AI編集の程度を定量化する類似性指標を提案。これを基に回帰モデルEditLensを訓練し、人間とAIのテキストを高精度で区別。AI編集の影響を分析し、著作権や教育に関する示唆を提供。モデルとデータセットは公開予定。 Comment
元ポスト:
興味深い👀
#Metrics #NLP #LanguageModel #Evaluation #Selected Papers/Blogs #KeyPoint Notes #Reference Collection
Issue Date: 2025-03-31 Measuring AI Ability to Complete Long Tasks, Thomas Kwa+, arXiv'25, 2025.03 GPT Summary- 新しい指標「50%-タスク完了時間ホライズン」を提案し、AIモデルの能力を人間の観点から定量化。Claude 3.7 Sonnetは約50分の時間ホライズンを持ち、AIの能力は2019年以降約7か月ごとに倍増。信頼性や論理的推論の向上が要因とされ、5年以内にAIが多くのソフトウェアタスクを自動化できる可能性を示唆。 Comment
元ポスト:
確かに線形に見える。てかGPT-2と比べるとAIさん進化しすぎである…。
利用したデータセットは
- HCAST: 46のタスクファミリーに基づく97種類のタスクが定義されており、たとえばサイバーセキュリティ、機械学習、ソフトウェアエンジニアリング、一般的な推論タスク(wikipediaから事実情報を探すタスクなど)などがある
- 数分で終わるタスク: 上述のwikipedia
- 数時間で終わるタスク: Pytorchのちょっとしたバグ修正など
- 数文でタスクが記述され、コード、データ、ドキュメント、あるいはwebから入手可能な情報を参照可能
- タスクの難易度としては当該ドメインに数年間携わった専門家が解ける問題
- RE-Bench Suite
- 7つのopen endedな専門家が8時間程度を要するMLに関するタスク
- e.g., GPT-2をQA用にFinetuningする, Finetuningスクリプトが与えられた時に挙動を変化させずにランタイムを可能な限り短縮する、など
- [RE-Bench Technical Report](
https://metr.org/AI_R_D_Evaluation_Report.pdf)のTable2等を参照のこと
- SWAA Suite: 66種類の1つのアクションによって1分以内で終わるソフトウェアエンジニアリングで典型的なタスク
- 1分以内で終わるタスクが上記データになかったので著者らが作成
であり、画像系やマルチモーダルなタスクは含まれていない。
タスクと人間がタスクに要する時間の対応に関するサンプルは下記
タスク-エージェントペアごとに8回実行した場合の平均の成功率。確かにこのグラフからはN年後には人間で言うとこのくらいの能力の人がこのくらい時間を要するタスクが、このくらいできるようになってます、といったざっくり感覚値はなかなか想像できない。
成功率とタスクに人間が要する時間に関するグラフ。ロジスティック関数でfittingしており、赤い破線が50% horizon。Claude 3.5 Sonnet (old)からClaude 3.7 Sonnetで50% horizonは18分から59分まで増えている。実際に数字で見るとイメージが湧きやすくおもしろい。
こちらで最新モデルも随時更新される:
https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/
#RecommenderSystems #Tutorial #LanguageModel #DiffusionModel
Issue Date: 2024-09-24 Recommendation with Generative Models, Yashar Deldjoo+, N_A, arXiv'24 GPT Summary- 生成モデルは新しいデータを生成するAIモデルであり、GANやVAE、トランスフォーマーに基づくアーキテクチャが注目されている。特にレコメンダーシステムにおいては、Gen-RecSysが推薦の精度と多様性を向上させ、パーソナライズされたユーザー体験を提供する。本書では、深層生成モデルをID駆動モデル、LLM、マルチモーダルモデルの3つに分類し、それぞれの技術的進展を紹介。生成モデルの影響やリスクについても考察し、評価フレームワークの重要性を強調する。 Comment
生成モデルやGenerativeAIによるRecSysの教科書
https://huggingface.co/spaces/Vchitect/SEINE
画像 + テキストpromptで、動画を生成するデモ
#Article #Conversation #read-later #Selected Papers/Blogs Issue Date: 2025-11-26 Estimating AI productivity gains from Claude conversations, Anthropic, 2025.11 Comment
元ポスト:
うーん気になる!
#Article #NLP #AIAgents #Blog #One-Line Notes Issue Date: 2025-11-25 Stanford Agentic Reviewer, Stanford University, 2025.11 Comment
元ポスト:
Andrew Ng氏によるAI Agentによる論文のレビュワーシステムで、ICLR'25のレビューで学習し、テストセットで評価したところ、人間-人間間の相関と人間-AI間の相関係数が同等の水準に到達とのこと。ICLR'25のレビューで学習しているということは当該ドメインに近しい研究であるほど適切なレビューが実施されるであろう点に注意。
#Article #ComputerVision #ProprietaryLLM #Selected Papers/Blogs #2D (Image) Issue Date: 2025-11-21 Introducing Nano Banana Pro, Google, 2025.11 Comment
元ポスト:
所見:
所見:
#Article #LanguageModel #AIAgents #Blog #ProprietaryLLM #SoftwareEngineering Issue Date: 2025-11-19 Introducing Google Antigravity, a New Era in AI-Assisted Software Development, Google, 2025.11 Comment
元ポスト:
google謹製のAI Agent FirstなIDE、らしい
#Article #NLP #LanguageModel #Blog #ProprietaryLLM #Selected Papers/Blogs #One-Line Notes #Reference Collection Issue Date: 2025-11-19 Gemini 3 による知性の新時代, Google, 2025.11 Comment
所見:
GPT5.1に対して各種ベンチマークで上回る性能。
所見:
Gemini2.5 Proは回答が冗長で使いにくかったが、Gemini3は冗長さがなくなり、クリティカルな情報を簡潔に、しかし短すぎない、ちょうど良いくらいの応答に感じており、レスポンスもGPT5.1, GPT5と比べ早いので普段使いのLLMとしては非常に良いのではないか、という感想(2,3個のクエリを投げただけだが)を抱いた。
Oriol Vinyals氏のコメント:
LiveCodeBench ProでもSoTA:
Gemini Pro 3 Developer Guide:
https://ai.google.dev/gemini-api/docs/gemini-3?hl=ja
元ポスト:
GAIA Verified (Browser Use?)でもSoTA:
ただし、どのようなハーネスが使われているかは不明だし、それらが各モデルにとってフェアなものになってるかも不明
スクショのみでリンクも無し。
所見:
content window,pricingなどの情報:
一般的なユースケースでのBest Practice:
パラメータ数に関する考察:
韓国語でのベンチマークに関するポスト:
自身のハーネス、ユースケース、タスクではうまくいかなかったよという話(でもただのサンプル数1だよ、という話が記載されている):
結局のところベンチマークはあくまで参考程度であり、自分たちのタスク、データセットで性能を測らねばわからない。
Artificial Intelligenceによる評価:
MCP Universeでtop:
- [Paper Note] MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers, Ziyang Luo+, arXiv'25
Live SWE Agentと呼ばれるself-evolvingな枠組みを採用した場合(=scaffoldをbashのみから自己進化させる)のSWE Bench Vevifiedにやる評価でもSoTA:
- [Paper Note] Live-SWE-agent: Can Software Engineering Agents Self-Evolve on the Fly?, Chunqiu Steven Xia+, arXiv'25, 2025.11
- SWE-bench: Can Language Models Resolve Real-World GitHub Issues?, Carlos E. Jimenez+, ICLR'24
この辺のsoftware agent系のベンチマークにおけるハーネスが具体的にどうなっているのか、中身を見たことないので見ておきたい。
(追記)
SWE Bench Verifiedのリーダーボードではmini-SWE-Agentを利用した公正な比較が行われており、こちらではGemini3がトップだったもののその後リリースされたClaude-Opus-4.5がtopを僅差で奪還しGemini3が2位とのこと。
ハーネスについてはこちらを読むと良さそう:
- [Paper Note] SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering, John Yang+, arXiv'24, 2024.05
EpochAIによる評価:
ECIでtop。ECIは39のベンチマークから算出されるスコア、らしい。
Scale AIのVisual Tool BenchでもSoTA:
- Beyond Seeing: Evaluating Multimodal LLMs On Tool-enabled Image Perception, Transformation, and Reasoning, Scale AI, 2025.10
CriPtと呼ばれるベンチマークにおける評価でもSoTA:
- [Paper Note] Probing the Critical Point (CritPt) of AI Reasoning: a Frontier Physics Research Benchmark, Minhui Zhu+, arXiv'25, 2025.09
最近提案された新たなtooluseベンチマークでもsecond placeらしい:
- [Paper Note] The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution, Junlong Li+, arXiv'25, 2025.10
IQ130らしい(果たして):
GPQA DiamondでSoTA:
#Article #Blog Issue Date: 2025-11-19 AI in Practice Survey 2025, Theory Ventures, 2025.11 Comment
元ポスト:
#Article #NLP #LanguageModel #Blog #ProprietaryLLM #Selected Papers/Blogs Issue Date: 2025-11-18 Grok 4.1, xAI, 2025.11 Comment
元ポスト:
#Article #NLP #LanguageModel #Blog #text #AI Detector Issue Date: 2025-11-16 Third-Party Pangram Evaluations, Pangram., Destiny Akinode, 2025.11 Comment
元ポスト:
#Article #Blog Issue Date: 2025-11-12 Mapping the AI Supply Chain, Cen+, Stanford University, 2025.11 Comment
元ポスト:
#Article #DocumentSummarization #NLP #LanguageModel #Blog #Science Issue Date: 2025-11-12 Project AELLA: Custom LLMs to process 100 Million Research Papers, ssam Hogan, 2025.11 Comment
100M+の論文に対してAIによる要約を作成し構造化した上でvisualizeすることでよりscientificな情報へのアクセシビリティを高めたい、という話に見える
#Article #Blog #read-later Issue Date: 2025-11-10 AI progress and recommendations, OpenAI, 2025.11 Comment
元ポスト:
#Article #LanguageModel #Blog #Health Issue Date: 2025-10-28 How we are building the personal health coach, Patel+, 2025.10 Comment
元ポスト:
fitbitユーザなので普通に気になる
#Article #NLP #Blog #Financial #ProprietaryLLM Issue Date: 2025-10-28 Advancing Claude for Financial Services, Anthropic, 2025.10 Comment
元ポスト:
#Article #ChatGPT #Blog Issue Date: 2025-10-23 Introducing ChatGPT Atlas, OpenAI, 2025.10 Comment
元ポスト:
ブラウザのサイドバーでchatgptにサイトに関して質問できたり、agenticな使い方もできる模様?
#Article #NLP #AIAgents #Coding #Video #SoftwareEngineering #One-Line Notes Issue Date: 2025-10-12 Shipping with Codex, OpenAI, 2025.10 Comment
元ポスト:
OpenAI内部で92%の技術スタッフがdailyで利用している、というマーケティングメッセージが非常に強力で、説得力を持たせていると感じる。
#Article #Survey #LanguageModel #Blog #read-later Issue Date: 2025-10-11 STATE OF AI REPORT 2025, Nathan Benaich, 2025.10 Comment
元ポスト:
所見:
#Article #Blog Issue Date: 2025-10-03 The browser that works for you, Perplexity, 2025.10 Comment
めちゃ使いたい
元ポスト:
#Article #MachineLearning #LanguageModel #Infrastructure #Slide #read-later #One-Line Notes Issue Date: 2025-09-28 AIインフラを考える, Masayuki Kobayashi, 第38回 ISOC-JP Workshop, 2025.09 Comment
元ポスト:
KVCacheサイズとデータ転送量の部分はパフォーマンスチューニングの際に重要なのですぐにでも活用できそう。前半部分は私にとっては難しかったので勉強したい。
#Article Issue Date: 2025-09-08 style-bert-vits2-Anneli, kaunista, 2025.09 Comment
元ポスト:
AivisSpeechと呼ばれる音声合成AIがデフォルトモデルとしていたモデルが非公開となり、その経緯が詳細に記載されている。
#Article #Blog #Coding Issue Date: 2025-09-07 Writing Code Was Never The Bottleneck, ordep.dev, 2025.06 Comment
元ポスト:
#Article #Blog Issue Date: 2025-01-06 Japan as an international hub for AI, Jerry Chi and Ilya Kulyatin, 2025.01 #Article #Pocket #NLP #Blog Issue Date: 2025-01-03 Things we learned about LLMs in 2024, Simon Willson's blog, 2024.12 Comment
元ポスト:
#Article #NLP #LanguageModel #Blog Issue Date: 2024-12-24 OpenAI o3は,人間とは全く異質の汎用知能である危険性【東大解説】, 神楽坂やちま, 2024.12 Comment
様々な有識者の見解をまとめつつ、文献を引用しつつ、かつ最終的に「人間が知能というものに対してなんらかのバイアスを持っている」可能性がある、という話をしており興味深い。
一部の有識者はARC-AGIの一部の、人間なら見た瞬間に分かるようなパターン認識の問題でも解けていないことから、AGIではないと主張しているとのことだったが、人間目線で簡単な問題が解けることはAGIとして必須な条件ではないよね、といった話が書かれており、そもそも有識者がどのようなものさしや観点でAGIを見ているのか、どういう視点があるのか、ということが感覚的に分かる内容であり、おもしろかった。
しかし、そもそも何がどうなったらAGIが実現できたと言えるのだろうか?定義がわからない(定義、あるのか…?)
#Article #Repository Issue Date: 2024-12-20 Genesis, Genesis-Embodied-AI, 2024.12 Comment
新たな物理AIエンジン。デモ動画がすごい
https://genesis-embodied-ai.github.io
#Article #Tutorial #Repository Issue Date: 2024-12-12 GoogleCloudPlatform_generative-ai, Google, 2024.12 Comment
Google Cloudで生成AI(Gemini+Vertex AI)を動かすためのサンプルコード集
元ポスト:
#Article #ComputerVision #OpenWeight Issue Date: 2024-10-05 MovieGen, Meta, 2024.10 #Article #Survey #Blog Issue Date: 2024-10-01 生成AIを活用したシステム開発 の現状と展望 - 生成AI時代を見据えたシステム開発に向けて-, 株式会社日本総合研究所 先端技術ラボ, 2024.09 Comment
ソフトウェア開発で利用され始めている生成AIのプロダクト群と、それらに関連するソースコード生成やテストコード生成、エージェントによる自動システム開発等の研究動向、今後の展望について具体的に記述されている。
SIerやITベンダー内では、実際に活用しているところも一部あるようだが、まだ検証や改革の途中の模様。要件定義に対するLLMの活用も模索されているようだが、産業側もアカデミックも研究段階。
web系では、サイバーやLINEヤフーが全社的にすでにGithub Copilotを導入しているとのこと。
Devin AIのように、Github上のオープンソースのIssueをもとにしたベンチマークで、2294件中13.86%のIssueを解決した、みたいな話を見ると、そのうちコードを書く仕事はIssueを立てる仕事に置き換わるんだろうなあ、という所感を得た(小並感
#Article #Pocket #NLP #QuestionAnswering #AIAgents #RAG(RetrievalAugmentedGeneration) #Repository Issue Date: 2024-09-11 PaperQA2, 2023.02 Comment
元ポスト:
#Article #Tutorial #NLP #LanguageModel #Repository #OpenSource Issue Date: 2024-04-14 Open Source Cookbook Comment
HuggingFaceによる様々な実用的なアプリケーションをオープンソースの実装やモデルで実現するノートブックがまとまったリポジトリ。LLM-as-a-judge, RAG, PEFTによるPrompt Tuning(Prefix Tuningとかそっち系の話だと思われる)など、現在16種類ほどあるらしい。
改めて見たら数がかなり増えていた
#Article #ComputerVision #NLP #MultiModal Issue Date: 2023-12-01 LaVie: Text-to-Video generation, demo Comment
デモのデフォルトで試してみたら、3秒ほどのprompt通りの動画が生成された。
FF14の赤魔導士に変えたら、それっぽいの出てきた
#Article #Blog Issue Date: 2023-11-17 生成系 AI でプロダクトの価値を高めるには, 2023 Comment
AWS久保さんの資料。後で読む
#Article #Tutorial #NLP #LanguageModel #Alignment #Hallucination #Blog Issue Date: 2023-11-03 生成AIが抱えるリスクと対策, LYCorp‘23 Comment
この資料をスタートにReferしている論文などを勉強すると、GenerativeAIのリスク周りに詳しくなれそう。この辺は疎いので勉強になる。
しかし、LLMのAlignmentが不十分だったり、Hallucinationを100%防ぐことは原理的に不可能だと思われるので、この辺とどう付き合っていくかがLLMと付き合っていく上で難しいところ。この辺は自分たちが活用したいユースケースに応じて柔軟に対応しなければならず、この辺の細かいカスタマイズをする地道な作業はずっと残り続けるのではないかなあ
#Article #Blog #Game Issue Date: 2023-07-11 Open Source AI Game Jam, 2023 Comment
GenerativeAIを使ってゲームを作る取り組み
#Article #RecommenderSystems #Survey Issue Date: 2023-05-10 awesome-generative-information-retrieval Comment
Generativeなモデルを利用したDocument RetrievalやRecSys等についてまとまっているリポジトリ
#Article #Tools #Blog #Coding Issue Date: 2023-01-21 CodeGPT: The VSCode Extension with ChatGPT-Like Functionalities Comment
VSCodeの拡張で、//から始まるPromptをエディタ上で記載することで対応するコードをGPT3が生成してくれる模様。便利そう