GenerativeAI
Issue Date: 2025-03-31 Measuring AI Ability to Complete Long Tasks, Thomas Kwa+, arXiv'25 GPT Summary- 新しい指標「50%-タスク完了時間ホライズン」を提案し、AIモデルの能力を人間の観点から定量化。Claude 3.7 Sonnetは約50分の時間ホライズンを持ち、AIの能力は2019年以降約7か月ごとに倍増。信頼性や論理的推論の向上が要因とされ、5年以内にAIが多くのソフトウェアタスクを自動化できる可能性を示唆。 Comment
元ポスト:
確かに線形に見える。てかGPT-2と比べるとAIさん進化しすぎである…。
利用したデータセットは
- HCAST: 46のタスクファミリーに基づく97種類のタスクが定義されており、たとえばサイバーセキュリティ、機械学習、ソフトウェアエンジニアリング、一般的な推論タスク(wikipediaから事実情報を探すタスクなど)などがある
- 数分で終わるタスク: 上述のwikipedia
- 数時間で終わるタスク: Pytorchのちょっとしたバグ修正など
- 数文でタスクが記述され、コード、データ、ドキュメント、あるいはwebから入手可能な情報を参照可能
- タスクの難易度としては当該ドメインに数年間携わった専門家が解ける問題
- RE-Bench Suite
- 7つのopen endedな専門家が8時間程度を要するMLに関するタスク
- e.g., GPT-2をQA用にFinetuningする, Finetuningスクリプトが与えられた時に挙動を変化させずにランタイムを可能な限り短縮する、など
- [RE-Bench Technical Report](
https://metr.org/AI_R_D_Evaluation_Report.pdf)のTable2等を参照のこと
- SWAA Suite: 66種類の1つのアクションによって1分以内で終わるソフトウェアエンジニアリングで典型的なタスク
- 1分以内で終わるタスクが上記データになかったので著者らが作成
であり、画像系やマルチモーダルなタスクは含まれていない。
タスクと人間がタスクに要する時間の対応に関するサンプルは下記
タスク-エージェントペアごとに8回実行した場合の平均の成功率。確かにこのグラフからはN年後には人間で言うとこのくらいの能力の人がこのくらい時間を要するタスクが、このくらいできるようになってます、といったざっくり感覚値はなかなか想像できない。
成功率とタスクに人間が要する時間に関するグラフ。ロジスティック関数でfittingしており、赤い破線が50% horizon。Claude 3.5 Sonnet (old)からClaude 3.7 Sonnetで50% horizonは18分から59分まで増えている。実際に数字で見るとイメージが湧きやすくおもしろい。
こちらで最新モデルも随時更新される:
https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/
#RecommenderSystems #Tutorial #LanguageModel #DiffusionModel
Issue Date: 2024-09-24 Recommendation with Generative Models, Yashar Deldjoo+, N_A, arXiv'24 GPT Summary- 生成モデルは新しいデータを生成するAIモデルであり、GANやVAE、トランスフォーマーに基づくアーキテクチャが注目されている。特にレコメンダーシステムにおいては、Gen-RecSysが推薦の精度と多様性を向上させ、パーソナライズされたユーザー体験を提供する。本書では、深層生成モデルをID駆動モデル、LLM、マルチモーダルモデルの3つに分類し、それぞれの技術的進展を紹介。生成モデルの影響やリスクについても考察し、評価フレームワークの重要性を強調する。 Comment
生成モデルやGenerativeAIによるRecSysの教科書
#RecommenderSystems #Survey #Pocket
Issue Date: 2024-04-02 A Review of Modern Recommender Systems Using Generative Models (Gen-RecSys), Yashar Deldjoo+, N_A, arXiv'24 GPT Summary- 従来のレコメンドシステムは、ユーザー-アイテムの評価履歴を主要なデータソースとして使用してきたが、最近では生成モデルを活用して、テキストや画像など豊富なデータを含めた新しい推薦タスクに取り組んでいる。この研究では、生成モデル(Gen-RecSys)を用いたレコメンドシステムの進歩に焦点を当て、相互作用駆動型生成モデルや大規模言語モデル(LLM)を用いた生成型推薦、画像や動画コンテンツの処理と生成のためのマルチモーダルモデルなどについて調査している。未解決の課題や必要なパラダイムについても議論している。
https://huggingface.co/spaces/Vchitect/SEINE
画像 + テキストpromptで、動画を生成するデモ
#Article #NLP #LLMAgent #Coding #Video #SoftwareEngineering #One-Line Notes Issue Date: 2025-10-12 Shipping with Codex, OpenAI, 2025.10 Comment
元ポスト:
OpenAI内部で92%の技術スタッフがdailyで利用している、というマーケティングメッセージが非常に強力で、説得力を持たせていると感じる。
#Article #Survey #LanguageModel #Blog #read-later Issue Date: 2025-10-11 STATE OF AI REPORT 2025, Nathan Benaich, 2025.10 Comment
元ポスト:
所見:
#Article #Blog Issue Date: 2025-10-03 The browser that works for you, Perplexity, 2025.10 Comment
めちゃ使いたい
元ポスト:
#Article #MachineLearning #LanguageModel #Infrastructure #Slide #read-later #One-Line Notes Issue Date: 2025-09-28 AIインフラを考える, Masayuki Kobayashi, 第38回 ISOC-JP Workshop, 2025.09 Comment
元ポスト:
KVCacheサイズとデータ転送量の部分はパフォーマンスチューニングの際に重要なのですぐにでも活用できそう。前半部分は私にとっては難しかったので勉強したい。
#Article Issue Date: 2025-09-08 style-bert-vits2-Anneli, kaunista, 2025.09 Comment
元ポスト:
AivisSpeechと呼ばれる音声合成AIがデフォルトモデルとしていたモデルが非公開となり、その経緯が詳細に記載されている。
#Article #Blog #Coding Issue Date: 2025-09-07 Writing Code Was Never The Bottleneck, ordep.dev, 2025.06 Comment
元ポスト:
#Article #Blog Issue Date: 2025-01-06 Japan as an international hub for AI, Jerry Chi and Ilya Kulyatin, 2025.01 #Article #Pocket #NLP #Blog Issue Date: 2025-01-03 Things we learned about LLMs in 2024, Simon Willson's blog, 2024.12 Comment
元ポスト:
#Article #NLP #LanguageModel #Blog Issue Date: 2024-12-24 OpenAI o3は,人間とは全く異質の汎用知能である危険性【東大解説】, 神楽坂やちま, 2024.12 Comment
様々な有識者の見解をまとめつつ、文献を引用しつつ、かつ最終的に「人間が知能というものに対してなんらかのバイアスを持っている」可能性がある、という話をしており興味深い。
一部の有識者はARC-AGIの一部の、人間なら見た瞬間に分かるようなパターン認識の問題でも解けていないことから、AGIではないと主張しているとのことだったが、人間目線で簡単な問題が解けることはAGIとして必須な条件ではないよね、といった話が書かれており、そもそも有識者がどのようなものさしや観点でAGIを見ているのか、どういう視点があるのか、ということが感覚的に分かる内容であり、おもしろかった。
しかし、そもそも何がどうなったらAGIが実現できたと言えるのだろうか?定義がわからない(定義、あるのか…?)
#Article #Repository Issue Date: 2024-12-20 Genesis, Genesis-Embodied-AI, 2024.12 Comment
新たな物理AIエンジン。デモ動画がすごい
https://genesis-embodied-ai.github.io
#Article #Tutorial #Repository Issue Date: 2024-12-12 GoogleCloudPlatform_generative-ai, Google, 2024.12 Comment
Google Cloudで生成AI(Gemini+Vertex AI)を動かすためのサンプルコード集
元ポスト:
#Article #ComputerVision #OpenWeight Issue Date: 2024-10-05 MovieGen, Meta, 2024.10 #Article #Survey #Blog Issue Date: 2024-10-01 生成AIを活用したシステム開発 の現状と展望 - 生成AI時代を見据えたシステム開発に向けて-, 株式会社日本総合研究所 先端技術ラボ, 2024.09 Comment
ソフトウェア開発で利用され始めている生成AIのプロダクト群と、それらに関連するソースコード生成やテストコード生成、エージェントによる自動システム開発等の研究動向、今後の展望について具体的に記述されている。
SIerやITベンダー内では、実際に活用しているところも一部あるようだが、まだ検証や改革の途中の模様。要件定義に対するLLMの活用も模索されているようだが、産業側もアカデミックも研究段階。
web系では、サイバーやLINEヤフーが全社的にすでにGithub Copilotを導入しているとのこと。
Devin AIのように、Github上のオープンソースのIssueをもとにしたベンチマークで、2294件中13.86%のIssueを解決した、みたいな話を見ると、そのうちコードを書く仕事はIssueを立てる仕事に置き換わるんだろうなあ、という所感を得た(小並感
#Article #Pocket #NLP #QuestionAnswering #LLMAgent #RAG(RetrievalAugmentedGeneration) #Repository Issue Date: 2024-09-11 PaperQA2, 2023.02 Comment
元ポスト:
#Article #Tutorial #NLP #LanguageModel #Repository #OpenSource Issue Date: 2024-04-14 Open Source Cookbook Comment
HuggingFaceによる様々な実用的なアプリケーションをオープンソースの実装やモデルで実現するノートブックがまとまったリポジトリ。LLM-as-a-judge, RAG, PEFTによるPrompt Tuning(Prefix Tuningとかそっち系の話だと思われる)など、現在16種類ほどあるらしい。
改めて見たら数がかなり増えていた
#Article #ComputerVision #NLP #MultiModal Issue Date: 2023-12-01 LaVie: Text-to-Video generation, demo Comment
デモのデフォルトで試してみたら、3秒ほどのprompt通りの動画が生成された。
FF14の赤魔導士に変えたら、それっぽいの出てきた
#Article #Blog Issue Date: 2023-11-17 生成系 AI でプロダクトの価値を高めるには, 2023 Comment
AWS久保さんの資料。後で読む
#Article #Tutorial #NLP #LanguageModel #Alignment #Hallucination #Blog Issue Date: 2023-11-03 生成AIが抱えるリスクと対策, LYCorp‘23 Comment
この資料をスタートにReferしている論文などを勉強すると、GenerativeAIのリスク周りに詳しくなれそう。この辺は疎いので勉強になる。
しかし、LLMのAlignmentが不十分だったり、Hallucinationを100%防ぐことは原理的に不可能だと思われるので、この辺とどう付き合っていくかがLLMと付き合っていく上で難しいところ。この辺は自分たちが活用したいユースケースに応じて柔軟に対応しなければならず、この辺の細かいカスタマイズをする地道な作業はずっと残り続けるのではないかなあ
#Article #Blog #Game Issue Date: 2023-07-11 Open Source AI Game Jam, 2023 Comment
GenerativeAIを使ってゲームを作る取り組み
#Article #RecommenderSystems #Survey Issue Date: 2023-05-10 awesome-generative-information-retrieval Comment
Generativeなモデルを利用したDocument RetrievalやRecSys等についてまとまっているリポジトリ
#Article #Tools #Blog #Coding Issue Date: 2023-01-21 CodeGPT: The VSCode Extension with ChatGPT-Like Functionalities Comment
VSCodeの拡張で、//から始まるPromptをエディタ上で記載することで対応するコードをGPT3が生成してくれる模様。便利そう