GenerativeAI

#Metrics #NLP #LanguageModel #Evaluation #Admin'sPick
Issue Date: 2025-03-31 Measuring AI Ability to Complete Long Tasks, Thomas Kwa+, arXiv'25 Summary新しい指標「50%-タスク完了時間ホライズン」を提案し、AIモデルの能力を人間の観点から定量化。Claude 3.7 Sonnetは約50分の時間ホライズンを持ち、AIの能力は2019年以降約7か月ごとに倍増。信頼性や論理的推論の向上が要因とされ、5年以内にAIが多くのソフトウェアタスクを自動化できる可能性を示唆。 Comment元ポスト:https://x.com/hillbig/status/1902854727089656016?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q確かに線形に見える。てかGPT-2と比べるとAIさん進化しすぎである…。
image利用したデータセットは
・HCAST: 46のタスクファミリーに基づく97種類のタスクが定義されており、たとえばサイバーセキュリティ、機械学習、ソフトウェアエンジニアリング、一般的な推論タスク(wikipediaから事実情報を探すタスクなど)などがある
・数分で終わるタスク: 上述のwikipedia
・数時間で終わるタスク: Pytorchのちょっとしたバグ修正など
・数文でタスクが記述され、コード、データ、ドキュメント、あるいはwebから入手可能な情報を参照可能
 ・タスクの難易度としては当該ドメインに数年間携わった専門家が解ける問題
・RE-Bench Suite
・7つのopen endedな専門家が8時間程度を要するMLに関するタスク
 ・e.g., GPT-2をQA用にFinetuningする, Finetuningスクリプトが与えられた時に挙動を変化させずにランタイムを可能な限り短縮する、など
 ・[RE-Bench Technical Report](https://metr.org/AI_R_D_Evaluation_Report.pdf)のTable2等を参照のこと
・SWAA Suite: 66種類の1つのアクションによって1分以内で終わるソフトウェアエンジニアリングで典型的なタスク
・1分以内で終わるタスクが上記データになかったので著者らが作成

であり、画像系やマルチモーダルなタスクは含まれていない。
image

タスクと人間がタスクに要する時間の対応に関するサンプルは下記
imageタスク-エージェントペアごとに8回実行した場合の平均の成功率。確かにこのグラフからはN年後には人間で言うとこのくらいの能力の人がこのくらい時間を要するタスクが、このくらいできるようになってます、といったざっくり感覚値はなかなか想像できない。
image成功率とタスクに人間が要する時間に関するグラフ。ロジスティック関数でfittingしており、赤い破線が50% horizon。Claude 3.5 Sonnet (old)からClaude 3.7 Sonnetで50% horizonは18分から59分まで増えている。実際に数字で見るとイメージが湧きやすくおもしろい。
imageこちらで最新モデルも随時更新される:
https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/
#RecommenderSystems #Tutorial #LanguageModel #DiffusionModel
Issue Date: 2024-09-24 Recommendation with Generative Models, Yashar Deldjoo+, N_A, arXiv'24 Summary生成モデルは新しいデータを生成するAIモデルであり、GANやVAE、トランスフォーマーに基づくアーキテクチャが注目されている。特にレコメンダーシステムにおいては、Gen-RecSysが推薦の精度と多様性を向上させ、パーソナライズされたユーザー体験を提供する。本書では、深層生成モデルをID駆動モデル、LLM、マルチモーダルモデルの3つに分類し、それぞれの技術的進展を紹介。生成モデルの影響やリスクについても考察し、評価フレームワークの重要性を強調する。 Comment生成モデルやGenerativeAIによるRecSysの教科書
image
#RecommenderSystems #Survey #Pocket
Issue Date: 2024-04-02 A Review of Modern Recommender Systems Using Generative Models (Gen-RecSys), Yashar Deldjoo+, N_A, arXiv'24 Summary従来のレコメンドシステムは、ユーザー-アイテムの評価履歴を主要なデータソースとして使用してきたが、最近では生成モデルを活用して、テキストや画像など豊富なデータを含めた新しい推薦タスクに取り組んでいる。この研究では、生成モデル(Gen-RecSys)を用いたレコメンドシステムの進歩に焦点を当て、相互作用駆動型生成モデルや大規模言語モデル(LLM)を用いた生成型推薦、画像や動画コンテンツの処理と生成のためのマルチモーダルモデルなどについて調査している。未解決の課題や必要なパラダイムについても議論している。

#ComputerVision #Pocket #NLP #MulltiModal Issue Date: 2023-12-01 SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction, Xinyuan Chen+, N_A, arXiv'23 Summary本研究では、ビデオ生成において連続した長いビデオを生成するためのジェネレーティブなトランジションと予測に焦点を当てたモデルSEINEを提案する。SEINEはテキストの説明に基づいてトランジションを生成し、一貫性と視覚的品質を確保した長いビデオを生成する。さらに、提案手法は他のタスクにも拡張可能であり、徹底的な実験によりその有効性が検証されている。 Commenthttps://huggingface.co/spaces/Vchitect/SEINE

画像 + テキストpromptで、動画を生成するデモ
#Article #Blog Issue Date: 2025-01-06 Japan as an international hub for AI, Jerry Chi and Ilya Kulyatin, 2025.01 #Article #Pocket #NLP #Blog Issue Date: 2025-01-03 Things we learned about LLMs in 2024, Simon Willson's blog, 2024.12 Comment元ポスト:https://x.com/_stakaya/status/1875059840126722127?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #Article #NLP #LanguageModel #Blog Issue Date: 2024-12-24 OpenAI o3は,人間とは全く異質の汎用知能である危険性【東大解説】, 神楽坂やちま, 2024.12 Comment様々な有識者の見解をまとめつつ、文献を引用しつつ、かつ最終的に「人間が知能というものに対してなんらかのバイアスを持っている」可能性がある、という話をしており興味深い。
一部の有識者はARC-AGIの一部の、人間なら見た瞬間に分かるようなパターン認識の問題でも解けていないことから、AGIではないと主張しているとのことだったが、人間目線で簡単な問題が解けることはAGIとして必須な条件ではないよね、といった話が書かれており、そもそも有識者がどのようなものさしや観点でAGIを見ているのか、どういう視点があるのか、ということが感覚的に分かる内容であり、おもしろかった。

しかし、そもそも何がどうなったらAGIが実現できたと言えるのだろうか?定義がわからない(定義、あるのか…?)
#Article #Repository Issue Date: 2024-12-20 Genesis, Genesis-Embodied-AI, 2024.12 Comment新たな物理AIエンジン。デモ動画がすごい
https://genesis-embodied-ai.github.io参考: https://www.linkedin.com/posts/philipp-schmid-a6a2bb196_wtf-new-open-source-physics-ai-engine-absolutely-activity-7275404749858865152-Iprb?utm_source=share&utm_medium=member_ios
#Article #Tutorial #Repository Issue Date: 2024-12-12 GoogleCloudPlatform_generative-ai, Google, 2024.12 CommentGoogle Cloudで生成AI(Gemini+Vertex AI)を動かすためのサンプルコード集元ポスト:https://x.com/kazunori_279/status/1866975767869231547?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #Article #ComputerVision #OpenWeight Issue Date: 2024-10-05 MovieGen, Meta, 2024.10 #Article #Survey #Blog Issue Date: 2024-10-01 生成AIを活用したシステム開発 の現状と展望 - 生成AI時代を見据えたシステム開発に向けて-, 株式会社日本総合研究所 先端技術ラボ, 2024.09 Commentソフトウェア開発で利用され始めている生成AIのプロダクト群と、それらに関連するソースコード生成やテストコード生成、エージェントによる自動システム開発等の研究動向、今後の展望について具体的に記述されている。

SIerやITベンダー内では、実際に活用しているところも一部あるようだが、まだ検証や改革の途中の模様。要件定義に対するLLMの活用も模索されているようだが、産業側もアカデミックも研究段階。

web系では、サイバーやLINEヤフーが全社的にすでにGithub Copilotを導入しているとのこと。Devin AIのように、Github上のオープンソースのIssueをもとにしたベンチマークで、2294件中13.86%のIssueを解決した、みたいな話を見ると、そのうちコードを書く仕事はIssueを立てる仕事に置き換わるんだろうなあ、という所感を得た(小並感
#Article #Pocket #NLP #QuestionAnswering #LLMAgent #RAG(RetrievalAugmentedGeneration) #Repository Issue Date: 2024-09-11 PaperQA2, 2023.02 Comment元ポスト: https://x.com/sgrodriques/status/1833908643856818443?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #Article #ComputerVision #NLP #MulltiModal Issue Date: 2023-12-01 LaVie: Text-to-Video generation, demo Commentデモのデフォルトで試してみたら、3秒ほどのprompt通りの動画が生成された。

image

FF14の赤魔導士に変えたら、それっぽいの出てきた

image

#Article #Blog Issue Date: 2023-11-17 生成系 AI でプロダクトの価値を高めるには, 2023 CommentAWS久保さんの資料。後で読む #Article #Tutorial #NLP #LanguageModel #Alignment #Hallucination #Blog Issue Date: 2023-11-03 生成AIが抱えるリスクと対策, LYCorp‘23 Commentこの資料をスタートにReferしている論文などを勉強すると、GenerativeAIのリスク周りに詳しくなれそう。この辺は疎いので勉強になる。
しかし、LLMのAlignmentが不十分だったり、Hallucinationを100%防ぐことは原理的に不可能だと思われるので、この辺とどう付き合っていくかがLLMと付き合っていく上で難しいところ。この辺は自分たちが活用したいユースケースに応じて柔軟に対応しなければならず、この辺の細かいカスタマイズをする地道な作業はずっと残り続けるのではないかなあ
#Article #Blog #Game Issue Date: 2023-07-11 Open Source AI Game Jam, 2023 CommentGenerativeAIを使ってゲームを作る取り組み #Article #RecommenderSystems #Survey Issue Date: 2023-05-10 awesome-generative-information-retrieval CommentGenerativeなモデルを利用したDocument RetrievalやRecSys等についてまとまっているリポジトリ #Article #Tools #Blog #Programming Issue Date: 2023-01-21 CodeGPT: The VSCode Extension with ChatGPT-Like Functionalities CommentVSCodeの拡張で、//から始まるPromptをエディタ上で記載することで対応するコードをGPT3が生成してくれる模様。便利そう