GenerativeAIに関する論文・技術記事メモの一覧

GenerativeAI

[Paper Note] EditLens: Quantifying the Extent of AI Editing in Text, Katherine Thai+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #read-later #text #AI Detector Issue Date: 2025-11-16 GPT Summary- AIによるテキスト編集の検出に関する研究を行い、AI編集の程度を定量化する類似性指標を提案。これを基に回帰モデルEditLensを訓練し、人間とAIのテキストを高精度で区別。AI編集の影響を分析し、著作権や教育に関する示唆を提供。モデルとデータセットは公開予定。 Comment

元ポスト:

Loading…

興味深い👀

Measuring AI Ability to Complete Long Tasks, Thomas Kwa+, arXiv'25, 2025.03

Paper/Blog Link My Issue
#Metrics #NLP #LanguageModel #Evaluation #Selected Papers/Blogs #KeyPoint Notes #Reference Collection Issue Date: 2025-03-31 GPT Summary- 新しい指標「50%-タスク完了時間ホライズン」を提案し、AIモデルの能力を人間の観点から定量化。Claude 3.7 Sonnetは約50分の時間ホライズンを持ち、AIの能力は2019年以降約7か月ごとに倍増。信頼性や論理的推論の向上が要因とされ、5年以内にAIが多くのソフトウェアタスクを自動化できる可能性を示唆。 Comment

元ポスト:

Loading…

確かに線形に見える。てかGPT-2と比べるとAIさん進化しすぎである…。

利用したデータセットは
- HCAST: 46のタスクファミリーに基づく97種類のタスクが定義されており、たとえばサイバーセキュリティ、機械学習、ソフトウェアエンジニアリング、一般的な推論タスク（wikipediaから事実情報を探すタスクなど）などがある
- 数分で終わるタスク: 上述のwikipedia
- 数時間で終わるタスク: Pytorchのちょっとしたバグ修正など
- 数文でタスクが記述され、コード、データ、ドキュメント、あるいはwebから入手可能な情報を参照可能
　- タスクの難易度としては当該ドメインに数年間携わった専門家が解ける問題
- RE-Bench Suite
- 7つのopen endedな専門家が8時間程度を要するMLに関するタスク
　- e.g., GPT-2をQA用にFinetuningする, Finetuningスクリプトが与えられた時に挙動を変化させずにランタイムを可能な限り短縮する、など
　- [RE-Bench Technical Report]( https://metr.org/AI_R_D_Evaluation_Report.pdf)のTable2等を参照のこと
- SWAA Suite: 66種類の1つのアクションによって1分以内で終わるソフトウェアエンジニアリングで典型的なタスク
- 1分以内で終わるタスクが上記データになかったので著者らが作成

であり、画像系やマルチモーダルなタスクは含まれていない。

タスクと人間がタスクに要する時間の対応に関するサンプルは下記

タスク-エージェントペアごとに8回実行した場合の平均の成功率。確かにこのグラフからはN年後には人間で言うとこのくらいの能力の人がこのくらい時間を要するタスクが、このくらいできるようになってます、といったざっくり感覚値はなかなか想像できない。

成功率とタスクに人間が要する時間に関するグラフ。ロジスティック関数でfittingしており、赤い破線が50% horizon。Claude 3.5 Sonnet （old）からClaude 3.7 Sonnetで50% horizonは18分から59分まで増えている。実際に数字で見るとイメージが湧きやすくおもしろい。

こちらで最新モデルも随時更新される:
https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/

Recommendation with Generative Models, Yashar Deldjoo+, N_A, arXiv'24

Paper/Blog Link My Issue
#RecommenderSystems #Tutorial #LanguageModel #DiffusionModel Issue Date: 2024-09-24 GPT Summary- 生成モデルは新しいデータを生成するAIモデルであり、GANやVAE、トランスフォーマーに基づくアーキテクチャが注目されている。特にレコメンダーシステムにおいては、Gen-RecSysが推薦の精度と多様性を向上させ、パーソナライズされたユーザー体験を提供する。本書では、深層生成モデルをID駆動モデル、LLM、マルチモーダルモデルの3つに分類し、それぞれの技術的進展を紹介。生成モデルの影響やリスクについても考察し、評価フレームワークの重要性を強調する。 Comment

生成モデルやGenerativeAIによるRecSysの教科書

A Review of Modern Recommender Systems Using Generative Models （Gen-RecSys）, Yashar Deldjoo+, N_A, arXiv'24

Paper/Blog Link My Issue
#RecommenderSystems #Survey #Pocket Issue Date: 2024-04-02 GPT Summary- 従来のレコメンドシステムは、ユーザー-アイテムの評価履歴を主要なデータソースとして使用してきたが、最近では生成モデルを活用して、テキストや画像など豊富なデータを含めた新しい推薦タスクに取り組んでいる。この研究では、生成モデル（Gen-RecSys）を用いたレコメンドシステムの進歩に焦点を当て、相互作用駆動型生成モデルや大規模言語モデル（LLM）を用いた生成型推薦、画像や動画コンテンツの処理と生成のためのマルチモーダルモデルなどについて調査している。未解決の課題や必要なパラダイムについても議論している。

SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction, Xinyuan Chen+, N_A, arXiv'23

Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #MultiModal Issue Date: 2023-12-01 GPT Summary- 本研究では、ビデオ生成において連続した長いビデオを生成するためのジェネレーティブなトランジションと予測に焦点を当てたモデルSEINEを提案する。SEINEはテキストの説明に基づいてトランジションを生成し、一貫性と視覚的品質を確保した長いビデオを生成する。さらに、提案手法は他のタスクにも拡張可能であり、徹底的な実験によりその有効性が検証されている。 Comment

https://huggingface.co/spaces/Vchitect/SEINE

画像 + テキストpromptで、動画を生成するデモ

Anthropic Economic Index: new building blocks for understanding AI use, Anthropic, 2026.01

Paper/Blog Link My Issue
#Article #Analysis #Blog Issue Date: 2026-01-16 Comment

元ポスト:

Loading…

Cowork: Claude Code for the rest of your work, Anthropic, 2026.01

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Blog Issue Date: 2026-01-13 Comment

元ポスト:

Loading…

競合（こちらは完全にオフラインで動作する）:
- 🍫 Local Cocoa: Your Personal AI Assistant, Fully Local 💻, synvo-ai, 2026.01

Loading…

ChatGPT ヘルスケアが登場, OpenAI, 2026.01

Paper/Blog Link My Issue
#Article #ChatGPT #Blog Issue Date: 2026-01-09 Comment

元ポスト:

Loading…

GPT-5.2 が登場専門的な業務や長時間稼働するエージェント向けの、最先端のフロンティアモデル。, OpenAI, 2025.12

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ChatGPT #Reasoning #Proprietary #Selected Papers/Blogs Issue Date: 2025-12-12 Comment

元ポスト:

Loading…

OpenAIがGPT-5.2をリリースし、再び様々なベンチマークにおいてGemini 3 Proをoutperform。

フロントエンド開発（デザイン）（アリーナ形式）ではOpus, Gemini 3 Proの勝利らしい:

Loading…

https://www.designarena.ai

ポイント解説:

Loading…

GDPval:
- [Paper Note] GDPval: Evaluating AI Model Performance on Real-World Economically Valuable Tasks, Tejal Patwardhan+, arXiv'25, 2025.10
- GDPVAL: EVALUATING AI MODEL PERFORMANCE ON REAL-WORLD ECONOMICALLY VALUABLE TASKS, Patwardhan+, 2025.09

GDPvalのclearwinがGPT-5.2- Thinkingで49.8%なので、14年程度の専門家がこなす米国主要産業の一部のタスクは数値上は置き換え可能という風に見える。Proに至っては60.0%である。
が、GDPvalはたとえば以下のようなlimitationがあり、数値の解釈には注意が必要である:
- 完全なcontextが与えられる前提
- 暗黙知が多いタスクは対象外
- 自己完結型で他社とのコミュニケーションが必要とされないタスクを対象
- 1職種あたり30タスク程度の限定的な網羅性
- コンピュータを利用したタスクのみ
- ...

実際の現場で活用しようと思うと、完全なcontextを揃えられるか、揃わない場合に不完全なcontextでタスクを遂行できるか、そのための社内での運用フローの整備等、モデルを活用するための周辺のシステムや運用フローの設計が重要（かつ膨大）である点には（ベンチマークのスコアを見ると驚くべき進歩だが）留意する必要がある。

Vals AI IndexというGDPvalに類似したベンチマークでもSoTAとのこと:

Loading…

State of AI An Empirical 100 Trillion Token Study with OpenRouter, Aubakirova+, OpenRouter, 2025.12

Paper/Blog Link My Issue
#Article #Analysis #NLP #LanguageModel #One-Line Notes Issue Date: 2025-12-09 Comment

元ポスト:

Loading…

> 利用傾向として、最初に課題を解決したモデルがその後も使われ続けるという「ガラスの靴」現象が起きている。これは、あるモデルがリリース改善したとき、特定の技術的・経済的制約を満たす瞬間があり、そのときにユーザーが一気に使い始め、一度それが起きるとシステム設計、データパイプライン、ユーザー習慣がそのモデルを中心に構築されるため、乗り換えインセンティブは急激に低下し、ユーザー離脱がおきづらくなるものである。

（上記元ポストより引用）

特にこの点は非常に興味深いと感じる。一度設計や評価をしてしまうと簡単にはモデルを変更できずロックインするという状況は実際に見聞きする。Tech Giantが汎用的なモデルを出し続けるなら、資金力やリソースが乏しい場合は同じ土俵ではなく、特定ユースケース特化で小型、か　高性能、かつ使いやすいインタフェースをセットで出すのが良さそうではある（最近見かけるのはOCR, 翻訳などだろうか）。

Ilya Sutskever – We're moving from the age of scaling to the age of research, DWARKESH PATEL, 2025.11

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #One-Line Notes Issue Date: 2025-11-29 Comment

元ポスト:

Loading…

現在のnext token predictionに基づく事前学習とRLに基づくスケーリング則による性能改善の時代から（理解が進んでいない部分があり、特に現在のRLでは汎化性能が十分に獲得できないため）、人間のような高度な価値関数の探求を含む新たなパラダイムを研究する時代の到来に関する話な模様

Kimi Agentic Slides, Kimi.ai, 2025.11

Paper/Blog Link My Issue
#Article #Slide Issue Date: 2025-11-29 Comment

元ポスト:

Loading…

pptxで編集可能な美麗スライドをファイル等から自動生成できるらしい

Estimating AI productivity gains from Claude conversations, Anthropic, 2025.11

Paper/Blog Link My Issue
#Article #Conversation #read-later #Selected Papers/Blogs Issue Date: 2025-11-26 Comment

元ポスト:

Loading…

うーん気になる！

Stanford Agentic Reviewer, Stanford University, 2025.11

Paper/Blog Link My Issue
#Article #NLP #AIAgents #Blog #One-Line Notes Issue Date: 2025-11-25 Comment

元ポスト:

Loading…

Andrew Ng氏によるAI Agentによる論文のレビュワーシステムで、ICLR'25のレビューで学習し、テストセットで評価したところ、人間-人間間の相関と人間-AI間の相関係数が同等の水準に到達とのこと。ICLR'25のレビューで学習しているということは当該ドメインに近しい研究であるほど適切なレビューが実施されるであろう点に注意。

Introducing Nano Banana Pro, Google, 2025.11

Paper/Blog Link My Issue
#Article #ComputerVision #Proprietary #Selected Papers/Blogs #2D (Image) Issue Date: 2025-11-21 Comment

元ポスト:

Loading…

所見:

Loading…

所見:

Loading…

Introducing Google Antigravity, a New Era in AI-Assisted Software Development, Google, 2025.11

Paper/Blog Link My Issue
#Article #LanguageModel #AIAgents #Blog #Proprietary #SoftwareEngineering Issue Date: 2025-11-19 Comment

元ポスト:

Loading…

google謹製のAI Agent FirstなIDE、らしい

Gemini 3 による知性の新時代, Google, 2025.11

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #Proprietary #Selected Papers/Blogs #One-Line Notes #Reference Collection Issue Date: 2025-11-19 Comment

所見:

Loading…

GPT5.1に対して各種ベンチマークで上回る性能。

所見:

Loading…

Gemini2.5 Proは回答が冗長で使いにくかったが、Gemini3は冗長さがなくなり、クリティカルな情報を簡潔に、しかし短すぎない、ちょうど良いくらいの応答に感じており、レスポンスもGPT5.1, GPT5と比べ早いので普段使いのLLMとしては非常に良いのではないか、という感想（2,3個のクエリを投げただけだが）を抱いた。

Oriol Vinyals氏のコメント:

Loading…

LiveCodeBench ProでもSoTA:

Loading…

Gemini Pro 3 Developer Guide:
https://ai.google.dev/gemini-api/docs/gemini-3?hl=ja

元ポスト:

Loading…

GAIA Verified （Browser Use?)でもSoTA:

Loading…

ただし、どのようなハーネスが使われているかは不明だし、それらが各モデルにとってフェアなものになってるかも不明
スクショのみでリンクも無し。

所見:

Loading…

content window,pricingなどの情報:

Loading…

一般的なユースケースでのBest Practice:

Loading…

パラメータ数に関する考察:

Loading…

韓国語でのベンチマークに関するポスト:

Loading…

自身のハーネス、ユースケース、タスクではうまくいかなかったよという話（でもただのサンプル数1だよ、という話が記載されている）:

Loading…

結局のところベンチマークはあくまで参考程度であり、自分たちのタスク、データセットで性能を測らねばわからない。

Artificial Intelligenceによる評価:

Loading…

MCP Universeでtop:

Loading…

- [Paper Note] MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers, Ziyang Luo+, arXiv'25

Live SWE Agentと呼ばれるself-evolvingな枠組みを採用した場合（＝scaffoldをbashのみから自己進化させる）のSWE Bench Vevifiedにやる評価でもSoTA:

Loading…

- [Paper Note] Live-SWE-agent: Can Software Engineering Agents Self-Evolve on the Fly?, Chunqiu Steven Xia+, arXiv'25, 2025.11
- SWE-bench: Can Language Models Resolve Real-World GitHub Issues?, Carlos E. Jimenez+, ICLR'24

この辺のsoftware agent系のベンチマークにおけるハーネスが具体的にどうなっているのか、中身を見たことないので見ておきたい。

（追記）
SWE Bench Verifiedのリーダーボードではmini-SWE-Agentを利用した公正な比較が行われており、こちらではGemini3がトップだったもののその後リリースされたClaude-Opus-4.5がtopを僅差で奪還しGemini3が2位とのこと。

Loading…

ハーネスについてはこちらを読むと良さそう:
- [Paper Note] SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering, John Yang+, arXiv'24, 2024.05

EpochAIによる評価:

Loading…

ECIでtop。ECIは39のベンチマークから算出されるスコア、らしい。

Scale AIのVisual Tool BenchでもSoTA:

Loading…

- Beyond Seeing: Evaluating Multimodal LLMs On Tool-enabled Image Perception, Transformation, and Reasoning, Scale AI, 2025.10

CriPtと呼ばれるベンチマークにおける評価でもSoTA:

Loading…

- [Paper Note] Probing the Critical Point (CritPt) of AI Reasoning: a Frontier Physics Research Benchmark, Minhui Zhu+, arXiv'25, 2025.09

最近提案された新たなtooluseベンチマークでもsecond placeらしい:
- [Paper Note] The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution, Junlong Li+, arXiv'25, 2025.10

Loading…

IQ130らしい（果たして）:

Loading…

GPQA DiamondでSoTA:

Loading…

Jeff Dean氏によるポスト:

Loading…

AI in Practice Survey 2025, Theory Ventures, 2025.11

Paper/Blog Link My Issue
#Article #Blog Issue Date: 2025-11-19 Comment

元ポスト:

Loading…

Grok 4.1, xAI, 2025.11

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #Proprietary #Selected Papers/Blogs Issue Date: 2025-11-18 Comment

元ポスト:

Loading…

Third-Party Pangram Evaluations, Pangram., Destiny Akinode, 2025.11

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #text #AI Detector Issue Date: 2025-11-16 Comment

元ポスト:

Loading…

Mapping the AI Supply Chain, Cen+, Stanford University, 2025.11

Paper/Blog Link My Issue
#Article #Blog Issue Date: 2025-11-12 Comment

元ポスト:

Loading…

Project AELLA: Custom LLMs to process 100 Million Research Papers, ssam Hogan, 2025.11

Paper/Blog Link My Issue
#Article #DocumentSummarization #NLP #LanguageModel #Blog #Science Issue Date: 2025-11-12 Comment

100M+の論文に対してAIによる要約を作成し構造化した上でvisualizeすることでよりscientificな情報へのアクセシビリティを高めたい、という話に見える

AI progress and recommendations, OpenAI, 2025.11

Paper/Blog Link My Issue
#Article #Blog #read-later Issue Date: 2025-11-10 Comment

元ポスト:

Loading…

How we are building the personal health coach, Patel+, 2025.10

Paper/Blog Link My Issue
#Article #LanguageModel #Blog #Health Issue Date: 2025-10-28 Comment

元ポスト:

Loading…

fitbitユーザなので普通に気になる

Advancing Claude for Financial Services, Anthropic, 2025.10

Paper/Blog Link My Issue
#Article #NLP #Blog #Financial #Proprietary Issue Date: 2025-10-28 Comment

元ポスト:

Loading…

Introducing ChatGPT Atlas, OpenAI, 2025.10

Paper/Blog Link My Issue
#Article #ChatGPT #Blog Issue Date: 2025-10-23 Comment

元ポスト:

Loading…

ブラウザのサイドバーでchatgptにサイトに関して質問できたり、agenticな使い方もできる模様？

Shipping with Codex, OpenAI, 2025.10

Paper/Blog Link My Issue
#Article #NLP #AIAgents #Coding #Video #SoftwareEngineering #One-Line Notes Issue Date: 2025-10-12 Comment

元ポスト:

Loading…

OpenAI内部で92%の技術スタッフがdailyで利用している、というマーケティングメッセージが非常に強力で、説得力を持たせていると感じる。

STATE OF AI REPORT 2025, Nathan Benaich, 2025.10

Paper/Blog Link My Issue
#Article #Survey #LanguageModel #Blog #read-later Issue Date: 2025-10-11 Comment

元ポスト:

Loading…

所見:

Loading…

The browser that works for you, Perplexity, 2025.10

Paper/Blog Link My Issue
#Article #Blog Issue Date: 2025-10-03 Comment

めちゃ使いたい

元ポスト:

Loading…

AIインフラを考える, Masayuki Kobayashi, 第38回 ISOC-JP Workshop, 2025.09

Paper/Blog Link My Issue
#Article #MachineLearning #LanguageModel #Infrastructure #Slide #read-later #One-Line Notes Issue Date: 2025-09-28 Comment

元ポスト:

Loading…

KVCacheサイズとデータ転送量の部分はパフォーマンスチューニングの際に重要なのですぐにでも活用できそう。前半部分は私にとっては難しかったので勉強したい。

style-bert-vits2-Anneli, kaunista, 2025.09

Paper/Blog Link My Issue
#Article Issue Date: 2025-09-08 Comment

元ポスト:

Loading…

AivisSpeechと呼ばれる音声合成AIがデフォルトモデルとしていたモデルが非公開となり、その経緯が詳細に記載されている。

Writing Code Was Never The Bottleneck, ordep.dev, 2025.06

Paper/Blog Link My Issue
#Article #Blog #Coding Issue Date: 2025-09-07 Comment

元ポスト:

Loading…

Japan as an international hub for AI, Jerry Chi and Ilya Kulyatin, 2025.01

Paper/Blog Link My Issue
#Article #Blog Issue Date: 2025-01-06

Things we learned about LLMs in 2024, Simon Willson's blog, 2024.12

Paper/Blog Link My Issue
#Article #Pocket #NLP #Blog Issue Date: 2025-01-03 Comment

元ポスト:

Loading…

OpenAI o3は，人間とは全く異質の汎用知能である危険性【東大解説】, 神楽坂やちま, 2024.12

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog Issue Date: 2024-12-24 Comment

様々な有識者の見解をまとめつつ、文献を引用しつつ、かつ最終的に「人間が知能というものに対してなんらかのバイアスを持っている」可能性がある、という話をしており興味深い。
一部の有識者はARC-AGIの一部の、人間なら見た瞬間に分かるようなパターン認識の問題でも解けていないことから、AGIではないと主張しているとのことだったが、人間目線で簡単な問題が解けることはAGIとして必須な条件ではないよね、といった話が書かれており、そもそも有識者がどのようなものさしや観点でAGIを見ているのか、どういう視点があるのか、ということが感覚的に分かる内容であり、おもしろかった。

しかし、そもそも何がどうなったらAGIが実現できたと言えるのだろうか？定義がわからない（定義、あるのか…？）

Genesis, Genesis-Embodied-AI, 2024.12

Paper/Blog Link My Issue
#Article #Repository Issue Date: 2024-12-20 Comment

新たな物理AIエンジン。デモ動画がすごい
https://genesis-embodied-ai.github.io

参考: https://www.linkedin.com/posts/philipp-schmid-a6a2bb196_wtf-new-open-source-physics-ai-engine-absolutely-activity-7275404749858865152-Iprb?utm_source=share&utm_medium=member_ios

GoogleCloudPlatform_generative-ai, Google, 2024.12

Paper/Blog Link My Issue
#Article #Tutorial #Repository Issue Date: 2024-12-12 Comment

Google Cloudで生成AI（Gemini+Vertex AI）を動かすためのサンプルコード集

元ポスト:

Loading…

MovieGen, Meta, 2024.10

Paper/Blog Link My Issue
#Article #ComputerVision #OpenWeight Issue Date: 2024-10-05

生成AIを活用したシステム開発の現状と展望 - 生成AI時代を見据えたシステム開発に向けて-, 株式会社日本総合研究所先端技術ラボ, 2024.09

Paper/Blog Link My Issue
#Article #Survey #Blog Issue Date: 2024-10-01 Comment

ソフトウェア開発で利用され始めている生成AIのプロダクト群と、それらに関連するソースコード生成やテストコード生成、エージェントによる自動システム開発等の研究動向、今後の展望について具体的に記述されている。

SIerやITベンダー内では、実際に活用しているところも一部あるようだが、まだ検証や改革の途中の模様。要件定義に対するLLMの活用も模索されているようだが、産業側もアカデミックも研究段階。

web系では、サイバーやLINEヤフーが全社的にすでにGithub Copilotを導入しているとのこと。

Devin AIのように、Github上のオープンソースのIssueをもとにしたベンチマークで、2294件中13.86%のIssueを解決した、みたいな話を見ると、そのうちコードを書く仕事はIssueを立てる仕事に置き換わるんだろうなあ、という所感を得た（小並感

PaperQA2, 2023.02

Paper/Blog Link My Issue
#Article #Pocket #NLP #QuestionAnswering #AIAgents #RAG(RetrievalAugmentedGeneration) #Repository Issue Date: 2024-09-11 Comment

元ポスト:

Loading…

Open Source Cookbook

Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #Repository #OpenSource Issue Date: 2024-04-14 Comment

HuggingFaceによる様々な実用的なアプリケーションをオープンソースの実装やモデルで実現するノートブックがまとまったリポジトリ。LLM-as-a-judge, RAG, PEFTによるPrompt Tuning（Prefix Tuningとかそっち系の話だと思われる）など、現在16種類ほどあるらしい。

改めて見たら数がかなり増えていた

LaVie: Text-to-Video generation, demo

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #MultiModal Issue Date: 2023-12-01 Comment

デモのデフォルトで試してみたら、3秒ほどのprompt通りの動画が生成された。

FF14の赤魔導士に変えたら、それっぽいの出てきた

生成系 AI でプロダクトの価値を高めるには, 2023

Paper/Blog Link My Issue
#Article #Blog Issue Date: 2023-11-17 Comment

AWS久保さんの資料。後で読む

生成AIが抱えるリスクと対策, LYCorp‘23

Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #Alignment #Hallucination #Blog Issue Date: 2023-11-03 Comment

この資料をスタートにReferしている論文などを勉強すると、GenerativeAIのリスク周りに詳しくなれそう。この辺は疎いので勉強になる。
しかし、LLMのAlignmentが不十分だったり、Hallucinationを100%防ぐことは原理的に不可能だと思われるので、この辺とどう付き合っていくかがLLMと付き合っていく上で難しいところ。この辺は自分たちが活用したいユースケースに応じて柔軟に対応しなければならず、この辺の細かいカスタマイズをする地道な作業はずっと残り続けるのではないかなあ

Open Source AI Game Jam, 2023

Paper/Blog Link My Issue
#Article #Blog #Game Issue Date: 2023-07-11 Comment

GenerativeAIを使ってゲームを作る取り組み

awesome-generative-information-retrieval

Paper/Blog Link My Issue
#Article #RecommenderSystems #Survey Issue Date: 2023-05-10 Comment

Generativeなモデルを利用したDocument RetrievalやRecSys等についてまとまっているリポジトリ

CodeGPT: The VSCode Extension with ChatGPT-Like Functionalities

Paper/Blog Link My Issue
#Article #Tools #Blog #Coding Issue Date: 2023-01-21 Comment

VSCodeの拡張で、//から始まるPromptをエディタ上で記載することで対応するコードをGPT3が生成してくれる模様。便利そう

GenerativeAI

[Paper Note] EditLens: Quantifying the Extent of AI Editing in Text, Katherine Thai+, arXiv'25, 2025.10

Measuring AI Ability to Complete Long Tasks, Thomas Kwa+, arXiv'25, 2025.03

Recommendation with Generative Models, Yashar Deldjoo+, N_A, arXiv'24

A Review of Modern Recommender Systems Using Generative Models （Gen-RecSys）, Yashar Deldjoo+, N_A, arXiv'24

SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction, Xinyuan Chen+, N_A, arXiv'23

Anthropic Economic Index: new building blocks for understanding AI use, Anthropic, 2026.01

Cowork: Claude Code for the rest of your work, Anthropic, 2026.01

ChatGPT ヘルスケアが登場, OpenAI, 2026.01

GPT-5.2 が登場 専門的な業務や長時間稼働するエージェント向けの、最先端のフロンティアモデル。, OpenAI, 2025.12

State of AI An Empirical 100 Trillion Token Study with OpenRouter, Aubakirova+, OpenRouter, 2025.12

Ilya Sutskever – We're moving from the age of scaling to the age of research, DWARKESH PATEL, 2025.11

Kimi Agentic Slides, Kimi.ai, 2025.11

Estimating AI productivity gains from Claude conversations, Anthropic, 2025.11

Stanford Agentic Reviewer, Stanford University, 2025.11

Introducing Nano Banana Pro, Google, 2025.11

Introducing Google Antigravity, a New Era in AI-Assisted Software Development, Google, 2025.11

Gemini 3 による知性の新時代, Google, 2025.11

AI in Practice Survey 2025, Theory Ventures, 2025.11

Grok 4.1, xAI, 2025.11

Third-Party Pangram Evaluations, Pangram., Destiny Akinode, 2025.11

Mapping the AI Supply Chain, Cen+, Stanford University, 2025.11

Project AELLA: Custom LLMs to process 100 Million Research Papers, ssam Hogan, 2025.11

AI progress and recommendations, OpenAI, 2025.11

How we are building the personal health coach, Patel+, 2025.10

Advancing Claude for Financial Services, Anthropic, 2025.10

Introducing ChatGPT Atlas, OpenAI, 2025.10

Shipping with Codex, OpenAI, 2025.10

STATE OF AI REPORT 2025, Nathan Benaich, 2025.10

The browser that works for you, Perplexity, 2025.10

AIインフラを考える, Masayuki Kobayashi, 第38回 ISOC-JP Workshop, 2025.09

style-bert-vits2-Anneli, kaunista, 2025.09

Writing Code Was Never The Bottleneck, ordep.dev, 2025.06

Japan as an international hub for AI, Jerry Chi and Ilya Kulyatin, 2025.01

Things we learned about LLMs in 2024, Simon Willson's blog, 2024.12

OpenAI o3は，人間とは全く異質の汎用知能である危険性【東大解説】, 神楽坂やちま, 2024.12

Genesis, Genesis-Embodied-AI, 2024.12

GoogleCloudPlatform_generative-ai, Google, 2024.12

MovieGen, Meta, 2024.10

生成AIを活用したシステム開発 の現状と展望 - 生成AI時代を見据えたシステム開発に向けて-, 株式会社日本総合研究所 先端技術ラボ, 2024.09

PaperQA2, 2023.02

Open Source Cookbook

LaVie: Text-to-Video generation, demo

生成系 AI でプロダクトの価値を高めるには, 2023

生成AIが抱えるリスクと対策, LYCorp‘23

Open Source AI Game Jam, 2023

awesome-generative-information-retrieval

CodeGPT: The VSCode Extension with ChatGPT-Like Functionalities

GPT-5.2 が登場専門的な業務や長時間稼働するエージェント向けの、最先端のフロンティアモデル。, OpenAI, 2025.12

生成AIを活用したシステム開発の現状と展望 - 生成AI時代を見据えたシステム開発に向けて-, 株式会社日本総合研究所先端技術ラボ, 2024.09