python
#RecommenderSystems
#Tutorial
#Infrastructure
#Slide
Issue Date: 2021-10-21 コミュニティサービスにおけるレコメンデーションの変遷とMLパイプラインについて, PyCon'21 Comment・ママ向けのQ&AサービスにおけるレコメンドとMLパイプラインについて紹介
◆レコメンドエンジンの変遷
・Tensorflowで実装したMFから始まり、その後トピックを絞り込んだ上で推薦するためにLDAを活用したレコメンド、最終的にSoftmax Recommendationを開発
Softmax Recommendation: https://developers.google.com/machine-learning/recommendation/dnn/softmax
ユーザプロファイル(e.g. 行動ベクトル, ユーザの属性情報)等を入力とし、hidden layerをかませて最終的にアイテム次元数分のスコアベクトルを得る手法
行動ベクトル=ユーザが過去にクリックしたQ&Aだが、質問ベクトルを得るために内容テキストは利用せず行動ログ+word2vecで学習
類似質問検索による定性評価の結果良い結果、関連質問を抽出できるベクトルとなっていることを確認
→ レコメンド手法の変遷につれ、ベンチマークを上回るようになっていった◆MLパイプラインについて
・AWS Step FunctionsとAmazon Sagemakerを利用
・AWS Step Functions
AWS上の様々なサービスをワークフローとして定義できる(json形式でワークフローを記述)
・Amazon Sagemaker
機械学習向けのIDE
notebook上でのデータ分析・モデル学習、実験管理や学習済みモデルのデプロイが可能
Sagemaker Processingを用いることで、実行したい処理やインスタンスタイプを指定することで、notebookとは別の実行環境(コンテナ)で任意のpythonスクリプトを実行可
・ワークフローの定義=AWS Stepfunctions, スクリプト実行のリソース=Sagemaker Processingとして利用
MLパイプラインについては下記資料により詳しい情報が書かれている
https://speakerdeck.com/takapy/sagemaker-studiotostep-functionswoyong-itemlopshefalse-bu-wota-michu-sou #Article #MachineLearning #NLP #LanguageModel #Library #ReinforcementLearning #Reasoning
Issue Date: 2025-03-02 Open Reasoner Zero, Open-Reasoner-Zero, 2024.02 SummaryOpen-Reasoner-Zeroは、推論指向の強化学習のオープンソース実装で、スケーラビリティとアクセスのしやすさに重点を置いています。AGI研究の促進を目指し、ソースコードやトレーニングデータを公開しています。 Comment元ポスト:https://x.com/dair_ai/status/1893698293965725708?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #Article #LanguageModel
Issue Date: 2025-02-12 Docling, DS4SD, 2024.07 CommentUnstructuredとどちらが良いだろうか?
Issue Date: 2021-10-21 コミュニティサービスにおけるレコメンデーションの変遷とMLパイプラインについて, PyCon'21 Comment・ママ向けのQ&AサービスにおけるレコメンドとMLパイプラインについて紹介
◆レコメンドエンジンの変遷
・Tensorflowで実装したMFから始まり、その後トピックを絞り込んだ上で推薦するためにLDAを活用したレコメンド、最終的にSoftmax Recommendationを開発
Softmax Recommendation: https://developers.google.com/machine-learning/recommendation/dnn/softmax
ユーザプロファイル(e.g. 行動ベクトル, ユーザの属性情報)等を入力とし、hidden layerをかませて最終的にアイテム次元数分のスコアベクトルを得る手法
行動ベクトル=ユーザが過去にクリックしたQ&Aだが、質問ベクトルを得るために内容テキストは利用せず行動ログ+word2vecで学習
類似質問検索による定性評価の結果良い結果、関連質問を抽出できるベクトルとなっていることを確認
→ レコメンド手法の変遷につれ、ベンチマークを上回るようになっていった◆MLパイプラインについて
・AWS Step FunctionsとAmazon Sagemakerを利用
・AWS Step Functions
AWS上の様々なサービスをワークフローとして定義できる(json形式でワークフローを記述)
・Amazon Sagemaker
機械学習向けのIDE
notebook上でのデータ分析・モデル学習、実験管理や学習済みモデルのデプロイが可能
Sagemaker Processingを用いることで、実行したい処理やインスタンスタイプを指定することで、notebookとは別の実行環境(コンテナ)で任意のpythonスクリプトを実行可

・ワークフローの定義=AWS Stepfunctions, スクリプト実行のリソース=Sagemaker Processingとして利用
MLパイプラインについては下記資料により詳しい情報が書かれている
https://speakerdeck.com/takapy/sagemaker-studiotostep-functionswoyong-itemlopshefalse-bu-wota-michu-sou #Article #MachineLearning #NLP #LanguageModel #Library #ReinforcementLearning #Reasoning
Issue Date: 2025-03-02 Open Reasoner Zero, Open-Reasoner-Zero, 2024.02 SummaryOpen-Reasoner-Zeroは、推論指向の強化学習のオープンソース実装で、スケーラビリティとアクセスのしやすさに重点を置いています。AGI研究の促進を目指し、ソースコードやトレーニングデータを公開しています。 Comment元ポスト:https://x.com/dair_ai/status/1893698293965725708?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #Article #LanguageModel
Issue Date: 2025-02-12 Docling, DS4SD, 2024.07 CommentUnstructuredとどちらが良いだろうか?
#Article
#LanguageModel
#Chain-of-Thought
#StructuredData
Issue Date: 2025-01-25
Structured Outputs OpenAI Platform, 2025.01
Commentpydanticを用いて、CoT+構造化されたoutputを実施するサンプル
#Article
#Blog
Issue Date: 2025-01-04
pydantic-settingsで環境変数からもオプション引数を指定できるCLIを作る 〜サブコマンド篇〜, nikkie-ftnextの日記, 2025.01
Commentpydantic-settingsを使ったCLI作成に関する記事。環境変数からオプションを指定できるので、コマンドライン引数を動的に柔軟に変更したい場合に便利そう
#Article
#NLP
#LLMAgent
#Blog
#API
#x-Use
Issue Date: 2025-01-04
browser-use やばいです, Syoitu, 2024.12
Commentすごい手軽に使えそうだが、クローリング用途に使おうとするとhallucinationが起きた時に困るのでうーんと言ったところ。
#Article
#NLP
#LanguageModel
#Library
#Repository
#API
Issue Date: 2025-01-03
LiteLLM, BerriAI, 2023.08
Comment様々なLLMのAPIを共通のインタフェースで呼び出せるライブラリ
・1553
とどちらがいいんだ・・・?aisuiteのissueの113番のスレッドを見ると、
・LiteLLMはもはやLiteではなくなっており、コードベースの保守性が低い
・aisuiteは複数のLLMプロバイダーをシンプルに利用する方法を提供する
・今後発表されるロードマップを見れば、LiteLLMとの差別化の方向性が分かるはずだ
といった趣旨のことが記述されていた。 #Article #NLP #LanguageModel #Library #Repository #API Issue Date: 2024-11-28 aisuite, andrewyng, 2024.11 Comment複数のLLM Providerの呼び出しを共通のインタフェースで呼び出せる。変更するのは、モデルを指定するパラメータのみ。
元ポスト:https://www.linkedin.com/posts/andrewyng_announcing-new-open-source-python-package-activity-7266851242604134400-Davp?utm_source=share&utm_medium=member_ios #Article #Library Issue Date: 2024-10-07 Streamlit, 2020.12 Commentデータを用いたアプリを簡単に作れるpythonライブラリ
データ/モデルを用いたvisualization等を実施するアプリを、数行で作れてしまう。綺麗なUIつき。便利。
#Article #Library Issue Date: 2023-11-19 lifestar Comment非常に高速なpythonのASGIライブラリ。WSGIとは異なり非同期処理なためリアルタイムアプリケーションに向いているっぽい。 #Article #Blog Issue Date: 2023-10-17 Loggingモジュールではじめるログ出力入門 Comment・ライブラリ開発の際は、ライブラリのトップレベルのLoggerにNullHandlerを設定して、詳細設定を呼び出し側に委ねるのがお作法
・NullHandlerは何もせずに上位ハンドラに伝搬させるため
・ライブラリ側でやることは、タイミングとメッセージ内容のみ
・loggerを利用するか否かは、「書き捨てか否か」
・書き捨て例: 内容のちょっとした確認やデバッグ、局所的な出力、プログラムとログのライフタイムが短い
参考になるpropagateの仕組みや、構成要素、Loggerの恩恵はすべてのpythonモジュールがロギングに参加できること、モジュール名で基本的にはgetLoggerすることなど、勉強になった #Article #EfficiencyImprovement #NLP #Library #Transformer Issue Date: 2023-05-11 Assisted Generation: a new direction toward low-latency text generation, 2023 Comment1 line加えるとtransformerのgenerationが最大3倍程度高速化されるようになったらしい
assistant modelをロードしgenerateに引数として渡すだけ
#Article
#Library
#Blog
Issue Date: 2023-01-23
Polars, 2023
Commentpandasより100倍高速で複雑なクエリも見やすく書けてindexも存在しないのでバグも出にくいという優れものらしい
#Article
#NeuralNetwork
#Tools
#Library
#Blog
Issue Date: 2021-06-12
pytorch_lightning tips
CommentPyTorch Lightning 2021 (for MLコンペ)
https://qiita.com/fam_taro/items/df8656a6c3b277f58781 #Article #Tutorial #Tools #NLP #Library #Slide Issue Date: 2021-06-11 最先端自然言語処理ライブラリの最適な選択と有用な利用方法 _ pycon-jp-2020 Comment各形態素解析ライブラリの特徴や比較がされていて、自分の用途・目的に合わせてどの形態素解析器が良いか意思決定する際に有用
#Article #NeuralNetwork #Tutorial #Tools #Library Issue Date: 2021-06-06 TRTorch Commentpytorchの推論を高速化できるライブラリ。6倍ほど早くなった模様。TorchScriptを介して変換するので、PythonだけでなくC++でも動作できるらしい。 #Article #Tutorial #Tools #Library Issue Date: 2021-06-05 pytorch tips Comment【PyTorchでたまに使うけどググって情報探すのに時間かかるやつ】
https://trap.jp/post/1122/
・scatter_add, einsum, Bilinear あたりが説明されている【NLLossの細かい挙動】
https://tatsukawa.hatenablog.com/entry/2020/04/06/054700【PyTorchで絶対nanを出したいマン】
https://qiita.com/syoamakase/items/40a716f93dc8afa8fd12
PyTorchでnanが出てしまう原因とその対策が色々書いてある【pipで様々なCuda versionのpytorchをinstallする方法】
https://stackoverflow.com/questions/65980206/cuda-10-2-not-recognised-on-pip-installed-pytorch-1-7-1 #Article #EfficiencyImprovement #Library #Blog Issue Date: 2021-06-03 intel MKL Commentintel CPUでpythonの数値計算を高速化するライブラリ(numpyとかはやくなるらしい; Anacondaだとデフォルトで入ってるとかなんとか) #Article #Tools #PerformanceTesting Issue Date: 2021-05-26 locust Comment負荷テスト用のツール
JMeterと違って、pythonコードでテスト内容を制御できるらしく、かなり使いやすいらしい。
・1553
とどちらがいいんだ・・・?aisuiteのissueの113番のスレッドを見ると、
・LiteLLMはもはやLiteではなくなっており、コードベースの保守性が低い
・aisuiteは複数のLLMプロバイダーをシンプルに利用する方法を提供する
・今後発表されるロードマップを見れば、LiteLLMとの差別化の方向性が分かるはずだ
といった趣旨のことが記述されていた。 #Article #NLP #LanguageModel #Library #Repository #API Issue Date: 2024-11-28 aisuite, andrewyng, 2024.11 Comment複数のLLM Providerの呼び出しを共通のインタフェースで呼び出せる。変更するのは、モデルを指定するパラメータのみ。
元ポスト:https://www.linkedin.com/posts/andrewyng_announcing-new-open-source-python-package-activity-7266851242604134400-Davp?utm_source=share&utm_medium=member_ios #Article #Library Issue Date: 2024-10-07 Streamlit, 2020.12 Commentデータを用いたアプリを簡単に作れるpythonライブラリ
データ/モデルを用いたvisualization等を実施するアプリを、数行で作れてしまう。綺麗なUIつき。便利。
#Article #Library Issue Date: 2023-11-19 lifestar Comment非常に高速なpythonのASGIライブラリ。WSGIとは異なり非同期処理なためリアルタイムアプリケーションに向いているっぽい。 #Article #Blog Issue Date: 2023-10-17 Loggingモジュールではじめるログ出力入門 Comment・ライブラリ開発の際は、ライブラリのトップレベルのLoggerにNullHandlerを設定して、詳細設定を呼び出し側に委ねるのがお作法
・NullHandlerは何もせずに上位ハンドラに伝搬させるため
・ライブラリ側でやることは、タイミングとメッセージ内容のみ
・loggerを利用するか否かは、「書き捨てか否か」
・書き捨て例: 内容のちょっとした確認やデバッグ、局所的な出力、プログラムとログのライフタイムが短い
参考になるpropagateの仕組みや、構成要素、Loggerの恩恵はすべてのpythonモジュールがロギングに参加できること、モジュール名で基本的にはgetLoggerすることなど、勉強になった #Article #EfficiencyImprovement #NLP #Library #Transformer Issue Date: 2023-05-11 Assisted Generation: a new direction toward low-latency text generation, 2023 Comment1 line加えるとtransformerのgenerationが最大3倍程度高速化されるようになったらしい
assistant modelをロードしgenerateに引数として渡すだけ
https://qiita.com/fam_taro/items/df8656a6c3b277f58781 #Article #Tutorial #Tools #NLP #Library #Slide Issue Date: 2021-06-11 最先端自然言語処理ライブラリの最適な選択と有用な利用方法 _ pycon-jp-2020 Comment各形態素解析ライブラリの特徴や比較がされていて、自分の用途・目的に合わせてどの形態素解析器が良いか意思決定する際に有用

#Article #NeuralNetwork #Tutorial #Tools #Library Issue Date: 2021-06-06 TRTorch Commentpytorchの推論を高速化できるライブラリ。6倍ほど早くなった模様。TorchScriptを介して変換するので、PythonだけでなくC++でも動作できるらしい。 #Article #Tutorial #Tools #Library Issue Date: 2021-06-05 pytorch tips Comment【PyTorchでたまに使うけどググって情報探すのに時間かかるやつ】
https://trap.jp/post/1122/
・scatter_add, einsum, Bilinear あたりが説明されている【NLLossの細かい挙動】
https://tatsukawa.hatenablog.com/entry/2020/04/06/054700【PyTorchで絶対nanを出したいマン】
https://qiita.com/syoamakase/items/40a716f93dc8afa8fd12
PyTorchでnanが出てしまう原因とその対策が色々書いてある【pipで様々なCuda versionのpytorchをinstallする方法】
https://stackoverflow.com/questions/65980206/cuda-10-2-not-recognised-on-pip-installed-pytorch-1-7-1 #Article #EfficiencyImprovement #Library #Blog Issue Date: 2021-06-03 intel MKL Commentintel CPUでpythonの数値計算を高速化するライブラリ(numpyとかはやくなるらしい; Anacondaだとデフォルトで入ってるとかなんとか) #Article #Tools #PerformanceTesting Issue Date: 2021-05-26 locust Comment負荷テスト用のツール
JMeterと違って、pythonコードでテスト内容を制御できるらしく、かなり使いやすいらしい。