Embeddings
#Sentence#Pocket#NLP#LanguageModel#ContrastiveLearning#Catastrophic Forgetting
Issue Date: 2023-07-27 SimCSE: Simple Contrastive Learning of Sentence Embeddings, Tianyu Gao+, N_A, EMNLP21 Summaryこの論文では、SimCSEという対比学習フレームワークを提案しています。このフレームワークは、文の埋め込み技術を進化させることができます。教師なしアプローチでは、入力文をノイズとして扱い、自己を対比的に予測します。教師ありアプローチでは、自然言語推論データセットから注釈付きのペアを使用して対比学習を行います。SimCSEは、意味的テキスト類似性タスクで評価され、以前の手法と比較して改善を実現しました。対比学習は、事前学習された埋め込みの空間を均一に正則化し、教師信号が利用可能な場合には正のペアをよりよく整列させることが示されました。 Comment#462 よりも性能良く、unsupervisedでも学習できる。STSタスクのベースラインにだいたい入ってる# 手法概要 Contrastive Learningを活用して、unsupervised/supervisedに学習を実施する。 Unsupervised SimCSEでは、あるsente ... #NeuralNetwork#NLP#RepresentationLearning
Issue Date: 2022-06-08 Deep contextualized word representations, Peters+, Allen Institute for Artificial intelligence, NAACL18 CommentELMo論文。通常のword embeddingでは一つの単語につき一つの意味しか持たせられなかったが、文脈に応じて異なる意味を表現できるようなEmbeddingを実現し(同じ単語でも文脈に応じて意味が変わったりするので。たとえばrightは文脈に応じて右なのか、正しいなのか、権利なのか意味が変わs ... #Pocket#NLP#UserModeling
Issue Date: 2018-01-01 Multi-View Unsupervised User Feature Embedding for Social Media-based Substance Use Prediction, Ding+, EMNLP17
Issue Date: 2023-07-27 SimCSE: Simple Contrastive Learning of Sentence Embeddings, Tianyu Gao+, N_A, EMNLP21 Summaryこの論文では、SimCSEという対比学習フレームワークを提案しています。このフレームワークは、文の埋め込み技術を進化させることができます。教師なしアプローチでは、入力文をノイズとして扱い、自己を対比的に予測します。教師ありアプローチでは、自然言語推論データセットから注釈付きのペアを使用して対比学習を行います。SimCSEは、意味的テキスト類似性タスクで評価され、以前の手法と比較して改善を実現しました。対比学習は、事前学習された埋め込みの空間を均一に正則化し、教師信号が利用可能な場合には正のペアをよりよく整列させることが示されました。 Comment#462 よりも性能良く、unsupervisedでも学習できる。STSタスクのベースラインにだいたい入ってる# 手法概要 Contrastive Learningを活用して、unsupervised/supervisedに学習を実施する。 Unsupervised SimCSEでは、あるsente ... #NeuralNetwork#NLP#RepresentationLearning
Issue Date: 2022-06-08 Deep contextualized word representations, Peters+, Allen Institute for Artificial intelligence, NAACL18 CommentELMo論文。通常のword embeddingでは一つの単語につき一つの意味しか持たせられなかったが、文脈に応じて異なる意味を表現できるようなEmbeddingを実現し(同じ単語でも文脈に応じて意味が変わったりするので。たとえばrightは文脈に応じて右なのか、正しいなのか、権利なのか意味が変わs ... #Pocket#NLP#UserModeling
Issue Date: 2018-01-01 Multi-View Unsupervised User Feature Embedding for Social Media-based Substance Use Prediction, Ding+, EMNLP17
#NeuralNetwork#Analysis#NLP#Word
Issue Date: 2017-12-30 Skip-Gram – Zipf + Uniform = Vector Additivity, Gittens+, ACL17 Comment解説スライド:http://www.lr.pi.titech.ac.jp/~haseshun/acl2017suzukake/slides/09.pdfEmbeddingの加法構成性(e.g. man+royal=king)を理論的に理由づけ (解説スライドより) ... #NeuralNetwork#NLP#Word
Issue Date: 2017-12-29 Poincare Embeddings for Learning Hierarchical Representations, Nickel+, NIPS17 Comment解説: http://tech-blog.abeja.asia/entry/poincare-embeddings 解説スライド:https://speakerdeck.com/eumesy/poincare-embeddings-for-learning-hierarchical-represe・ ... #NeuralNetwork#Sentence#NLP
Issue Date: 2017-12-28 Supervised Learning of Universal Sentence Representations from Natural Language Inference Data, Conneau+, EMNLP17 Commentslide: https://www.slideshare.net/naoakiokazaki/supervised-learning-of-universal-sentence-representations-from-natural-language-inference-data汎用的な文のエン ... #NeuralNetwork#Sentence#NLP
Issue Date: 2017-12-28 A structured self-attentive sentence embedding, Li+ (Bengio group), ICLR17 #RecommenderSystems#NeuralNetwork#General#MachineLearning
Issue Date: 2017-12-28 StarSpace: Embed All The Things, Wu+, arXiv17 Comment分類やランキング、レコメンドなど、様々なタスクで汎用的に使用できるEmbeddingの学習手法を提案。 Embeddingを学習する対象をEntityと呼び、Entityはbag-of-featureで記述される。 Entityはbag-of-featureで記述できればなんでもよく、 こ実際にS ... #NeuralNetwork#Sentence#NLP
Issue Date: 2017-12-28 Learning Distributed Representations of Sentences from Unlabelled Data, Hill+, NAACL16 CommentSentenceのrepresentationを学習する話 代表的なsentenceのrepresentation作成手法(CBOW, SkipGram, SkipThought, Paragraph Vec, NMTなど)をsupervisedな評価(タスク志向+supervised)とun ... #NeuralNetwork#Document#NLP
Issue Date: 2017-12-28 A hierarchical neural autoencoder for paragraphs and documents, Li+, ACL15 Comment複数文を生成(今回はautoencoder)するために、standardなseq2seq LSTM modelを、拡張したという話。 要は、paragraph/documentのrepresentationが欲しいのだが、アイデアとしては、word-levelの情報を扱うLSTM layerとtr ... #NeuralNetwork#Document#SentimentAnalysis#NLP
Issue Date: 2017-12-28 Document Modeling with Gated Recurrent Neural Network for Sentiment Classification, Tang+, EMNLP15 Commentword level -> sentence level -> document level のrepresentationを求め、documentのsentiment classificationをする話。 documentのRepresentationを生成するときに参考になるやも。 sen ... #Article#NeuralNetwork#NLP#Word#STS (SemanticTextualSimilarity)
Issue Date: 2024-11-20 Zipf 白色化:タイプとトークンの区別がもたらす良質な埋め込み空間と損失関数, Sho Yokoi, 2024.11 Comment元論文: [Yokoi, Bao, Kurita, Shimodaira, “Zipfian Whitening,” NeurIPS 2024. ](https://arxiv.org/abs/2411.00680)The word embedding space in neural models ... #Article#InformationRetrieval#NLP#RetrievalAugmentedGeneration#Article
Issue Date: 2024-09-08 Late Chunking: Balancing Precision and Cost in Long Context Retrieval, Pierse+, 2024.09 Commentchunkingしてからembeddingを取得するより、全体のドキュメントに対してcontextualなtoken embeddingを取得し、その後chunkingをしてpoolingしてsingle vectorにする方が、文書の文脈情報がembedding内で保持されやすいので、precis ... #Article#NLP#LanguageModel#Japanese
Issue Date: 2024-09-04 Ruri: Japanese General Text Embeddings, cl-nagoya, 2024.09 Comment元ツイート:https://x.com/hpp_ricecake/status/1831308092459643232?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q337Mパラメータのモデルで、同等のサイズのモデルをJMTEBで大きく上回る性能。LLMを用いて生成したデータを用いてCo ... #Article#Sentence#NLP
Issue Date: 2023-10-07 Japanese Simple SimCSE Comment日本語の事前学習言語モデルと、日本語の学習データを利用してSimCSEを学習し網羅的に評価をした結果が記載されている。Supervised SimCSE, UnsupervisednSimCSEの両方で実験。また、学習するデータセットを変更したときの頑健性も検証。性能が良かったモデルはSentenc ... #Article#InformationRetrieval#SearchEngine#Library#Repository
Issue Date: 2023-04-27 Awesome Vector Search Engine Commentベクトルの類似度を測るサービスやライブラリ等がまとまったリポジトリ ... #Article#RecommenderSystems#Tutorial#Efficiency/SpeedUp#Library
Issue Date: 2023-04-25 Training a recommendation model with dynamic embeddings Commentdynamic embeddingを使った推薦システムの構築方法の解説(理解が間違っているかもしれないが)推薦システムは典型的にはユーザとアイテムをベクトル表現し、関連度を測ることで推薦をしている。この枠組みをめっちゃスケールさせるととんでもない数のEmbeddingを保持することになり、メモリ上に ... #Article#NLP#Library#SpokenLanguageProcessing
Issue Date: 2023-04-25 CLAP Commentテキストとオーディオの大量のペアを事前学習することで、テキストとオーディオ間を同じ空間に写像し、類似度を測れるようにしたモデルたとえばゼロショットでaudio分類ができる![image](https://user-images.githubusercontent.com/12249301/23429 ... #Article#MachineLearning#Tools#Library#KnowledgeGraph#Repository
Issue Date: 2021-06-10 OpenKE, 2021 CommentWikipedia, Freebase等のデータからKnowledge Embeddingを学習できるオープンソースのライブラリ ... #Article#NeuralNetwork#MachineTranslation#Pocket#NLP
Issue Date: 2021-06-07 Improving Neural Machine Translation with Compact Word Embedding Tables, Kumar+, 2021 CommentNMTにおいてword embeddingがどう影響しているかなどを調査しているらしい ...
Issue Date: 2017-12-30 Skip-Gram – Zipf + Uniform = Vector Additivity, Gittens+, ACL17 Comment解説スライド:http://www.lr.pi.titech.ac.jp/~haseshun/acl2017suzukake/slides/09.pdfEmbeddingの加法構成性(e.g. man+royal=king)を理論的に理由づけ (解説スライドより) ... #NeuralNetwork#NLP#Word
Issue Date: 2017-12-29 Poincare Embeddings for Learning Hierarchical Representations, Nickel+, NIPS17 Comment解説: http://tech-blog.abeja.asia/entry/poincare-embeddings 解説スライド:https://speakerdeck.com/eumesy/poincare-embeddings-for-learning-hierarchical-represe・ ... #NeuralNetwork#Sentence#NLP
Issue Date: 2017-12-28 Supervised Learning of Universal Sentence Representations from Natural Language Inference Data, Conneau+, EMNLP17 Commentslide: https://www.slideshare.net/naoakiokazaki/supervised-learning-of-universal-sentence-representations-from-natural-language-inference-data汎用的な文のエン ... #NeuralNetwork#Sentence#NLP
Issue Date: 2017-12-28 A structured self-attentive sentence embedding, Li+ (Bengio group), ICLR17 #RecommenderSystems#NeuralNetwork#General#MachineLearning
Issue Date: 2017-12-28 StarSpace: Embed All The Things, Wu+, arXiv17 Comment分類やランキング、レコメンドなど、様々なタスクで汎用的に使用できるEmbeddingの学習手法を提案。 Embeddingを学習する対象をEntityと呼び、Entityはbag-of-featureで記述される。 Entityはbag-of-featureで記述できればなんでもよく、 こ実際にS ... #NeuralNetwork#Sentence#NLP
Issue Date: 2017-12-28 Learning Distributed Representations of Sentences from Unlabelled Data, Hill+, NAACL16 CommentSentenceのrepresentationを学習する話 代表的なsentenceのrepresentation作成手法(CBOW, SkipGram, SkipThought, Paragraph Vec, NMTなど)をsupervisedな評価(タスク志向+supervised)とun ... #NeuralNetwork#Document#NLP
Issue Date: 2017-12-28 A hierarchical neural autoencoder for paragraphs and documents, Li+, ACL15 Comment複数文を生成(今回はautoencoder)するために、standardなseq2seq LSTM modelを、拡張したという話。 要は、paragraph/documentのrepresentationが欲しいのだが、アイデアとしては、word-levelの情報を扱うLSTM layerとtr ... #NeuralNetwork#Document#SentimentAnalysis#NLP
Issue Date: 2017-12-28 Document Modeling with Gated Recurrent Neural Network for Sentiment Classification, Tang+, EMNLP15 Commentword level -> sentence level -> document level のrepresentationを求め、documentのsentiment classificationをする話。 documentのRepresentationを生成するときに参考になるやも。 sen ... #Article#NeuralNetwork#NLP#Word#STS (SemanticTextualSimilarity)
Issue Date: 2024-11-20 Zipf 白色化:タイプとトークンの区別がもたらす良質な埋め込み空間と損失関数, Sho Yokoi, 2024.11 Comment元論文: [Yokoi, Bao, Kurita, Shimodaira, “Zipfian Whitening,” NeurIPS 2024. ](https://arxiv.org/abs/2411.00680)The word embedding space in neural models ... #Article#InformationRetrieval#NLP#RetrievalAugmentedGeneration#Article
Issue Date: 2024-09-08 Late Chunking: Balancing Precision and Cost in Long Context Retrieval, Pierse+, 2024.09 Commentchunkingしてからembeddingを取得するより、全体のドキュメントに対してcontextualなtoken embeddingを取得し、その後chunkingをしてpoolingしてsingle vectorにする方が、文書の文脈情報がembedding内で保持されやすいので、precis ... #Article#NLP#LanguageModel#Japanese
Issue Date: 2024-09-04 Ruri: Japanese General Text Embeddings, cl-nagoya, 2024.09 Comment元ツイート:https://x.com/hpp_ricecake/status/1831308092459643232?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q337Mパラメータのモデルで、同等のサイズのモデルをJMTEBで大きく上回る性能。LLMを用いて生成したデータを用いてCo ... #Article#Sentence#NLP
Issue Date: 2023-10-07 Japanese Simple SimCSE Comment日本語の事前学習言語モデルと、日本語の学習データを利用してSimCSEを学習し網羅的に評価をした結果が記載されている。Supervised SimCSE, UnsupervisednSimCSEの両方で実験。また、学習するデータセットを変更したときの頑健性も検証。性能が良かったモデルはSentenc ... #Article#InformationRetrieval#SearchEngine#Library#Repository
Issue Date: 2023-04-27 Awesome Vector Search Engine Commentベクトルの類似度を測るサービスやライブラリ等がまとまったリポジトリ ... #Article#RecommenderSystems#Tutorial#Efficiency/SpeedUp#Library
Issue Date: 2023-04-25 Training a recommendation model with dynamic embeddings Commentdynamic embeddingを使った推薦システムの構築方法の解説(理解が間違っているかもしれないが)推薦システムは典型的にはユーザとアイテムをベクトル表現し、関連度を測ることで推薦をしている。この枠組みをめっちゃスケールさせるととんでもない数のEmbeddingを保持することになり、メモリ上に ... #Article#NLP#Library#SpokenLanguageProcessing
Issue Date: 2023-04-25 CLAP Commentテキストとオーディオの大量のペアを事前学習することで、テキストとオーディオ間を同じ空間に写像し、類似度を測れるようにしたモデルたとえばゼロショットでaudio分類ができる![image](https://user-images.githubusercontent.com/12249301/23429 ... #Article#MachineLearning#Tools#Library#KnowledgeGraph#Repository
Issue Date: 2021-06-10 OpenKE, 2021 CommentWikipedia, Freebase等のデータからKnowledge Embeddingを学習できるオープンソースのライブラリ ... #Article#NeuralNetwork#MachineTranslation#Pocket#NLP
Issue Date: 2021-06-07 Improving Neural Machine Translation with Compact Word Embedding Tables, Kumar+, 2021 CommentNMTにおいてword embeddingがどう影響しているかなどを調査しているらしい ...