STS (SemanticTextualSimilarity)
#NLP#Dataset
Issue Date: 2023-07-31 Construction of a Japanese Word Similarity Dataset, Yuya Sakaizawa+, N_A, arXiv17 Summary日本語の分散表現の評価のために、日本語の単語の類似性データセットを構築した。このデータセットは、日本語の分散表現の評価に使用できる初めてのリソースであり、一般的な単語だけでなく珍しい単語も含まれている。 Commentgithub: https://github.com/tmu-nlp/JapaneseWordSimilarityDataset 単語レベルの類似度をベンチマーキングしたい場合は使ってもよいかも。 ... #Article#NeuralNetwork#Embeddings#NLP#Word
Issue Date: 2024-11-20 Zipf 白色化:タイプとトークンの区別がもたらす良質な埋め込み空間と損失関数, Sho Yokoi, 2024.11 Comment元論文: [Yokoi, Bao, Kurita, Shimodaira, “Zipfian Whitening,” NeurIPS 2024. ](https://arxiv.org/abs/2411.00680)The word embedding space in neural models ... #Article#NLP#LanguageModel
Issue Date: 2023-07-31 OpenAI の Embeddings API はイケてるのか、定量的に調べてみる Comment[JSTSタスク](https://github.com/yahoojapan/JGLUE)では、[Tohoku BERT v3](https://github.com/cl-tohoku/bert-japanese/tree/main#model-performances) と [LUKE](ht ...
Issue Date: 2023-07-31 Construction of a Japanese Word Similarity Dataset, Yuya Sakaizawa+, N_A, arXiv17 Summary日本語の分散表現の評価のために、日本語の単語の類似性データセットを構築した。このデータセットは、日本語の分散表現の評価に使用できる初めてのリソースであり、一般的な単語だけでなく珍しい単語も含まれている。 Commentgithub: https://github.com/tmu-nlp/JapaneseWordSimilarityDataset 単語レベルの類似度をベンチマーキングしたい場合は使ってもよいかも。 ... #Article#NeuralNetwork#Embeddings#NLP#Word
Issue Date: 2024-11-20 Zipf 白色化:タイプとトークンの区別がもたらす良質な埋め込み空間と損失関数, Sho Yokoi, 2024.11 Comment元論文: [Yokoi, Bao, Kurita, Shimodaira, “Zipfian Whitening,” NeurIPS 2024. ](https://arxiv.org/abs/2411.00680)The word embedding space in neural models ... #Article#NLP#LanguageModel
Issue Date: 2023-07-31 OpenAI の Embeddings API はイケてるのか、定量的に調べてみる Comment[JSTSタスク](https://github.com/yahoojapan/JGLUE)では、[Tohoku BERT v3](https://github.com/cl-tohoku/bert-japanese/tree/main#model-performances) と [LUKE](ht ...