STS (SemanticTextualSimilarity)


Paper/Blog Link My Issue
#Embeddings #Dataset #RepresentationLearning #ACL Issue Date: 2025-01-06 GPT Summary- 条件付きSTS(C-STS)は文の意味的類似性を測定するNLPタスクであるが、既存のデータセットには評価を妨げる問題が多い。本研究では、C-STSの検証セットを再アノテーションし、アノテーター間の不一致を55%観察。QAタスク設定を活用し、アノテーションエラーを80%以上のF1スコアで特定する自動エラー識別パイプラインを提案。また、モデル訓練によりC-STSデータのベースライン性能を向上させる新手法を示し、エンティティタイプの型特徴構造(TFS)を用いた条件付きアノテーションの可能性についても議論する。

Paper/Blog Link My Issue
#NeuralNetwork #Embeddings #NLP #Word #RepresentationLearning #NeurIPS #KeyPoint Notes Issue Date: 2024-11-20 GPT Summary- 単語埋め込み空間の歪みを是正することで、タスク性能向上が可能である。従来のアプローチは単語頻度が均一であると仮定しているが、実際にはZipfの法則に従った非均一な分布を持つ。Zipfに基づいた重み付けPCAを実施することで、性能が顕著に向上し、既存のベースラインを超える。情報幾何学的観点から、低頻度語を強調できる理論的基盤を提供し、skip-gram negative samplingやWhiteningBERTなどの手法が頻度を考慮したモデルで機能することを示している。 Comment

単語ベクトルを活用して様々なタスクを実施する際に一般的な全部足して個数で割るような平均ベクトル計算は、
個々の単語頻度を一様と仮定した場合の"期待値"と等価であり、
これは現実世界の単語頻度の実態とは全然異なるから、きちんと考慮したいよね、という話で (著者スライド p.9)

頻度を考慮するとSemantic Textual Similarity(STS)タスクで効果絶大であることがわかった(著者スライド p.10)。

では、なぜこれまで一様分布扱いするのが一般的だったのかというと、
実態として単語埋め込み行列が単語をタイプとみなして構築されたものであり、
コーパス全体を捉えた(言語利用の実態を捉えた)データ行列(単語をトークンとみなしたもの)になっていなかったことに起因していたからです(だから、経験頻度を用いて頻度情報を復元する必要があるよね)、
という感じの話だと思われ、(著者スライド p.18)

経験頻度を考慮すると、そもそも背後に仮定しているモデル自体が暗黙的に変わり、
低頻度語が強調されることで、単語に対してTF-IDFのような重みづけがされることで性能が良くなるよね、みたいな話だと思われる(著者スライド p.37)。

余談だが、昔のNLPでは、P(w,c)をモデル化したものを生成モデル、テキスト生成で一般的なP(w|c)は分類モデル(VAEとかはテキスト生成をするが、生成モデルなので別)、と呼んでいたと思うが、いまはテキスト生成モデルのことを略して生成モデル、と呼称するのが一般的なのだろうか。




Paper/Blog Link My Issue
#Embeddings #NLP #Dataset #RepresentationLearning #Japanese #One-Line Notes Issue Date: 2023-07-31 GPT Summary- 日本語の分散表現評価のために、語の類似度データセットを構築。これが日本語分散表現評価の初の資源であり、一般語と稀少語の両方を含む様々な品詞を網羅。 Comment

github: https://github.com/tmu-nlp/JapaneseWordSimilarityDataset



単語レベルの類似度をベンチマーキングしたい場合は使ってもよいかも。




Paper/Blog Link My Issue
#Article #Embeddings #NLP #LanguageModel #Blog #Encoder #One-Line Notes Issue Date: 2023-07-31 Comment

[JSTSタスク]( https://github.com/yahoojapan/JGLUE)では、[Tohoku BERT v3]( https://github.com/cl-tohoku/bert-japanese/tree/main#model-performances) と [LUKE]( https://github.com/studio-ousia/luke)が最も性能が良いらしい。

[SimCSE]( https://huggingface.co/pkshatech/simcse-ja-bert-base-clcmlp)よりも性能が良いのは興味深い。