AAAI

#ComputerVision #NLP #LanguageModel #MulltiModal #SpeechProcessing
Issue Date: 2023-04-26 AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head, AAAI'24 SummaryAudioGPTは、複雑な音声情報を処理し、音声対話をサポートするマルチモーダルAIシステムである。基盤モデルとASR、TTSインターフェースを組み合わせ、音声、音楽、トーキングヘッドの理解と生成を行う。実験により、AudioGPTが多様なオーディオコンテンツの創造を容易にする能力を示した。 Commenttext, audio, imageといったマルチモーダルなpromptから、audioに関する様々なタスクを実現できるシステムマルチモーダルデータをjointで学習したというわけではなく、色々なモデルの組み合わせてタスクを実現しているっぽい

image

#NeuralNetwork #MachineTranslation #Embeddings #Pocket #NLP
Issue Date: 2021-06-07 Improving Neural Machine Translation with Compact Word Embedding Tables, Kumar+, AAAI'22 CommentNMTにおいてword embeddingがどう影響しているかなどを調査しているらしい #NeuralNetwork #AdaptiveLearning #EducationalDataMining #LearningAnalytics #KnowledgeTracing
Issue Date: 2022-04-28 Do we need to go Deep? Knowledge Tracing with Big Data, Varun+, University of Maryland Baltimore County, AAAI'21 Workshop on AI Education Summaryインタラクティブ教育システム(IES)を用いて学生の知識を追跡し、パフォーマンスモデルを開発する研究が進展。深層学習モデルが従来のモデルを上回るかは未検証であり、EdNetデータセットを用いてその精度を比較。結果、ロジスティック回帰モデルが深層モデルを上回ることが確認され、LIMEを用いて予測に対する特徴の影響を解釈する研究を行った。 Commentデータ量が小さいとSAKTはDKTはcomparableだが、データ量が大きくなるとSAKTがDKTを上回る。



image

#NeuralNetwork #NaturalLanguageGeneration #NLP #DataToTextGeneration Issue Date: 2021-06-26 Data-to-Text Generation with Content Selection and Planning, Puduppully+, AAAI'19 CommentRotowire Datasetに対するData2Text研究において代表的な論文の一つ。Wisemanモデル 207 と共にベースラインとして利用されることが多い。実装: https://github.com/ratishsp/data2text-plan-py #NeuralNetwork #NaturalLanguageGeneration #Pocket #NLP #ContextAware Issue Date: 2019-01-24 Response Generation by Context-aware Prototype Editing, Wu+, AAAI'19 #NeuralNetwork #EducationalDataMining #LearningAnalytics #StudentPerformancePrediction Issue Date: 2021-05-28 Exercise-Enhanced Sequential Modeling for Student Performance Prediction, Hu+, AAAI'18 Comment従来のStudent Performance PredictionタスクではKnowledge Componentと問題に対する過去の正誤を入力として予測を行っていて、問題テキストを通じて得られる問題そのものの難しさは明示的に考慮できていなかった。

なので、knowledge componentではなく、問題テキストそのものを使ってStudent Performance Predictionしてみたら性能よくなりました、という話。

問題テキストを利用してNeural-basedなアプローチでStudent Performance Predictionした最初の論文だと思う。

本論文ではKnowledge Tracing的なknowledge componentに対するproficiencyを求めることは考慮されていないが、ジャーナル版 353 では、そのような点も考慮されたモデルの拡張が行われていてさらに洗練されている。
#NeuralNetwork #NaturalLanguageGeneration #Pocket #NLP Issue Date: 2019-01-24 A Knowledge-Grounded Neural Conversation Model, Ghazvininejad+, AAAI'18, #Pocket #NLP #QuestionAnswering Issue Date: 2018-10-05 A Unified Model for Document-Based Question Answering Based on Human-Like Reading Strategy, Li+, AAAI'18 #RecommenderSystems #NeuralNetwork #General #Embeddings #MachineLearning #RepresentationLearning #Admin'sPick Issue Date: 2017-12-28 StarSpace: Embed All The Things, Wu+, AAAI'18 Comment分類やランキング、レコメンドなど、様々なタスクで汎用的に使用できるEmbeddingの学習手法を提案。



Embeddingを学習する対象をEntityと呼び、Entityはbag-of-featureで記述される。

Entityはbag-of-featureで記述できればなんでもよく、

これによりモデルの汎用性が増し、異なる種類のEntityでも同じ空間上でEmbeddingが学習される。



学習方法は非常にシンプルで、Entity同士のペアをとったときに、relevantなpairであれば類似度が高く、

irelevantなペアであれば類似度が低くなるようにEmbeddingを学習するだけ。

たとえば、Entityのペアとして、documentをbag-of-words, bag-of-ngrams, labelをsingle wordで記述しテキスト分類、

あるいは、user_idとユーザが過去に好んだアイテムをbag-of-wordsで記述しcontent-based recommendationを行うなど、 応用範囲は幅広い。



5種類のタスクで提案手法を評価し、既存手法と比較して、同等かそれ以上の性能を示すことが示されている。



手法の汎用性が高く学習も高速なので、色々な場面で役に立ちそう。

また、異なる種類のEntityであっても同じ空間上でEmbeddingが学習されるので、学習されたEmbeddingの応用先が広く有用。実際にSentimentAnalysisで使ってみたが(ポジネガ二値分類)、少なくともBoWのSVMよりは全然性能良かったし、学習も早いし、次元数めちゃめちゃ少なくて良かった。

StarSpaceで学習したembeddingをBoWなSVMに入れると性能が劇的に改善した。解説:

https://www.slideshare.net/akihikowatanabe3110/starspace-embed-all-the-things
#Multi #DocumentSummarization #Document #Pocket #NLP #VariationalAutoEncoder Issue Date: 2018-10-05 Salience Estimation via Variational Auto-Encoders for Multi-Document Summarization, Li+, AAAI'17 #DocumentSummarization #Others #NLP Issue Date: 2018-01-01 Detecting information-dense texts in multiple news domains, Yang+, AAAI'14 Commentニュース記事の第一段落目がinformativeか否か(重要なfactual informationが記述されているか否か)を分類する研究。

New York Times Annotated Corpusに対して、自動的にinformative, non-informativeなラベルづけを行う手法を提案し、分類モデルをtraining。



(informativeな例)

image



(non-informativeな例)

image



評価の結果、Accuracyはだいたい0.8〜0.85くらい。



人が100件中何件をinformativeと判断したかが下表。下表を見ると、リードにもnon-informativeなものが多数存在することがわかる。

また、ドメインによって傾向が異なっており、たとえばスポーツドメインでは、entertaining mannerで記述されるのでfactual informationがあまり記述されない傾向にあったり、Scienceドメインでは、generalなtopicやissue, personal historyなどが記述される傾向にあるので、相対的にinformativeなLeadが少ない。

image

#RecommenderSystems #Tutorial #ContextAware Issue Date: 2018-12-22 Context Aware Recommender Systems, Adomavicius+, AAAI'11 CommentAdomaviciusらによるContext Aware Recsysチュートリアル