[Paper]
GLAZE: ぱっと見にはわからないノイズを画像に追加することで、拡散モデルを用いたスタイルの模倣を困難にする仕組み
2023
アーティストのスタイルが勝手に模倣されることを防ぐ Adversarial Example
Shan, Shawn, Jenna Cryan, Emily Wenger, Haitao Zheng, Rana Hanocka, and Ben Y. Zhao. 2023. “GLAZE: Protecting Artists from Style Mimicry by Text-to-Image Models.” arXiv [cs.CR]. arXiv. http://arxiv.org/abs/2302.04222.
Paper
ethicsimagesociety
February 17, 2023
AudioLDM: latent diffusionを用いてテキストからオーディオ(環境音、音楽等)を生成するモデル
2023
Liu, Haohe, Zehua Chen, Yi Yuan, Xinhao Mei, Xubo Liu, Danilo Mandic, Wenwu Wang, and Mark D. Plumbley. 2023. “AudioLDM: Text-to-Audio Generation with Latent Diffusion Models.” arXiv [cs.SD]
. arXiv. http://arxiv.org/abs/2301.12503.
CLAPを用いることでText-to-AudioのSOTAを達成。オープンソース化されていて、すぐに試せるオンラインデモもあり!
Paper
musicsound
February 10, 2023
SingSong — ボーカルを入力に伴奏をまるっと音で生成するモデル
2023
音源分離技術を使ってボーカルとそれに付随する伴奏を抽出。その関係を学習。Ground Truth (元々の曲に入ってた伴奏)には流石に劣るがそれに匹敵するクオリティの曲を生成できるようになった。
Donahue, Chris, Antoine Caillon, Adam Roberts, Ethan Manilow, Philippe Esling, Andrea Agostinelli, Mauro Verzetti, et al. 2023. “SingSong: Generating Musical Accompaniments from Singing.” arXiv [cs.SD]
. arXiv. http://arxiv.org/abs/2301.12662.
Paper
musicsound
January 31, 2023
MusicLM: テキストから音楽を生成するモデル
2023
“a calming violin melody backed by a distorted guitar riff” といったテキストから音楽がサウンドファイルとして生成される. Stable Diffusionの音楽版
Agostinelli, Andrea, Timo I. Denk, Zalán Borsos, Jesse Engel, Mauro Verzetti, Antoine Caillon, Qingqing Huang, et al. 2023. “MusicLM: Generating Music From Text.” arXiv [cs.SD]
. arXiv. http://arxiv.org/abs/2301.11325.
Paper
musicsoundNLP
January 27, 2023
それっぽさと新奇性、それぞれを最大化するGANモデルを用いた音楽生成 — Musicality-Novelty GAN
2018
人真似ではない新しい音楽をAIで生成しようとする野心的な研究
Chen, Gong, Yan Liu, Sheng-Hua Zhong, and Xiang Zhang. 2018. “Musicality-Novelty Generative Adversarial Nets for Algorithmic Composition.” In Proceedings of the 26th ACM International Conference on Multimedia
, 1607–15. MM ’18. New York, NY, USA: Association for Computing Machinery.
Paper
musictheory
August 7, 2022
X線スキャンとStyle Transferでキャンバスに隠された絵画を「復元」するプロジェクト
2019
X線写真をコンテンツ画像に、同時代の同じ作家の絵をスタイル画像としてスタイルトランスファーをかける。美術史家などからその手法に対して強い批判も上がっている。
Bourached, A., & Cann, G. H. (2019). Raiders of the Lost Art. CrossTalk, 22(7–8), 35. https://doi.org/10.1525/9780520914957-028
Paper
artimageethics
November 11, 2021
Wav2CLIP: CLIPを使用したロバストなオーディオ表現学習手法
2021
CLIPからオーディオ表現を抽出する手法であるWav2CLIPを提案。オーディオ分類・検索タスクで良好な結果を残す
Paper
soundcross-modalimage
October 31, 2021
結局AI音楽ツールって使えるの? AI音楽ツールに対する意識調査- A survey on the uptake of Music AI Software
2020
AI音楽ツールに対する意識調査を117名に対してオンラインで行った。結論からいうと... AIツールはほとんど使われていない。AIツールに対してポジティブな人も、現状ではなく未来の可能性にひかれている。
Knotts, S., & Collins, N. (2020). A survey on the uptake of Music AI Software. Proceedings of the International Conference on New Interfaces for Musical Expression, 594–600.
Paper
music
June 19, 2021
パーカッション音の合成 - NEURAL PERCUSSIVE SYNTHESIS
2019
Ramires, A., Chandna, P., Favory, X., Gómez, E., & Serra, X. (2019). Neural Percussive Synthesis Parameterised by High-Level Timbral Features. ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings, 2020-May, 786–790. Retrieved from http://arxiv.org/abs/1911.11853
Paper
sound
June 4, 2021
ドラムパターンとメロディの生成 - Artificial Neural Networks Jamming on the Beat
2021
リズムパターンのデータセットもあわせて公開。
Tikhonov, A., & Yamshchikov, I. (2021, July 13). Artificial Neural Networks Jamming on the Beat. 37–44. https://doi.org/10.5220/0010461200370044
Paper
music
June 1, 2021
A Bassline Generation System Based on Sequence-to-Sequence Learning
2019
2019年のNIMEで発表された論文。最新の言語モデル(seq-to-seq model)の知見を利用してドラムトラックの音声ファイルからそれにあったベースラインを生成してくれる。
Behzad Haki, & Jorda, S. (2019). A Bassline Generation System Based on Sequence-to-Sequence Learning. Proceedings of the International Conference on New Interfaces for Musical Expression, 204–209.
Paper
music
June 1, 2021
Generating Long Sequences with Sparse Transformers
2019
スパースなTransformerの仕組みで計算量を抑える
Child, R. et al. (2019) ‘Generating Long Sequences with Sparse Transformers’, arXiv. arXiv. Available at: http://arxiv.org/abs/1904.10509 (Accessed: 29 January 2021).
Paper
musicvisualaudio
May 16, 2021
Attention is All You Need
2017
現在、GPT-3から音楽生成、画像の生成まで、多様な領域で中心的な仕組みとなっているTransformerを導入した論文。時系列データの学習に一般的に用いられてきたRNNなどの複雑なネットワークを排して、比較的シンプルなAttentionだけで学習できることを示した。
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 2017-Decem, 5999–6009.
Paper
NLPessential
April 1, 2021
SpaceSheets スプレッドシート型UIでの潜在空間探索 – SpaceSheets: Interactive Latent Space Exploration through a Spreadsheet Interface
自律的人工アーティストプロジェクト Artist in the Cloud: Towards an Autonomous Artist
2019
自律型人工アーティストの制作を試みるオープンプレジェクト
Artist in the Cloud: Towards an Autonomous Artist
Paper
GANart
July 17, 2019
進化と創造性 – The Surprising Creativity of Digital Evolution: A Collection of Anecdotes from the Evolutionary Computation and Artificial Life Research Communities
アフリカの野生動物の観測にDeep Learningを利用 – Automatically identifying wild animals in camera-trap images with deep learning
Deep Learningを活用した都市の”形態学” – Urban morphology meets deep learning: Exploring urban forms in one million cities, town and villages across the planet
音楽の特徴に基づいたダンスの動きのリアルタイム生成 – GrooveNet: Real-Time Music-Driven Dance Movement Generation using Artificial Neural Networks
GANで音楽生成 – MidiNet: A Convolutional Generative Adversarial Network for Symbolic-domain Music Generation using 1D and 2D Conditions
過去の作品を学習することで本当に新しい作品が作れるのか?? – CAN: Creative Adversarial Networks Generating “Art” by Learning About Styles and Deviating from Style Norms
横顔から正面から見た顔を生成 – Beyond Face Rotation: Global and Local Perception GAN for Photorealistic and Identity Preserving Frontal View Synthesis
見えない体を見る. 一人称視点の映像からカメラをつけている人の姿勢を推定. – Seeing Invisible Poses: Estimating 3D Body Pose from Egocentric Video
ストリートビューの画像の解析による人口統計調査 – Using Deep Learning and Google Street View to Estimate the Demographic Makeup of the US
人気があるから綺麗とは限らない!? – An Image is Worth More than a Thousand Favorites: Surfacing the Hidden Beauty of Flickr Pictures
GANを応用したSANによるSaliency Map(顕著性マップ)の生成 – Supervised Adversarial Networks for Image Saliency Detection –