‣
- Duplicate this template to your Notion workspace
- Create a site using Super, using your newly created page as the Notion URL.
- Add the snippet code and fonts:
‣
The fonts used in the template are: PS Fournier: Light Reason New: Regular and Medium You’ll need to add these fonts to a new web project in your Adobe Typekit account and paste the unique ID into the code below.
‣
If you want to use your own fonts you’ll need to add custom overrides beneath the CSS in the code below. You can see the original CSS at the following link: https://iamsamsmall.github.io/cy/style.css
/* Here are the names of the font families in the code. Search for them so you know which lines to override in your customisations. */
psfournier-std
reason-new
‣
Paste the code below into the Snippet Injection field in your Super settings.
If you’re switching from V1 to V2 and have also made customisations to the code in your site then proceed with caution.
<!-- Typekit: Update the link below with your Typekit ID -->
<link rel="stylesheet" href="https://use.typekit.net/gnx8fcu.css">
<!-- Add your analytics script here -->
<!-- I use Fathom, it’s a great alternative to Google Analytics with a minimal dashboard and a focus on privacy. Please consider using my referral link when creating an account: https://usefathom.com/ref/CSKBJR -->
<!-- Favicon: Having a custom nav breaks the Favicon that you can upload in the Super settings. To change it, update the link here -->
<link rel="icon" href="https://s3.amazonaws.com/super-notion/images/8a28f49c-9631-4450-89f2-b87a3a60099e.png">
<!-- Meta Description: Having a custom nav breaks the site description that you can edit in the Super settings. To change it, update the text here -->
<meta property="og:description" content="Cy, a minimal portfolio template built on Notion and powered by Super.">
<!-- Share image: Having a custom nav breaks the site share image that you can edit in the Super settings. To change it, update the url and the alt description below -->
<meta property="og:image" content="https://s3.amazonaws.com/super-notion/images/ca38c918-dbcb-4cdf-ae61-35a0f6415764.jpg">
<meta property="og:image:alt" content="Screenshot of the Cy demo site">
<!--- Cy template styles -->
<link rel="stylesheet" href="https://iamsamsmall.github.io/cy/style.css">
<!-- Add your own custom overrides here -->
<style>
</style>
<!-- End of custom overrides -->
<!-- Navigation -->
<nav class="nav">
<div class="left">
<a class="nav-link" href="/">Cy</a>
</div>
<div class="right">
<a class="nav-link" href="/projects">Projects</a>
<a class="nav-link" href="/about">About</a>
<a class="nav-link" href="/writing">Writing</a>
</div>
</nav>
4. Make sure you’ve done these things before you go live
‣
‣
projects/
and writing/
, you can amend these if you want but you’ll need to add CSS overrides.‣
元々はコミュニティベースのサイトとしてスタートしましたが、環境の変化に伴い、現在はほぼ徳井直生 (@naotokui) 個人の研究メモへと変化しています 😅 ご注意ください。
GLAZE: ぱっと見にはわからないノイズを画像に追加することで、拡散モデルを用いたスタイルの模倣を困難にする仕組み
GLAZE: ぱっと見にはわからないノイズを画像に追加することで、拡散モデルを用いたスタイルの模倣を困難にする仕組み
Shan, Shawn, Jenna Cryan, Emily Wenger, Haitao Zheng, Rana Hanocka, and Ben Y. Zhao. 2023. “GLAZE: Protecting Artists from Style Mimicry by Text-to-Image Models.” arXiv [cs.CR]. arXiv. http://arxiv.org/abs/2302.04222.
アーティストのスタイルが勝手に模倣されることを防ぐ Adversarial Example
Paper
2023
February 17, 2023
ethicsimagesociety
AudioLDM: latent diffusionを用いてテキストからオーディオ(環境音、音楽等)を生成するモデル
AudioLDM: latent diffusionを用いてテキストからオーディオ(環境音、音楽等)を生成するモデル
CLAPを用いることでText-to-AudioのSOTAを達成。オープンソース化されていて、すぐに試せるオンラインデモもあり!
Liu, Haohe, Zehua Chen, Yi Yuan, Xinhao Mei, Xubo Liu, Danilo Mandic, Wenwu Wang, and Mark D. Plumbley. 2023. “AudioLDM: Text-to-Audio Generation with Latent Diffusion Models.” arXiv [cs.SD]
. arXiv. http://arxiv.org/abs/2301.12503.
Paper
2023
February 10, 2023
musicsound
SingSong — ボーカルを入力に伴奏をまるっと音で生成するモデル
SingSong — ボーカルを入力に伴奏をまるっと音で生成するモデル
Donahue, Chris, Antoine Caillon, Adam Roberts, Ethan Manilow, Philippe Esling, Andrea Agostinelli, Mauro Verzetti, et al. 2023. “SingSong: Generating Musical Accompaniments from Singing.” arXiv [cs.SD]
. arXiv. http://arxiv.org/abs/2301.12662.
音源分離技術を使ってボーカルとそれに付随する伴奏を抽出。その関係を学習。Ground Truth (元々の曲に入ってた伴奏)には流石に劣るがそれに匹敵するクオリティの曲を生成できるようになった。
Paper
2023
January 31, 2023
musicsound
Moûsai: Latent Diffusionモデルでの音楽生成
Moûsai: Latent Diffusionモデルでの音楽生成
Schneider, Flavio, Zhijing Jin, and Bernhard Schölkopf. 2023. “Moûsai: Text-to-Music Generation with Long-Context Latent Diffusion.” arXiv [cs.CL]
. arXiv. http://arxiv.org/abs/2301.11757.
Latent Diffusionのアーキテクチャを利用して、テキストから音楽を生成するモデル
Paper
2023
January 30, 2023
musicsound
MusicLM: テキストから音楽を生成するモデル
MusicLM: テキストから音楽を生成するモデル
Agostinelli, Andrea, Timo I. Denk, Zalán Borsos, Jesse Engel, Mauro Verzetti, Antoine Caillon, Qingqing Huang, et al. 2023. “MusicLM: Generating Music From Text.” arXiv [cs.SD]
. arXiv. http://arxiv.org/abs/2301.11325.
“a calming violin melody backed by a distorted guitar riff” といったテキストから音楽がサウンドファイルとして生成される. Stable Diffusionの音楽版
Paper
2023
January 27, 2023
musicsoundNLP
Datasets That Are Not — 新奇性の高い出力を求めたデータセットのAugmentation手法
Datasets That Are Not — 新奇性の高い出力を求めたデータセットのAugmentation手法
Wu, Yusong, Kyle Kastner, Tim Cooijmans, Cheng-Zhi Anna Huang, and Aaron Courville. n.d. “Datasets That Are Not: Evolving Novelty Through Sparsity and Iterated Learning.”
データセットの模倣ではない、新奇性の高い出力を生成AIを用いて実現するために、生成した画像をデータセットに追加していくことを繰り返す
Paper
2022
January 17, 2023
theory
それっぽさと新奇性、それぞれを最大化するGANモデルを用いた音楽生成 — Musicality-Novelty GAN
それっぽさと新奇性、それぞれを最大化するGANモデルを用いた音楽生成 — Musicality-Novelty GAN
Chen, Gong, Yan Liu, Sheng-Hua Zhong, and Xiang Zhang. 2018. “Musicality-Novelty Generative Adversarial Nets for Algorithmic Composition.” In Proceedings of the 26th ACM International Conference on Multimedia
, 1607–15. MM ’18. New York, NY, USA: Association for Computing Machinery.
人真似ではない新しい音楽をAIで生成しようとする野心的な研究
Paper
2018
August 7, 2022
musictheory
深層学習を用いたウェーブ・シェーピング合成 - NEURAL WAVESHAPING SYNTHESIS
深層学習を用いたウェーブ・シェーピング合成 - NEURAL WAVESHAPING SYNTHESIS
Hayes, B., Saitis, C., & Fazekas, G. (2021). Neural Waveshaping Synthesis.
CPUでもサクサク動くのがポイント!
Paper
2021
January 19, 2022
musicsound
もしAIが「へのへのもへじ」を作ったら? — CLIPと進化戦略を用いたコラージュ画像の生成
もしAIが「へのへのもへじ」を作ったら? — CLIPと進化戦略を用いたコラージュ画像の生成
CLIP-guided collage image optimization using Evolutionary Strategy
画像とテキストがどれくらいマッチしているかを定量化するCLIPモデルを用いて、要素画像の配置を最適化。入力されたテキストにあったコラージュ画像を生成するシステム
Project
2021
December 11, 2021
visualcross-modal
Botto—コミュニティのフィードバックに基づいてNFTアートを自動生成するBot
Botto—コミュニティのフィードバックに基づいてNFTアートを自動生成するBot
Botto Project
CLIP+VQ-GANの仕組みを活用
Project
2021
November 19, 2021
artvisualGAN
X線スキャンとStyle Transferでキャンバスに隠された絵画を「復元」するプロジェクト
X線スキャンとStyle Transferでキャンバスに隠された絵画を「復元」するプロジェクト
Bourached, A., & Cann, G. H. (2019). Raiders of the Lost Art. CrossTalk, 22(7–8), 35. https://doi.org/10.1525/9780520914957-028
X線写真をコンテンツ画像に、同時代の同じ作家の絵をスタイル画像としてスタイルトランスファーをかける。美術史家などからその手法に対して強い批判も上がっている。
Paper
2019
November 11, 2021
artimageethics
Wav2CLIP: CLIPを使用したロバストなオーディオ表現学習手法
Wav2CLIP: CLIPを使用したロバストなオーディオ表現学習手法
CLIPからオーディオ表現を抽出する手法であるWav2CLIPを提案。オーディオ分類・検索タスクで良好な結果を残す
Paper
2021
October 31, 2021
soundcross-modalimage
CLIPと進化戦略ESを用いて、単純なかたちを組み合わせて描く抽象画. AIキュビズム ?
CLIPと進化戦略ESを用いて、単純なかたちを組み合わせて描く抽象画. AIキュビズム ?
YINGTAO TIAN, DAVID HA. Modern Evolution Strategies for Creativity: Fitting Concrete Images and Abstract Concepts (2021)
テキストと画像がどのくらいマッチしているかを定量化するモデル OpenAI CLIPを評価関数に用いて、進化戦略ESによって生成した抽象画
Project
2021
October 1, 2021
imageart
FakeAVCeleb - ディープフェイク技術で作った顔と話し声のデータセット
FakeAVCeleb - ディープフェイク技術で作った顔と話し声のデータセット
FakeAVCeleb: A Novel Audio-Video Multimodal Deepfake Dataset, Hasam Khalid, Shahroz Tariq, Minha Kim, Simon S. Woo (2021)
顔をディープフェイク技術で動かし、リップシンクした音声を追加することで作ったDeepfake動画のデータセット。ディープフェイクへの対抗策の研究が目的。
Dataset
2021
September 8, 2021
ethicssociety
"AI" - GPT3を用いた実験的な演劇
"AI" - GPT3を用いた実験的な演劇
AI by Jennifer Tang
OpenAIの言語モデルGPT3を用いた即興劇。ロンドンの劇場での公演。
Project
2021
September 3, 2021
performanceNLP
synth1B1 - 10億以上のシンセ音と、そのパラメータがペアになったデータセット
synth1B1 - 10億以上のシンセ音と、そのパラメータがペアになったデータセット
Turian, J., Shier, J., Tzanetakis, G., McNally, K., & Henry, M. (2021). One Billion Audio Sounds from GPU-enabled Modular Synthesis.
なんと総時間は約126年分!! データセットを生成するためにpytorch上に実装された、GPUに最適化されたモジュラーシンセ torchsynthも合わせて公開。
Dataset
2021
July 23, 2021
soundmusic
画像と文章をつなげるモデル OpenAI CLIPを用いた「CLIPアート」
画像と文章をつなげるモデル OpenAI CLIPを用いた「CLIPアート」
OpenAI CLIP + Image Generation Models = CLIP art
画像とテキストの関連性の高さを判定するモデルCLIPを用いて、生成される画像を最適化 → テキストの入力にあった画像が生成
Project
2021
July 17, 2021
artimagecross-modal
The Flemish Scrollers - 議会中にサボっている議員を監視するボット
The Flemish Scrollers - 議会中にサボっている議員を監視するボット
The Flemish Scrollers, Dries Depoorter (2021)
顔認識とオブジェクト認識を組み合わせて、議会中に電話をいじっている議員を摘発
Project
2021
July 13, 2021
ethicsart
Neural Loop Combiner — リズム、メロディー、ベースライン... どのループを組み合わせる?
Neural Loop Combiner — リズム、メロディー、ベースライン... どのループを組み合わせる?
Chen, B.-Y., Smith, J. B. L. and Yang, Y.-H. (2020) ‘Neural Loop Combiner: Neural Network Models for Assessing the Compatibility of Loops’.
現代の音楽制作過程で重要なループの組み合わせ。たくさんあるループ間の相性を判定して、適切なループの組み合わせをレコメンドする仕組み。
Paper
2020
June 30, 2021
music
Algorithms of Late-Capitalism — 行き過ぎた資本主義社会におけるAI/アルゴリズムの利用に光を当てるZine/Webサイト
Algorithms of Late-Capitalism — 行き過ぎた資本主義社会におけるAI/アルゴリズムの利用に光を当てるZine/Webサイト
Algorithms of Late-Capitalism (2020-)
AIや機械学習が社会で用いられる場合、時にそれが市民を搾取するかたちで使われることがある。そうしたAIの利用の実例を取り上げてカタログ化するDigital Activism。
Project
2020
June 30, 2021
ethicssociety
Paint with Music - DDSPを用いて絵筆のストロークを音楽に
Paint with Music - DDSPを用いて絵筆のストロークを音楽に
Paint with Music - Google Magenta
Google Magentaチームの最新のプロジェクト。2020年に発表した DDSP: Differentiable Digital Signal Processing を使って、絵筆のストロークを楽器音に変えている。筆で描くように音を奏でることができる。
Project
2021
June 22, 2021
musicsound
結局AI音楽ツールって使えるの? AI音楽ツールに対する意識調査- A survey on the uptake of Music AI Software
結局AI音楽ツールって使えるの? AI音楽ツールに対する意識調査- A survey on the uptake of Music AI Software
Knotts, S., & Collins, N. (2020). A survey on the uptake of Music AI Software. Proceedings of the International Conference on New Interfaces for Musical Expression, 594–600.
AI音楽ツールに対する意識調査を117名に対してオンラインで行った。結論からいうと... AIツールはほとんど使われていない。AIツールに対してポジティブな人も、現状ではなく未来の可能性にひかれている。
Paper
2020
June 19, 2021
music
演奏者が自身の姿と音を学習したAIと向き合うオーディオビジュアルパフォーマンス: Alexander Schubert - Convergence
演奏者が自身の姿と音を学習したAIと向き合うオーディオビジュアルパフォーマンス: Alexander Schubert - Convergence
Alexander Schubert - Convergence (2020)
GANやAutoEncoderが使われている。2021年のアルスエレクトロニカ Digital Musics & Sound Art 部門のゴールデンニカ(最優秀賞)。
Project
2020
June 18, 2021
musicperformancesoundGAN
Datagen - AIの学習データをAIで生成、提供するスタートアップ
Datagen - AIの学習データをAIで生成、提供するスタートアップ
-
バイアスやプライバシーへの配慮から、人を対象にしたデータセットを集めることが難しくなっている。そこでGANなどを使って、適切なデータセットを人工的に作り出す仕組みを提供するスタートアップが登場した。
Dataset
2021
June 12, 2021
ethicssociety
Energy and Policy Considerations for Deep Learning in NLP
Energy and Policy Considerations for Deep Learning in NLP
Emma Strubell, Ananya Ganesh, Andrew McCallum (2019)
GPT-2などの言語モデルについて、その精度ではなく、学習時に消費している電力及び、二酸化炭素の放出量についてまとめた。この研究の試算では、例えばTransformer の学習に、一般的な自動車のライフサイクルの約5台分、アメリカ人約17人の一年分に相当するカーボンフットプリントがあることがわかった。
Paper
2019
June 10, 2021
ethicsNLP
VAEベースのリズム生成モデル - Creating Latent Spaces for Modern Music Genre Rhythms Using Minimal Training Data
VAEベースのリズム生成モデル - Creating Latent Spaces for Modern Music Genre Rhythms Using Minimal Training Data
Vigliensoni, G., Mccallum, L., & Fiebrink, R. (2020). Creating Latent Spaces for Modern Music Genre Rhythms Using Minimal Training Data. Proc. ICCC 2020.
少量の学習データでも効率的に学習できるように、最近のダンスミュージックの特徴を生かしたアーキテクチャを採用
Paper
2020
June 7, 2021
music
LoopNet—ドラムループのサウンド合成
LoopNet—ドラムループのサウンド合成
Chandna, P., Ramires, A., Serra, X., & Gómez, E. (2021). LoopNet: Musical Loop Synthesis Conditioned On Intuitive Musical Parameters.
音源分離のモデルで提案されたWave-U-Netのアーキテクチャを用いて、ドラムループをまるごと生成する仕組み
Paper
2021
June 5, 2021
music
パーカッション音の合成 - NEURAL PERCUSSIVE SYNTHESIS
パーカッション音の合成 - NEURAL PERCUSSIVE SYNTHESIS
Ramires, A., Chandna, P., Favory, X., Gómez, E., & Serra, X. (2019). Neural Percussive Synthesis Parameterised by High-Level Timbral Features. ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings, 2020-May, 786–790. Retrieved from http://arxiv.org/abs/1911.11853
Paper
2019
June 4, 2021
sound
WebFace260M - インターネット上で集められた2億6千万枚の顔写真のデータセット
WebFace260M - インターネット上で集められた2億6千万枚の顔写真のデータセット
Zhu, Z., Huang, G., Deng, J., Ye, Y., Huang, J., Chen, X., … Zhou, J. (2021). WebFace260M: A Benchmark Unveiling the Power of Million-Scale Deep Face Recognition
400万人の人の2億6000万枚の顔写真のデータセットと、ゴミデータを取り除いた200万人/4200万枚の顔写真のデータセットの二種類を提供
Dataset
2021
June 3, 2021
ethics
監視カメラの画像と画像認識で世界の国々の幸福度を計測? - Measuring Happiness Around the World through AI
監視カメラの画像と画像認識で世界の国々の幸福度を計測? - Measuring Happiness Around the World through AI
Ozakar, R., Gazanfer, R. E., & Sinan Hanay, Y. (2020, November 25). Measuring happiness around the World through artificial intelligence
世界8都市の街中で撮られた動画から顔を抜き出してCNNを用いた感情推定モデルで解析。都市ごとの有意な差は見当たらないという結果に。
Paper
2020
June 3, 2021
society
Paper
Paper
Paper
June 2, 2021
ドラムパターンとメロディの生成 - Artificial Neural Networks Jamming on the Beat
ドラムパターンとメロディの生成 - Artificial Neural Networks Jamming on the Beat
Tikhonov, A., & Yamshchikov, I. (2021, July 13). Artificial Neural Networks Jamming on the Beat. 37–44. https://doi.org/10.5220/0010461200370044
リズムパターンのデータセットもあわせて公開。
Paper
2021
June 1, 2021
music
A Bassline Generation System Based on Sequence-to-Sequence Learning
A Bassline Generation System Based on Sequence-to-Sequence Learning
Behzad Haki, & Jorda, S. (2019). A Bassline Generation System Based on Sequence-to-Sequence Learning. Proceedings of the International Conference on New Interfaces for Musical Expression, 204–209.
2019年のNIMEで発表された論文。最新の言語モデル(seq-to-seq model)の知見を利用してドラムトラックの音声ファイルからそれにあったベースラインを生成してくれる。
Paper
2019
June 1, 2021
music
NSynth: Neural Audio Synthesis—WaveNetを用いたAutoencoderで楽器音を合成
NSynth: Neural Audio Synthesis—WaveNetを用いたAutoencoderで楽器音を合成
Engel, J. et al. (2017) ‘Neural Audio Synthesis of Musical Notes with WaveNet Autoencoders’. Available
WaveNetの仕組みを使ったAutoencoderで、楽器の音の時間方向の変化も含めて、潜在空間にマッピング → 潜在ベクトルから楽器の音を合成する。この研究で使った多数の楽器の音を集めたデータセット NSynth を合わせて公開。
Paper
2017
May 28, 2021
musicsound
essentia オーディオ/音楽解析ライブラリ
essentia オーディオ/音楽解析ライブラリ
Dmitry Bogdanov, et al. 2013. ESSENTIA: an open-source library for sound and music analysis. In Proceedings of the 21st ACM international conference on Multimedia (MM '13). Association for Computing Machinery, New York, NY, USA, 855–858. DOI:https://doi.org/10.1145/2502081.2502229
Tool
May 26, 2021
soundmusic
1万以上のドラム、パーカッション音のデータセット — Freesound One-Shot Percussive Sounds
1万以上のドラム、パーカッション音のデータセット — Freesound One-Shot Percussive Sounds
António Ramires, Pritish Chandna, Xavier Favory, Emilia Gómez, & Xavier Serra. (2020). Freesound One-Shot Percussive Sounds (Version 1.0) [Data set]. Zenodo. http://doi.org/10.5281/zenodo.3665275
ドラム、パーカションのワンショットを集めたデータセット
Dataset
2020
May 25, 2021
soundmusic
MuseMorphose: Transformerを用いたVAEによる音楽のスタイル変換
MuseMorphose: Transformerを用いたVAEによる音楽のスタイル変換
Wu, S.-L. and Yang, Y.-H. (2021) ‘MuseMorphose: Full-Song and Fine-Grained Music Style Transfer with Just One Transformer VAE’
長期の時間依存性を学習できるTransformerの利点とコントロール性が高いVAEの利点。この二つを組み合わせたEncoder-Decoderアーキテクチャで、MIDIで表現された音楽のスタイル変換(Style Transfer)を実現。
Paper
2021
May 21, 2021
music
Visual indeterminacy in GAN art
Visual indeterminacy in GAN art
Hertzmann, A. (2020) ‘Visual indeterminacy in GAN art’, Leonardo. MIT Press Journals, 53(4), pp. 424–428.
GANが生成する画像の「●●ぽいけど、なんか違う...」という「不確定性」に着目し、現代アートの特徴との比較を行った上で、今後のGANアートの将来像を探る。
Paper
2020
May 19, 2021
arttheoryGANvisual
GANを使った環境音の生成→環境音の識別モデルの性能向上
GANを使った環境音の生成→環境音の識別モデルの性能向上
Madhu, A. and K, S. (2021) ‘EnvGAN: Adversarial Synthesis of Environmental Sounds for Data Augmentation’.
環境音の識別モデルの学習のためのData Augmentation手法の提案
Paper
2021
May 18, 2021
soundaudioGAN
Generating Long Sequences with Sparse Transformers
Generating Long Sequences with Sparse Transformers
Child, R. et al. (2019) ‘Generating Long Sequences with Sparse Transformers’, arXiv. arXiv. Available at: http://arxiv.org/abs/1904.10509 (Accessed: 29 January 2021).
スパースなTransformerの仕組みで計算量を抑える
Paper
2019
May 16, 2021
musicvisualaudio
Neural Text Generation with Unlikelihood Training
Neural Text Generation with Unlikelihood Training
Welleck, S., Kulikov, I., Roller, S., Dinan, E., Cho, K., & Weston, J. (2019). Neural Text Generation with Unlikelihood Training.
Likelihoodを最適化しようとすると頻出する単語が必要以上に頻出する結果に
Paper
2019
May 14, 2021
NLP
The Role of AI Attribution Knowledge in the Evaluation of Artwork
The Role of AI Attribution Knowledge in the Evaluation of Artwork
Gangadharbatla, H. (2021) ‘The Role of AI Attribution Knowledge in the Evaluation of Artwork’, pp. 1–19. doi: 10.1177/0276237421994697.
クラウドソーシングの仕組みを活用して、AIが描いた絵を区別できるか、またAIが描いたという情報が、絵自体の評価にどのくらい影響するのかを調査。
Paper
2021
May 11, 2021
theoryart
Exposing.AI
Exposing.AI
Harvey, Adam. LaPlace, Jules, Exposing.AI
Flickrなどに顔写真をアップロードした場合、特にCreative Commonsのライセンスなどを設定した場合、知らない間に顔認識モデルの学習データとして使われている可能性がある。このサイトは自分の写真が、学習データとして使われていないかチェックできるサイト。
Project
2021
May 5, 2021
ethics
Infinite Bad Guy
Infinite Bad Guy
Infinite Bad Guy (IYOIYO, Kyle McDonald)
YouTube上で史上最も多くカバーされた楽曲ビリー・アイリッシュのBad Guy。YouTube上にあがっている曲を解析、分類し、リズムに合わせてスムーズに繋いでいく。無限に続くBad Guyジュークボックス。
Project
2020
May 1, 2021
music
Talking Drums: Generating drum grooves with neural networks.
Talking Drums: Generating drum grooves with neural networks.
Hutchings, P. (2017). Talking Drums: Generating drum grooves with neural networks.
ドラムのキックの位置を入力すると、リズムパターン全体を生成するモデル。言語モデルのseq-to-seqモデルの考え方を利用。
Paper
2017
April 30, 2021
music
UAV-Human: A Large Benchmark for Human Behavior Understanding with Unmanned Aerial Vehicles
UAV-Human: A Large Benchmark for Human Behavior Understanding with Unmanned Aerial Vehicles
UAV-Human: A Large Benchmark for Human Behavior Understanding with Unmanned Aerial Vehicles
ドローンから撮影した人の行動の動画のデータセット。ドローンを使った監視に直結する恐れ??
Dataset
2021
April 22, 2021
ethics
random_faces - ランダムに存在しない人の顔を生成するPythonライブラリ
random_faces - ランダムに存在しない人の顔を生成するPythonライブラリ
random_faces
ライブラリをインストールしてたった二行で、存在しない人の顔画像が生成できるPythonライブラリ
Tool
2021
April 22, 2021
GANimageethics
AAI - AIを用いたMouse on Marsのアルバム
AAI - AIを用いたMouse on Marsのアルバム
"AAI" by Mouse on Mars
ベテラン電子音楽家、あのMouse on Marsが、AIを用いたアルバムを公開!! テキストを入力した声を合成するシステムを構築。生成した声を用いて楽曲を構成した。
Project
2021
April 22, 2021
music
ArtEmis: Affective Language for Visual Art
ArtEmis: Affective Language for Visual Art
ArtEmis: Affective Language for Visual Art
8万枚の絵画にクラウドソーシングで44万の言語情報を付加。
Dataset
2021
April 22, 2021
visualart
Translating Paintings Into Music Using Neural Networks
Translating Paintings Into Music Using Neural Networks
Verma, P., Basica, C. and Kivelson, P. D. (2020) ‘Translating Paintings Into Music Using Neural Networks’.
音楽とアルバムカバーの関係を学習したモデルをベースに、絵画と音楽を相互に変換するパフォーマンス
Paper
2020
April 19, 2021
cross-modalmusicart
REAL-TIME TIMBRE TRANSFER AND SOUND SYNTHESIS USING DDSP
REAL-TIME TIMBRE TRANSFER AND SOUND SYNTHESIS USING DDSP
Francesco Ganis, Erik Frej Knudesn, Søren V. K. Lyster, Robin Otterbein, David Südholt, Cumhur Erkut (2021)
Google MagentaのDDSPをリアルタイムに動かせるプラグイン
Paper
2021
April 14, 2021
musicsound
Attention is All You Need
Attention is All You Need
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 2017-Decem, 5999–6009.
現在、GPT-3から音楽生成、画像の生成まで、多様な領域で中心的な仕組みとなっているTransformerを導入した論文。時系列データの学習に一般的に用いられてきたRNNなどの複雑なネットワークを排して、比較的シンプルなAttentionだけで学習できることを示した。
Paper
2017
April 1, 2021
NLPessential
Neural Granular Sound Synthesis
Neural Granular Sound Synthesis
Hertzmann, A. (2020) ‘Visual indeterminacy in GAN art’, Leonardo. MIT Press Journals, 53(4), pp. 424–428. doi: 10.1162/LEON_a_01930.
グラニュラーシンセシスのGrain(音の粒)をVAEを使って生成しようという試み。Grainの空間の中での軌跡についても合わせて学習。
Paper
2020
March 30, 2021
musicsoundpaper
CinemaNet
CinemaNet
CinemaNet by Anton Marini(vade), Rahul Somani
普通の画像認識モデルのようなオブジェクトの識別に加えて、カメラのアングルやフォーカスの当て方(ソフトフォーカス...)、撮影された時間帯(夕方、朝焼け)、場所などをタグ付け
Tool
March 3, 2021
visual
WaveNetを使ったAutoencoderで音楽のドメイン間の変換を可能に! – A Universal Music Translation Network
WaveNetを使ったAutoencoderで音楽のドメイン間の変換を可能に! – A Universal Music Translation Network
Mor, Noam, et al. "A universal music translation network." arXiv preprint arXiv:1805.07848 (2018).
Paper
2018
August 13, 2020
music
踊るAI – Dancing to Music
踊るAI – Dancing to Music
Lee, Hsin-Ying, et al. "Dancing to music." arXiv preprint arXiv:1911.02001 (2019)
Paper
2019
June 24, 2020
musicart
AIを用いたAudio Visual – Stylizing Audio Reactive Visuals
AIを用いたAudio Visual – Stylizing Audio Reactive Visuals
Han-Hung Lee, Da-Gin Wu, and Hwann-Tzong Chen, "Stylizing Audio Reactive Visuals", NeurlPS2019, (2019)
Paper
2019
June 24, 2020
visualGAN
ピアノを即興演奏できるインターフェース – Piano Genie
ピアノを即興演奏できるインターフェース – Piano Genie
Piano Genie
Paper
2018
May 24, 2020
music
歌詞からメロディを生成 – Conditional LSTM-GAN for Melody Generation from Lyrics
歌詞からメロディを生成 – Conditional LSTM-GAN for Melody Generation from Lyrics
Yu, Yi, Abhishek Srivastava, and Simon Canales. "Conditional lstm-gan for melody generation from lyrics." ACM Transactions on Multimedia Computing, Communications, and Applications (TOMM) 17.1 (2021): 1-20.
Paper
February 12, 2020
musicGANNLP
ファッションデザイナーを助けるツール – Human and GAN collaboration to create haute couture dress
ファッションデザイナーを助けるツール – Human and GAN collaboration to create haute couture dress
Tatsuki Koga, at el., "Human and GAN collaboration to create haute couture dress", 33rd Conference on Neural Information Processing Systems, (2019)
Paper
2019
February 12, 2020
GANart
SpaceSheets スプレッドシート型UIでの潜在空間探索 – SpaceSheets: Interactive Latent Space Exploration through a Spreadsheet Interface
SpaceSheets スプレッドシート型UIでの潜在空間探索 – SpaceSheets: Interactive Latent Space Exploration through a Spreadsheet Interface
Loh, Bryan, and Tom White. "Spacesheets: Interactive latent space exploration through a spreadsheet interface." (2018).
Paper
2018
February 5, 2020
GAN
記号創発問題 ─記号創発ロボティクスによる記号接地問題の本質的解決に向けて─
記号創発問題 ─記号創発ロボティクスによる記号接地問題の本質的解決に向けて─
谷口忠大, "記号創発問題: 記号創発ロボティクスによる記号接地問題の本質的解決に向けて (< 特集> 認知科学と記号創発ロボティクス: 実世界情報に基づく知覚的シンボルシステムの構成論的理解に向けて)", 人工知能 Vol.31.1, pp74-81, (2016).
Paper
2016
February 5, 2020
theory
様々なメディアのフレームを補間する – Depth-Aware Video Frame Interpolation
様々なメディアのフレームを補間する – Depth-Aware Video Frame Interpolation
様々なメディアのフレームを補間する – Depth-Aware Video Frame Interpolation
Paper
2020
February 4, 2020
imagevisual
ある楽器の音色が別の楽器に!? – TimbreTron: A WaveNet(CycleGAN(CQT(Audio))) Pipeline for Musical Timbre Transfer
ある楽器の音色が別の楽器に!? – TimbreTron: A WaveNet(CycleGAN(CQT(Audio))) Pipeline for Musical Timbre Transfer
Huang, Sicong, et al. "Timbretron: A wavenet (cyclegan (cqt (audio))) pipeline for musical timbre transfer." arXiv preprint arXiv:1811.09620 (2018).
Paper
2018
February 4, 2020
GANmusic
音源からそれぞれの楽器を分離するツール – SPLEETER
音源からそれぞれの楽器を分離するツール – SPLEETER
SPLEETER: A FAST AND STATE-OF-THE ART MUSIC SOURCE SEPARATION TOOL WITH PRE-TRAINED MODELS
CDなどのミックスされた音源からボーカル、ピアノ、ベース、ドラムのようにそれぞれの楽器(トラック)の音を抽出できるツール
Paper
2019
February 3, 2020
musicdj
モノラル音源を映像とdeep learningを用いて立体音源に
モノラル音源を映像とdeep learningを用いて立体音源に
2.5D Visual Sound
Paper
2019
January 30, 2020
audio
画像認識モデルが苦手とする画像のデータセット – Natural Adversarial Examples
画像認識モデルが苦手とする画像のデータセット – Natural Adversarial Examples
Dan Hendrycks, Kevin Zhao, Steven Basart, Jacob Stein- hardt, and Dawn Song. Natural adversarial examples. arXiv preprint arXiv:1907.07174, 2019.
Dataset
2019
July 29, 2019
image
自律的人工アーティストプロジェクト Artist in the Cloud: Towards an Autonomous Artist
自律的人工アーティストプロジェクト Artist in the Cloud: Towards an Autonomous Artist
Artist in the Cloud: Towards an Autonomous Artist
自律型人工アーティストの制作を試みるオープンプレジェクト
Paper
2019
July 17, 2019
GANart
音と映像の関係性の学習 – Audio-Visual Scene Analysis with Self-Supervised Multisensory Features
音と映像の関係性の学習 – Audio-Visual Scene Analysis with Self-Supervised Multisensory Features
Audio-Visual Scene Analysis with Self-Supervised Multisensory Features
Paper
2018
May 20, 2018
soundvisual
進化と創造性 – The Surprising Creativity of Digital Evolution: A Collection of Anecdotes from the Evolutionary Computation and Artificial Life Research Communities
進化と創造性 – The Surprising Creativity of Digital Evolution: A Collection of Anecdotes from the Evolutionary Computation and Artificial Life Research Communities
Lehman, Joel, et al. "The surprising creativity of digital evolution: A collection of anecdotes from the evolutionary computation and artificial life research communities." Artificial life 26.2 (2020): 274-306.
Paper
2020
March 22, 2018
GANによる音の生成 – Synthesizing Audio with Generative Adversarial Networks
GANによる音の生成 – Synthesizing Audio with Generative Adversarial Networks
Synthesizing Audio with Generative Adversarial Networks
Paper
2018
February 16, 2018
GANsound
ボットのみを見分ける?CAPTCHA – Humans Not Invited.
ボットのみを見分ける?CAPTCHA – Humans Not Invited.
This CAPTCHA Makes Sure You're A Robot. Yes, You Read That Right
Web Site
February 8, 2018
performance
動画からそれにあった音を生成 – Visual to Sound: Generating Natural Sound for Videos in the Wild
動画からそれにあった音を生成 – Visual to Sound: Generating Natural Sound for Videos in the Wild
Visual to Sound: Generating Natural Sound for Videos in the Wild
Paper
2018
January 3, 2018
soundvisual
ロボットを交えての即興コメディHumanMachine – Artificial Intelligence Improvisation
ロボットを交えての即興コメディHumanMachine – Artificial Intelligence Improvisation
Improvised Comedy as a Turing Test
RNNベースのseq2seq会話エンジンを持ったロボットを交えた即興の漫才. 二人のコメディアン兼研究者とロボットのショー
Project
2017
December 8, 2017
art
画像から、好みのメッシュの3Dモデルを作成する -Neural 3D Mesh Renderer-
画像から、好みのメッシュの3Dモデルを作成する -Neural 3D Mesh Renderer-
Neural 3D Mesh Renderer
Paper
2017
November 25, 2017
visualimage
Deep Learningを用いた音楽生成手法のまとめ – Deep Learning Techniques for Music Generation – A Survey
Deep Learningを用いた音楽生成手法のまとめ – Deep Learning Techniques for Music Generation – A Survey
Deep Learning Techniques for Music Generation – A Survey
Web Site
2017
November 22, 2017
artmusic
AIとの共作で行う「過去との対話」ー Maison book girl 「cotoeri」
AIとの共作で行う「過去との対話」ー Maison book girl 「cotoeri」
Maison book girl 「cotoeri」
Project
2017
November 13, 2017
musicperformance
まるでアルチンボルド? GANを用いて野菜で顔を描く – The Electronic Curator
まるでアルチンボルド? GANを用いて野菜で顔を描く – The Electronic Curator
The Electronic Curator
Web Site
2017
November 13, 2017
artGAN
AIとともに紡ぐホラーストーリー – Sherry, AI-Powered Horror Stories
AIとともに紡ぐホラーストーリー – Sherry, AI-Powered Horror Stories
Sherry, AI-Powered Horror Stories
Project
2017
November 10, 2017
art
アフリカの野生動物の観測にDeep Learningを利用 – Automatically identifying wild animals in camera-trap images with deep learning
アフリカの野生動物の観測にDeep Learningを利用 – Automatically identifying wild animals in camera-trap images with deep learning
Automatically identifying wild animals in camera-trap images with deep learning
アフリカの野生動物の観測にDeep Learningを利用 – Automatically identifying wild animals in camera-trap images with deep learning
Paper
2017
October 25, 2017
cross-modal
人の行動の動画データセット – AVA: A Video Dataset of Spatio-temporally Localized Atomic Visual Actions
人の行動の動画データセット – AVA: A Video Dataset of Spatio-temporally Localized Atomic Visual Actions
AVA: A Video Dataset of Spatio-temporally Localized Atomic Visual Actions
Dataset
2017
October 23, 2017
visualimage
機械とともに描くポートレート – Delusions
機械とともに描くポートレート – Delusions
Delusions
demo
2017
October 20, 2017
performancevisualimage
”意識の流れを読む”「意識の辞書」 – A Dictionary of Consciousness
”意識の流れを読む”「意識の辞書」 – A Dictionary of Consciousness
A Dictionary of Consciousness
Project
2017
October 2, 2017
essential
顔写真から3Dモデルを生成 – Large Pose 3D Face Reconstruction from a Single Image via Direct Volumetric CNN Regression
顔写真から3Dモデルを生成 – Large Pose 3D Face Reconstruction from a Single Image via Direct Volumetric CNN Regression
Large Pose 3D Face Reconstruction from a Single Image via Direct Volumetric CNN Regression
demo
2017
September 29, 2017
artvisualimage
Deep Learningを活用した都市の”形態学” – Urban morphology meets deep learning: Exploring urban forms in one million cities, town and villages across the planet
Deep Learningを活用した都市の”形態学” – Urban morphology meets deep learning: Exploring urban forms in one million cities, town and villages across the planet
Deep Learningを活用した都市の”形態学”
Deep Learningを活用した都市の”形態学”
Paper
2017
September 25, 2017
society
創造性をどう評価するか – A Machine Learning Approach for Evaluating Creative Artifacts
創造性をどう評価するか – A Machine Learning Approach for Evaluating Creative Artifacts
A Machine Learning Approach for Evaluating Creative Artifacts
「人間の創造性をどのように評価、定量化するか」という大きな問題に取り組んでいる
Paper
2017
September 16, 2017
art
音楽の特徴に基づいたダンスの動きのリアルタイム生成 – GrooveNet: Real-Time Music-Driven Dance Movement Generation using Artificial Neural Networks
音楽の特徴に基づいたダンスの動きのリアルタイム生成 – GrooveNet: Real-Time Music-Driven Dance Movement Generation using Artificial Neural Networks
GrooveNet: Real-Time Music-Driven Dance Movement Generation using Artificial Neural Networks
音楽の特徴に基づいたダンスの動きのリアルタイム生成
Paper
2017
August 23, 2017
musiccross-modal
グラフィックデザインにおける各要素の重要性を可視化 – Learning Visual Importance for Graphic Designs and Data Visualizations
グラフィックデザインにおける各要素の重要性を可視化 – Learning Visual Importance for Graphic Designs and Data Visualizations
グラフィックデザインにおける各要素の重要性を可視化 – Learning Visual Importance for Graphic Designs and Data Visualizations
グラフィックデザインにおける各要素の重要性を可視化
Paper
2017
August 8, 2017
image
衛星写真から住民の所得を推定 – Penny, an AI to predict wealth from space
衛星写真から住民の所得を推定 – Penny, an AI to predict wealth from space
衛星写真から住民の所得を推定 – Penny, an AI to predict wealth from space
衛星写真から住民の所得を推定
Project
2017
August 6, 2017
衛星写真から住民の所得を推定 – Penny, an AI to predict wealth from space
衛星写真から住民の所得を推定 – Penny, an AI to predict wealth from space
Penny, an AI to predict wealth from space
demo
2017
August 6, 2017
imagesociety
料理の写真 ↔︎ 材料とレシピ – Learning Cross-modal Embeddings for Cooking Recipes and Food Images
料理の写真 ↔︎ 材料とレシピ – Learning Cross-modal Embeddings for Cooking Recipes and Food Images
Learning Cross-modal Embeddings for Cooking Recipes and Food Images
料理の写真 ↔︎ 材料とレシピ
Project
2017
July 25, 2017
imageNLPcross-modal
動植物の画像データセット – The iNaturalist Challenge 2017 Dataset
動植物の画像データセット – The iNaturalist Challenge 2017 Dataset
The iNaturalist Challenge 2017 Dataset
Dataset
2017
July 23, 2017
visual
GANで音楽生成 – MidiNet: A Convolutional Generative Adversarial Network for Symbolic-domain Music Generation using 1D and 2D Conditions
GANで音楽生成 – MidiNet: A Convolutional Generative Adversarial Network for Symbolic-domain Music Generation using 1D and 2D Conditions
Yang, Li-Chia, Szu-Yu Chou, and Yi-Hsuan Yang. "Midinet: A convolutional generative adversarial network for symbolic-domain music generation." arXiv preprint arXiv:1703.10847 (2017).
GANで音楽生成
Paper
2017
July 9, 2017
music
機械学習による、「演奏」の学習
– Performance RNN: Generating Music with Expressive Timing and Dynamics –
機械学習による、「演奏」の学習
– Performance RNN: Generating Music with Expressive Timing and Dynamics –
Performance RNN: Generating Music with Expressive Timing and Dynamics
demo
2017
July 1, 2017
musicsoundperformance
過去の作品を学習することで本当に新しい作品が作れるのか?? – CAN: Creative Adversarial Networks Generating “Art” by Learning About Styles and Deviating from Style Norms
過去の作品を学習することで本当に新しい作品が作れるのか?? – CAN: Creative Adversarial Networks Generating “Art” by Learning About Styles and Deviating from Style Norms
CAN: Creative Adversarial Networks Generating “Art” by Learning About Styles and Deviating from Style Norms
Paper
2017
June 29, 2017
GANartvisual
人工知能の力を借り、3Dモデルを共作する – Interactive 3D Modeling with a Generative Adversarial Network –
人工知能の力を借り、3Dモデルを共作する – Interactive 3D Modeling with a Generative Adversarial Network –
Interactive 3D Modeling with a Generative Adversarial Network
demo
2017
June 25, 2017
visualGAN
ウィットに富んだキャプション生成 – Punny Captions: WittyWordplay in Image Descriptions
ウィットに富んだキャプション生成 – Punny Captions: WittyWordplay in Image Descriptions
Chandrasekaran, Arjun, Devi Parikh, and Mohit Bansal. "Punny captions: Witty wordplay in image descriptions." arXiv preprint arXiv:1704.08224 (2017).
Paper
2017
June 19, 2017
image
進化の仕組みを応用した音楽ツール – Musical Novelty Search – Evolutionary Algorithms + Ableton Live
進化の仕組みを応用した音楽ツール – Musical Novelty Search – Evolutionary Algorithms + Ableton Live
Musical Novelty Search – Evolutionary Algorithms + Ableton Live
Tool
2017
June 9, 2017
musicperformance
服を着ている人の画像を生成 – A Generative Model of People in Clothing
服を着ている人の画像を生成 – A Generative Model of People in Clothing
Paper
2017
May 31, 2017
image
画像⇆音の生成 – Deep Cross-Modal Audio-Visual GenerationDeep Cross-Modal Audio-Visual Generation
画像⇆音の生成 – Deep Cross-Modal Audio-Visual GenerationDeep Cross-Modal Audio-Visual Generation
Deep Cross-Modal Audio-Visual Generation
Paper
2017
May 14, 2017
visualsound
連想の学習 – See, Hear, and Read: Deep Aligned Representations
連想の学習 – See, Hear, and Read: Deep Aligned Representations
See, Hear, and Read: Deep Aligned Representations
Paper
2017
May 7, 2017
cross-modal
車載カメラ画像データセット – Mapillary Vistas Dataset
車載カメラ画像データセット – Mapillary Vistas Dataset
Mapillary Vistas Dataset
Dataset
2017
May 4, 2017
visual
適切なフォントの組み合わせを生成 – Fontjoy
適切なフォントの組み合わせを生成 – Fontjoy
適切なフォントの組み合わせを生成 – Fontjoy
適切なフォントの組み合わせを生成 – Fontjoy
demo
2017
April 30, 2017
visual
未来を予測して動画を生成 – Generating Videos with Scene Dynamics –
未来を予測して動画を生成 – Generating Videos with Scene Dynamics –
Generating Videos with Scene Dynamics
Project
2017
April 30, 2017
visualimage
一枚の写真からその後の人の動きを予測 – Forecasting Human Dynamics from Static Images
一枚の写真からその後の人の動きを予測 – Forecasting Human Dynamics from Static Images
Forecasting Human Dynamics from Static Images
Paper
2017
April 25, 2017
visualimageperformance
AIを言葉でナビして学習 – Beating Atari with Natural Language Guided Reinforcement Learning
AIを言葉でナビして学習 – Beating Atari with Natural Language Guided Reinforcement Learning
AIを言葉でナビして学習 – Beating Atari with Natural Language Guided Reinforcement Learning
AIを言葉でナビして学習 – Beating Atari with Natural Language Guided Reinforcement Learning
Paper
2017
April 23, 2017
NLP
横顔から正面から見た顔を生成 – Beyond Face Rotation: Global and Local Perception GAN for Photorealistic and Identity Preserving Frontal View Synthesis
横顔から正面から見た顔を生成 – Beyond Face Rotation: Global and Local Perception GAN for Photorealistic and Identity Preserving Frontal View Synthesis
Beyond Face Rotation: Global and Local Perception GAN for Photorealistic and Identity Preserving Frontal View Synthesis
Paper
2017
April 18, 2017
GANvisual
絵を「描く」プロセスの模倣 – A Neural Representation of Sketch Drawings
絵を「描く」プロセスの模倣 – A Neural Representation of Sketch Drawings
絵を「描く」プロセスの模倣 – A Neural Representation of Sketch Drawings
絵を「描く」プロセスの模倣 – A Neural Representation of Sketch Drawings
Paper
2017
April 15, 2017
image
目線をあやつる – Gaze Warping
目線をあやつる – Gaze Warping
目線をあやつる – Gaze Warping
目線をあやつる – Gaze Warping
Web Site
2017
April 7, 2017
image
機械学習を用いたドラムマシン – The Infinite Drum Machine : Thousands of everyday sounds, organized using machine learning.
機械学習を用いたドラムマシン – The Infinite Drum Machine : Thousands of everyday sounds, organized using machine learning.
The Infinite Drum Machine : Thousands of everyday sounds, organized using machine learning
Project
2017
April 7, 2017
musicvisualsound
見えない体を見る. 一人称視点の映像からカメラをつけている人の姿勢を推定. – Seeing Invisible Poses: Estimating 3D Body Pose from Egocentric Video
見えない体を見る. 一人称視点の映像からカメラをつけている人の姿勢を推定. – Seeing Invisible Poses: Estimating 3D Body Pose from Egocentric Video
Seeing Invisible Poses: Estimating 3D Body Pose from Egocentric Video
Paper
2017
April 6, 2017
visualimage
Attributesによる画像の美しさ判定 – Photo Aesthetics Ranking Network with Attributes and Content Adaptation
Attributesによる画像の美しさ判定 – Photo Aesthetics Ranking Network with Attributes and Content Adaptation
Photo Aesthetics Ranking Network with Attributes and Content Adaptation
Paper
2017
April 4, 2017
visualimage
ピクセルではなくベクターで画像を生成
ピクセルではなくベクターで画像を生成
ピクセルではなく、ベクターで画像を生成する。
ピクセルではなく、ベクターで画像を生成する。
Web Site
2016
April 4, 2017
image
転移学習(Transfer Learning)概論
転移学習(Transfer Learning)概論
Transfer Learning - Machine Learning's Next Frontier
Transfer Learning - Machine Learning's Next Frontier
Web Site
2017
April 4, 2017
theory
一枚の写真からヘアスタイル全体が分かる技術 – AutoHair: Fully Automatic Hair Modeling from A Single Image
一枚の写真からヘアスタイル全体が分かる技術 – AutoHair: Fully Automatic Hair Modeling from A Single Image
AutoHair: Fully Automatic Hair Modeling from A Single Image
Paper
2017
April 2, 2017
image
CycleGAN 対訳がなくても画像を翻訳(変換) – Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks
CycleGAN 対訳がなくても画像を翻訳(変換) – Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks
Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks
Project
2017
April 1, 2017
visualimage
ストリートビューの画像の解析による人口統計調査 – Using Deep Learning and Google Street View to Estimate the Demographic Makeup of the US
ストリートビューの画像の解析による人口統計調査 – Using Deep Learning and Google Street View to Estimate the Demographic Makeup of the US
Using Deep Learning and Google Street View to Estimate the Demographic Makeup of the US
Paper
2017
March 31, 2017
visualimage
GANによるカラーパレットの生成 – Colormind
GANによるカラーパレットの生成 – Colormind
Colormind
Web Site
2017
March 30, 2017
artimageGAN
AIで表現するとは?壮大なデジタルの歴史から紐解く、その可能性について
AIで表現するとは?壮大なデジタルの歴史から紐解く、その可能性について
AIで表現するとは?壮大なデジタルの歴史から紐解く、その可能性について
Journal
2017
March 29, 2017
GANart
ファッション・トレンドの解析. 東京は… – Changing Fashion Cultures
ファッション・トレンドの解析. 東京は… – Changing Fashion Cultures
Changing Fashion Cultures
Paper
2017
March 29, 2017
visualart
ファッション・トレンドの解析. 東京は… – Changing Fashion Cultures
ファッション・トレンドの解析. 東京は… – Changing Fashion Cultures
Abe, Kaori, et al., "Changing fashion cultures." arXiv preprint arXiv:1703.07920, (2017)
ファッションの地理的および時系列的なトレンドをスナップ写真から解析するプロジェクト.
Paper
2017
March 29, 2017
image
CNNとLSTMでダンスダンスレボリューションのステップ譜を生成 – Dance Dance Convolution
CNNとLSTMでダンスダンスレボリューションのステップ譜を生成 – Dance Dance Convolution
DONAHUE, Chris; LIPTON, Zachary C.; MCAULEY, Julian, "Dance dance convolution. In: International conference on machine learning", PMLR, pp. 1039-1048, (2017)
CNNとLSTMでダンスダンスレボリューションのステップ譜
Paper
2017
March 27, 2017
music
人気があるから綺麗とは限らない!? – An Image is Worth More than a Thousand Favorites: Surfacing the Hidden Beauty of Flickr Pictures
人気があるから綺麗とは限らない!? – An Image is Worth More than a Thousand Favorites: Surfacing the Hidden Beauty of Flickr Pictures
Schifanella, Rossano, Miriam Redi, and Luca Maria Aiello, "An image is worth more than a thousand favorites: Surfacing the hidden beauty of flickr pictures.", Ninth International AAAI Conference on Web and Social Media, (2015)
Paper
2015
March 27, 2017
image
200万ものサウンド・クリップのデータセット – AudioSet
200万ものサウンド・クリップのデータセット – AudioSet
AudioSet
Dataset
2017
March 26, 2017
soundmusic
ジョークを集めたデータセット – Collection of over 200,000 short jokes for humour research
ジョークを集めたデータセット – Collection of over 200,000 short jokes for humour research
Collection of over 200,000 short jokes for humour research
Dataset
2017
March 26, 2017
society
fMRIの脳の反応を機械学習に利用 ?!? – Using human brain activity to guide machine learning
fMRIの脳の反応を機械学習に利用 ?!? – Using human brain activity to guide machine learning
Using human brain activity to guide machine learning
Paper
2017
March 25, 2017
essential
写真のStyle Transfer- Deep Photo Style Transfer
写真のStyle Transfer- Deep Photo Style Transfer
Deep Photo Style Transfer
Paper
2017
March 25, 2017
visualimage
論文からポスターを自動生成 – Learning to Generate Posters of Scientific Papers
論文からポスターを自動生成 – Learning to Generate Posters of Scientific Papers
Learning to Generate Posters of Scientific Papers
Paper
2017
March 25, 2017
image
輪郭/物体抽出の新スタンダードになるか? – Mask R-CNN
輪郭/物体抽出の新スタンダードになるか? – Mask R-CNN
HE, Kaiming, et al., "Mask r-cnn", Proceedings of the IEEE international conference on computer vision, pp. 2961-2969, (2017)
Faster-RCNNの拡張. ひとつのモデルで最小限の変更で物体検出、輪郭検出、人の姿勢の検出を高い精度で行う.
Paper
2017
March 23, 2017
image
目が回ります – DeepWarp: Photorealistic Image Resynthesis for Gaze Manipulation
目が回ります – DeepWarp: Photorealistic Image Resynthesis for Gaze Manipulation
DeepWarp: Photorealistic Image Resynthesis for Gaze Manipulation
demo
2017
March 19, 2017
visual
DeepDreamを用いたのドローイングツール- DreamCanvas
DeepDreamを用いたのドローイングツール- DreamCanvas
DeepDreamを用いたのドローイングツール- DreamCanvas
DeepDreamを用いたのドローイングツール- DreamCanvas
demo
2017
March 15, 2017
visual
GANを応用したSANによるSaliency Map(顕著性マップ)の生成 – Supervised Adversarial Networks for Image Saliency Detection –
GANを応用したSANによるSaliency Map(顕著性マップ)の生成 – Supervised Adversarial Networks for Image Saliency Detection –
GANを応用したSANによるSaliency Map(顕著性マップ)の生成 – Supervised Adversarial Networks for Image Saliency Detection –
GANを応用したSANによるSaliency Map(顕著性マップ)の生成
Paper
2017
March 15, 2017
GAN
機械学習を用いたドローイングツール – AutoDraw
機械学習を用いたドローイングツール – AutoDraw
機械学習を用いたドローイングツール – AutoDraw
機械学習を用いたドローイングツール – AutoDraw
Paper
2017
March 15, 2017
GANimage
ちょっとしたノイズを加えると…あら不思議 – Adversarial examples in the physical world
ちょっとしたノイズを加えると…あら不思議 – Adversarial examples in the physical world
Domenech, Arnau Pons, and Hartmut Ruhl. "An implicit ODE-based numerical solver for the simulation of the Heisenberg-Euler equations in 3+ 1 dimensions." arXiv preprint arXiv:1607.00253 (2016).
Paper
2016
March 15, 2017
image
Web MIDIでMagentaとセッション – Magenta Session
Web MIDIでMagentaとセッション – Magenta Session
magenta session
demo
2017
March 15, 2017
music
CRNNで鳥の声の識別 – Convolutional Recurrent Neural Networks for Bird Audio Detection
CRNNで鳥の声の識別 – Convolutional Recurrent Neural Networks for Bird Audio Detection
Convolutional Recurrent Neural Networks for Bird Audio Detection
Paper
2017
March 13, 2017
sound
顔写真から肥満度を推定 – Face-to-BMI: Using Computer Vision to Infer Body Mass Index on Social Media
顔写真から肥満度を推定 – Face-to-BMI: Using Computer Vision to Infer Body Mass Index on Social Media
Face-to-BMI: Using Computer Vision to Infer Body Mass Index on Social Media
Paper
2017
March 12, 2017
RobotArt – the Robot Art competition
RobotArt – the Robot Art competition
RobotArt – the Robot Art competition
the Robot Art competition
Web Site
2017
March 11, 2017
image
ファッション写真のデータセット – Large-scale Fashion (DeepFashion) Database
ファッション写真のデータセット – Large-scale Fashion (DeepFashion) Database
ファッション写真のデータセット – Large-scale Fashion (DeepFashion) Database
Dataset
2016
March 10, 2017
image
日々のニュース写真から似通った作品を検索(テートギャラリー) – Recognition Tate
日々のニュース写真から似通った作品を検索(テートギャラリー) – Recognition Tate
日々のニュース写真から似通った作品を検索
日々のニュース写真から似通った作品を検索
Project
2017
March 8, 2017
society
ビデオのフレーム補間 – Video Frame Synthesis using Deep Voxel Fl
ビデオのフレーム補間 – Video Frame Synthesis using Deep Voxel Fl
LIU, Ziwei, et al., "Video frame synthesis using deep voxel flow", Proceedings of the IEEE International Conference on Computer Vision, pp. 4463-4471, (2017)
Paper
2017
February 11, 2017
image
音源分離 – Deep Clustering and Conventional Networks for Music Separation: Stronger Together
音源分離 – Deep Clustering and Conventional Networks for Music Separation: Stronger Together
Deep Clustering and Conventional Networks for Music Separation: Stronger Together
Paper
2016
February 10, 2017
music
フォントのStyle Transfer? – Awesome Typography: Statistics-Based Text Effects Transfer
フォントのStyle Transfer? – Awesome Typography: Statistics-Based Text Effects Transfer
YANG, Shuai, et al. "Awesome typography: Statistics-based text effects transfer", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp.7464-7473, (2017)
Paper
2017
February 5, 2017
visualimage
パラレルコーパスデータ集 : OPUS – the open parallel corpus
パラレルコーパスデータ集 : OPUS – the open parallel corpus
OPUS – the open parallel corpus
Dataset
2017
January 30, 2017
list
food2vec – Augmented cooking with machine intelligence
food2vec – Augmented cooking with machine intelligence
food2vec – Augmented cooking with machine intelligence
demo
2017
January 27, 2017
essential
food2vec – Augmented cooking with machine intelligence
food2vec – Augmented cooking with machine intelligence
food2vec – Augmented cooking with machine intelligence
demo
2016
January 27, 2017
NLP
Learning to Draw: Generating Icons and Hieroglyphs
Learning to Draw: Generating Icons and Hieroglyphs
Learning to Draw: Generating Icons and Hieroglyphs
demo
2017
January 25, 2017
artimage
How many animals can one find in a random image?
How many animals can one find in a random image?
How many animals can one find in a random image?
Project
2017
January 23, 2017
artimage
AENet: Learning Deep Audio Features for Video Analysis
AENet: Learning Deep Audio Features for Video Analysis
AENet: Learning Deep Audio Features for Video Analysis
Paper
2017
January 20, 2017
visualmusic
T-SNE MAP – Google Arts and Culture Experiments
T-SNE MAP – Google Arts and Culture Experiments
T-SNE MAP – Google Arts and Culture Experiments
Project
2016
January 13, 2017
performancevisual
Learning to Protect Communications with Adversarial Neural Cryptography
Learning to Protect Communications with Adversarial Neural Cryptography
Abadi, Martín, and David G. Andersen. "Learning to protect communications with adversarial neural cryptography." arXiv preprint arXiv:1610.06918 (2016)
Paper
2016
January 8, 2017
GAN
ドキュメンタリー – The Automation of Creativity: How man & AI will work together to improve the ad industry
ドキュメンタリー – The Automation of Creativity: How man & AI will work together to improve the ad industry
The Automation of Creativity: How man & AI will work together to improve the ad industry
Journal
2017
January 2, 2017
society
ドキュメンタリー – The Automation of Creativity: How man & AI will work together to improve the ad industry
ドキュメンタリー – The Automation of Creativity: How man & AI will work together to improve the ad industry
ドキュメンタリー – The Automation of Creativity: How man & AI will work together to improve the ad industry
demo
2016
January 2, 2017
performance
Pix2Pixを使った風景画像の生成 – Imaginary landscapes using pix2pix
Pix2Pixを使った風景画像の生成 – Imaginary landscapes using pix2pix
Imaginary landscapes using pix2pix
Project
2016
January 2, 2017
クリエイティブ ・チューリングテスト- Turing Tests in the Creative Arts
クリエイティブ ・チューリングテスト- Turing Tests in the Creative Arts
Project
2016
December 23, 2016
art
The Lakh MIDI Dataset v0.1
The Lakh MIDI Dataset v0.1
The Lakh MIDI Dataset v0.1
Dataset
2016
December 22, 2016
musicsound
DeepBach: a Steerable Model for Bach chorales generation by Gaëtan Hadjeres, François Pachet
DeepBach: a Steerable Model for Bach chorales generation by Gaëtan Hadjeres, François Pachet
Hadjeres, Gaëtan, François Pachet, and Frank Nielsen, "Deepbach: a steerable model for bach chorales generation.", International Conference on Machine Learning. PMLR, (2017)
Paper
2017
December 19, 2016
music
Unsupervised Learning of 3D Structure from Images
Unsupervised Learning of 3D Structure from Images
Unsupervised Learning of 3D Structure from Images
Paper
2016
December 6, 2016
visualimage
SoundNet: Learning Sound Representations from Unlabeled Video
SoundNet: Learning Sound Representations from Unlabeled Video
Aytar, Yusuf, Carl Vondrick, and Antonio Torralba, "Soundnet: Learning sound representations from unlabeled video.", Advances in neural information processing systems 29, pp892-900 (2016)
Paper
2016
December 5, 2016
musicsound
MIDIの演奏に強弱をつけてより自然に! – Neural Translation of Musical Style
MIDIの演奏に強弱をつけてより自然に! – Neural Translation of Musical Style
Malik, Iman, and Carl Henrik Ek. "Neural translation of musical style." arXiv preprint arXiv:1708.03535 (2017).
Paper
2017
June 6, 2015
musictheory
変化し続ける架空の人物ポートレート – Portraits of Imaginary People
変化し続ける架空の人物ポートレート – Portraits of Imaginary People
Portraits of Imaginary People
Project
Self-Supervised VQ-VAE for One-Shot Music Style Transfer
Self-Supervised VQ-VAE for One-Shot Music Style Transfer
Paper
2021
musicsound
Music transformer: Generating music with long-term structure
Music transformer: Generating music with long-term structure
Paper
2018
music
‣
GLAZE: ぱっと見にはわからないノイズを画像に追加することで、拡散モデルを用いたスタイルの模倣を困難にする仕組み
GLAZE: ぱっと見にはわからないノイズを画像に追加することで、拡散モデルを用いたスタイルの模倣を困難にする仕組み
アーティストのスタイルが勝手に模倣されることを防ぐ Adversarial Example
February 17, 2023
Shan, Shawn, Jenna Cryan, Emily Wenger, Haitao Zheng, Rana Hanocka, and Ben Y. Zhao. 2023. “GLAZE: Protecting Artists from Style Mimicry by Text-to-Image Models.” arXiv [cs.CR]. arXiv. http://arxiv.org/abs/2302.04222.
ethicsimagesociety
2023
Paper
AudioLDM: latent diffusionを用いてテキストからオーディオ(環境音、音楽等)を生成するモデル
AudioLDM: latent diffusionを用いてテキストからオーディオ(環境音、音楽等)を生成するモデル
Liu, Haohe, Zehua Chen, Yi Yuan, Xinhao Mei, Xubo Liu, Danilo Mandic, Wenwu Wang, and Mark D. Plumbley. 2023. “AudioLDM: Text-to-Audio Generation with Latent Diffusion Models.” arXiv [cs.SD]
. arXiv. http://arxiv.org/abs/2301.12503.
February 10, 2023
CLAPを用いることでText-to-AudioのSOTAを達成。オープンソース化されていて、すぐに試せるオンラインデモもあり!
musicsound
2023
Paper
SingSong — ボーカルを入力に伴奏をまるっと音で生成するモデル
SingSong — ボーカルを入力に伴奏をまるっと音で生成するモデル
音源分離技術を使ってボーカルとそれに付随する伴奏を抽出。その関係を学習。Ground Truth (元々の曲に入ってた伴奏)には流石に劣るがそれに匹敵するクオリティの曲を生成できるようになった。
January 31, 2023
Donahue, Chris, Antoine Caillon, Adam Roberts, Ethan Manilow, Philippe Esling, Andrea Agostinelli, Mauro Verzetti, et al. 2023. “SingSong: Generating Musical Accompaniments from Singing.” arXiv [cs.SD]
. arXiv. http://arxiv.org/abs/2301.12662.
musicsound
2023
Paper
Moûsai: Latent Diffusionモデルでの音楽生成
Moûsai: Latent Diffusionモデルでの音楽生成
Latent Diffusionのアーキテクチャを利用して、テキストから音楽を生成するモデル
January 30, 2023
Schneider, Flavio, Zhijing Jin, and Bernhard Schölkopf. 2023. “Moûsai: Text-to-Music Generation with Long-Context Latent Diffusion.” arXiv [cs.CL]
. arXiv. http://arxiv.org/abs/2301.11757.
musicsound
2023
Paper
MusicLM: テキストから音楽を生成するモデル
MusicLM: テキストから音楽を生成するモデル
“a calming violin melody backed by a distorted guitar riff” といったテキストから音楽がサウンドファイルとして生成される. Stable Diffusionの音楽版
January 27, 2023
Agostinelli, Andrea, Timo I. Denk, Zalán Borsos, Jesse Engel, Mauro Verzetti, Antoine Caillon, Qingqing Huang, et al. 2023. “MusicLM: Generating Music From Text.” arXiv [cs.SD]
. arXiv. http://arxiv.org/abs/2301.11325.
musicsoundNLP
2023
Paper
Datasets That Are Not — 新奇性の高い出力を求めたデータセットのAugmentation手法
Datasets That Are Not — 新奇性の高い出力を求めたデータセットのAugmentation手法
データセットの模倣ではない、新奇性の高い出力を生成AIを用いて実現するために、生成した画像をデータセットに追加していくことを繰り返す
January 17, 2023
Wu, Yusong, Kyle Kastner, Tim Cooijmans, Cheng-Zhi Anna Huang, and Aaron Courville. n.d. “Datasets That Are Not: Evolving Novelty Through Sparsity and Iterated Learning.”
theory
2022
Paper
それっぽさと新奇性、それぞれを最大化するGANモデルを用いた音楽生成 — Musicality-Novelty GAN
それっぽさと新奇性、それぞれを最大化するGANモデルを用いた音楽生成 — Musicality-Novelty GAN
人真似ではない新しい音楽をAIで生成しようとする野心的な研究
August 7, 2022
Chen, Gong, Yan Liu, Sheng-Hua Zhong, and Xiang Zhang. 2018. “Musicality-Novelty Generative Adversarial Nets for Algorithmic Composition.” In Proceedings of the 26th ACM International Conference on Multimedia
, 1607–15. MM ’18. New York, NY, USA: Association for Computing Machinery.
musictheory
2018
Paper
深層学習を用いたウェーブ・シェーピング合成 - NEURAL WAVESHAPING SYNTHESIS
深層学習を用いたウェーブ・シェーピング合成 - NEURAL WAVESHAPING SYNTHESIS
CPUでもサクサク動くのがポイント!
January 19, 2022
Hayes, B., Saitis, C., & Fazekas, G. (2021). Neural Waveshaping Synthesis.
musicsound
2021
Paper
もしAIが「へのへのもへじ」を作ったら? — CLIPと進化戦略を用いたコラージュ画像の生成
もしAIが「へのへのもへじ」を作ったら? — CLIPと進化戦略を用いたコラージュ画像の生成
画像とテキストがどれくらいマッチしているかを定量化するCLIPモデルを用いて、要素画像の配置を最適化。入力されたテキストにあったコラージュ画像を生成するシステム
December 11, 2021
CLIP-guided collage image optimization using Evolutionary Strategy
visualcross-modal
2021
Project
Botto—コミュニティのフィードバックに基づいてNFTアートを自動生成するBot
Botto—コミュニティのフィードバックに基づいてNFTアートを自動生成するBot
CLIP+VQ-GANの仕組みを活用
November 19, 2021
Botto Project
artvisualGAN
2021
Project
X線スキャンとStyle Transferでキャンバスに隠された絵画を「復元」するプロジェクト
X線スキャンとStyle Transferでキャンバスに隠された絵画を「復元」するプロジェクト
X線写真をコンテンツ画像に、同時代の同じ作家の絵をスタイル画像としてスタイルトランスファーをかける。美術史家などからその手法に対して強い批判も上がっている。
November 11, 2021
Bourached, A., & Cann, G. H. (2019). Raiders of the Lost Art. CrossTalk, 22(7–8), 35. https://doi.org/10.1525/9780520914957-028
artimageethics
2019
Paper
Wav2CLIP: CLIPを使用したロバストなオーディオ表現学習手法
Wav2CLIP: CLIPを使用したロバストなオーディオ表現学習手法
CLIPからオーディオ表現を抽出する手法であるWav2CLIPを提案。オーディオ分類・検索タスクで良好な結果を残す
October 31, 2021
soundcross-modalimage
2021
Paper
CLIPと進化戦略ESを用いて、単純なかたちを組み合わせて描く抽象画. AIキュビズム ?
CLIPと進化戦略ESを用いて、単純なかたちを組み合わせて描く抽象画. AIキュビズム ?
テキストと画像がどのくらいマッチしているかを定量化するモデル OpenAI CLIPを評価関数に用いて、進化戦略ESによって生成した抽象画
October 1, 2021
YINGTAO TIAN, DAVID HA. Modern Evolution Strategies for Creativity: Fitting Concrete Images and Abstract Concepts (2021)
imageart
2021
Project
FakeAVCeleb - ディープフェイク技術で作った顔と話し声のデータセット
FakeAVCeleb - ディープフェイク技術で作った顔と話し声のデータセット
顔をディープフェイク技術で動かし、リップシンクした音声を追加することで作ったDeepfake動画のデータセット。ディープフェイクへの対抗策の研究が目的。
September 8, 2021
FakeAVCeleb: A Novel Audio-Video Multimodal Deepfake Dataset, Hasam Khalid, Shahroz Tariq, Minha Kim, Simon S. Woo (2021)
ethicssociety
2021
Dataset
"AI" - GPT3を用いた実験的な演劇
"AI" - GPT3を用いた実験的な演劇
OpenAIの言語モデルGPT3を用いた即興劇。ロンドンの劇場での公演。
September 3, 2021
AI by Jennifer Tang
performanceNLP
2021
Project
synth1B1 - 10億以上のシンセ音と、そのパラメータがペアになったデータセット
synth1B1 - 10億以上のシンセ音と、そのパラメータがペアになったデータセット
なんと総時間は約126年分!! データセットを生成するためにpytorch上に実装された、GPUに最適化されたモジュラーシンセ torchsynthも合わせて公開。
July 23, 2021
Turian, J., Shier, J., Tzanetakis, G., McNally, K., & Henry, M. (2021). One Billion Audio Sounds from GPU-enabled Modular Synthesis.
soundmusic
2021
Dataset
画像と文章をつなげるモデル OpenAI CLIPを用いた「CLIPアート」
画像と文章をつなげるモデル OpenAI CLIPを用いた「CLIPアート」
画像とテキストの関連性の高さを判定するモデルCLIPを用いて、生成される画像を最適化 → テキストの入力にあった画像が生成
July 17, 2021
OpenAI CLIP + Image Generation Models = CLIP art
artimagecross-modal
2021
Project
The Flemish Scrollers - 議会中にサボっている議員を監視するボット
The Flemish Scrollers - 議会中にサボっている議員を監視するボット
顔認識とオブジェクト認識を組み合わせて、議会中に電話をいじっている議員を摘発
July 13, 2021
The Flemish Scrollers, Dries Depoorter (2021)
ethicsart
2021
Project
Neural Loop Combiner — リズム、メロディー、ベースライン... どのループを組み合わせる?
Neural Loop Combiner — リズム、メロディー、ベースライン... どのループを組み合わせる?
現代の音楽制作過程で重要なループの組み合わせ。たくさんあるループ間の相性を判定して、適切なループの組み合わせをレコメンドする仕組み。
June 30, 2021
Chen, B.-Y., Smith, J. B. L. and Yang, Y.-H. (2020) ‘Neural Loop Combiner: Neural Network Models for Assessing the Compatibility of Loops’.
music
2020
Paper
Algorithms of Late-Capitalism — 行き過ぎた資本主義社会におけるAI/アルゴリズムの利用に光を当てるZine/Webサイト
Algorithms of Late-Capitalism — 行き過ぎた資本主義社会におけるAI/アルゴリズムの利用に光を当てるZine/Webサイト
AIや機械学習が社会で用いられる場合、時にそれが市民を搾取するかたちで使われることがある。そうしたAIの利用の実例を取り上げてカタログ化するDigital Activism。
June 30, 2021
Algorithms of Late-Capitalism (2020-)
ethicssociety
2020
Project
Paint with Music - DDSPを用いて絵筆のストロークを音楽に
Paint with Music - DDSPを用いて絵筆のストロークを音楽に
Google Magentaチームの最新のプロジェクト。2020年に発表した DDSP: Differentiable Digital Signal Processing を使って、絵筆のストロークを楽器音に変えている。筆で描くように音を奏でることができる。
June 22, 2021
Paint with Music - Google Magenta
musicsound
2021
Project
結局AI音楽ツールって使えるの? AI音楽ツールに対する意識調査- A survey on the uptake of Music AI Software
結局AI音楽ツールって使えるの? AI音楽ツールに対する意識調査- A survey on the uptake of Music AI Software
AI音楽ツールに対する意識調査を117名に対してオンラインで行った。結論からいうと... AIツールはほとんど使われていない。AIツールに対してポジティブな人も、現状ではなく未来の可能性にひかれている。
June 19, 2021
Knotts, S., & Collins, N. (2020). A survey on the uptake of Music AI Software. Proceedings of the International Conference on New Interfaces for Musical Expression, 594–600.
music
2020
Paper
演奏者が自身の姿と音を学習したAIと向き合うオーディオビジュアルパフォーマンス: Alexander Schubert - Convergence
演奏者が自身の姿と音を学習したAIと向き合うオーディオビジュアルパフォーマンス: Alexander Schubert - Convergence
GANやAutoEncoderが使われている。2021年のアルスエレクトロニカ Digital Musics & Sound Art 部門のゴールデンニカ(最優秀賞)。
June 18, 2021
Alexander Schubert - Convergence (2020)
musicperformancesoundGAN
2020
Project
Datagen - AIの学習データをAIで生成、提供するスタートアップ
Datagen - AIの学習データをAIで生成、提供するスタートアップ
バイアスやプライバシーへの配慮から、人を対象にしたデータセットを集めることが難しくなっている。そこでGANなどを使って、適切なデータセットを人工的に作り出す仕組みを提供するスタートアップが登場した。
June 12, 2021
-
ethicssociety
2021
Dataset
Energy and Policy Considerations for Deep Learning in NLP
Energy and Policy Considerations for Deep Learning in NLP
GPT-2などの言語モデルについて、その精度ではなく、学習時に消費している電力及び、二酸化炭素の放出量についてまとめた。この研究の試算では、例えばTransformer の学習に、一般的な自動車のライフサイクルの約5台分、アメリカ人約17人の一年分に相当するカーボンフットプリントがあることがわかった。
June 10, 2021
Emma Strubell, Ananya Ganesh, Andrew McCallum (2019)
ethicsNLP
2019
Paper
VAEベースのリズム生成モデル - Creating Latent Spaces for Modern Music Genre Rhythms Using Minimal Training Data
VAEベースのリズム生成モデル - Creating Latent Spaces for Modern Music Genre Rhythms Using Minimal Training Data
少量の学習データでも効率的に学習できるように、最近のダンスミュージックの特徴を生かしたアーキテクチャを採用
June 7, 2021
Vigliensoni, G., Mccallum, L., & Fiebrink, R. (2020). Creating Latent Spaces for Modern Music Genre Rhythms Using Minimal Training Data. Proc. ICCC 2020.
music
2020
Paper
LoopNet—ドラムループのサウンド合成
LoopNet—ドラムループのサウンド合成
音源分離のモデルで提案されたWave-U-Netのアーキテクチャを用いて、ドラムループをまるごと生成する仕組み
June 5, 2021
Chandna, P., Ramires, A., Serra, X., & Gómez, E. (2021). LoopNet: Musical Loop Synthesis Conditioned On Intuitive Musical Parameters.
music
2021
Paper
パーカッション音の合成 - NEURAL PERCUSSIVE SYNTHESIS
パーカッション音の合成 - NEURAL PERCUSSIVE SYNTHESIS
June 4, 2021
Ramires, A., Chandna, P., Favory, X., Gómez, E., & Serra, X. (2019). Neural Percussive Synthesis Parameterised by High-Level Timbral Features. ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings, 2020-May, 786–790. Retrieved from http://arxiv.org/abs/1911.11853
sound
2019
Paper
WebFace260M - インターネット上で集められた2億6千万枚の顔写真のデータセット
WebFace260M - インターネット上で集められた2億6千万枚の顔写真のデータセット
400万人の人の2億6000万枚の顔写真のデータセットと、ゴミデータを取り除いた200万人/4200万枚の顔写真のデータセットの二種類を提供
June 3, 2021
Zhu, Z., Huang, G., Deng, J., Ye, Y., Huang, J., Chen, X., … Zhou, J. (2021). WebFace260M: A Benchmark Unveiling the Power of Million-Scale Deep Face Recognition
ethics
2021
Dataset
監視カメラの画像と画像認識で世界の国々の幸福度を計測? - Measuring Happiness Around the World through AI
監視カメラの画像と画像認識で世界の国々の幸福度を計測? - Measuring Happiness Around the World through AI
世界8都市の街中で撮られた動画から顔を抜き出してCNNを用いた感情推定モデルで解析。都市ごとの有意な差は見当たらないという結果に。
June 3, 2021
Ozakar, R., Gazanfer, R. E., & Sinan Hanay, Y. (2020, November 25). Measuring happiness around the World through artificial intelligence
society
2020
Paper
Paper
Paper
June 2, 2021
Paper
ドラムパターンとメロディの生成 - Artificial Neural Networks Jamming on the Beat
ドラムパターンとメロディの生成 - Artificial Neural Networks Jamming on the Beat
リズムパターンのデータセットもあわせて公開。
June 1, 2021
Tikhonov, A., & Yamshchikov, I. (2021, July 13). Artificial Neural Networks Jamming on the Beat. 37–44. https://doi.org/10.5220/0010461200370044
music
2021
Paper
A Bassline Generation System Based on Sequence-to-Sequence Learning
A Bassline Generation System Based on Sequence-to-Sequence Learning
2019年のNIMEで発表された論文。最新の言語モデル(seq-to-seq model)の知見を利用してドラムトラックの音声ファイルからそれにあったベースラインを生成してくれる。
June 1, 2021
Behzad Haki, & Jorda, S. (2019). A Bassline Generation System Based on Sequence-to-Sequence Learning. Proceedings of the International Conference on New Interfaces for Musical Expression, 204–209.
music
2019
Paper
NSynth: Neural Audio Synthesis—WaveNetを用いたAutoencoderで楽器音を合成
NSynth: Neural Audio Synthesis—WaveNetを用いたAutoencoderで楽器音を合成
WaveNetの仕組みを使ったAutoencoderで、楽器の音の時間方向の変化も含めて、潜在空間にマッピング → 潜在ベクトルから楽器の音を合成する。この研究で使った多数の楽器の音を集めたデータセット NSynth を合わせて公開。
May 28, 2021
Engel, J. et al. (2017) ‘Neural Audio Synthesis of Musical Notes with WaveNet Autoencoders’. Available
musicsound
2017
Paper
essentia オーディオ/音楽解析ライブラリ
essentia オーディオ/音楽解析ライブラリ
May 26, 2021
Dmitry Bogdanov, et al. 2013. ESSENTIA: an open-source library for sound and music analysis. In Proceedings of the 21st ACM international conference on Multimedia (MM '13). Association for Computing Machinery, New York, NY, USA, 855–858. DOI:https://doi.org/10.1145/2502081.2502229
soundmusic
Tool
1万以上のドラム、パーカッション音のデータセット — Freesound One-Shot Percussive Sounds
1万以上のドラム、パーカッション音のデータセット — Freesound One-Shot Percussive Sounds
ドラム、パーカションのワンショットを集めたデータセット
May 25, 2021
António Ramires, Pritish Chandna, Xavier Favory, Emilia Gómez, & Xavier Serra. (2020). Freesound One-Shot Percussive Sounds (Version 1.0) [Data set]. Zenodo. http://doi.org/10.5281/zenodo.3665275
soundmusic
2020
Dataset
MuseMorphose: Transformerを用いたVAEによる音楽のスタイル変換
MuseMorphose: Transformerを用いたVAEによる音楽のスタイル変換
長期の時間依存性を学習できるTransformerの利点とコントロール性が高いVAEの利点。この二つを組み合わせたEncoder-Decoderアーキテクチャで、MIDIで表現された音楽のスタイル変換(Style Transfer)を実現。
May 21, 2021
Wu, S.-L. and Yang, Y.-H. (2021) ‘MuseMorphose: Full-Song and Fine-Grained Music Style Transfer with Just One Transformer VAE’
music
2021
Paper
Visual indeterminacy in GAN art
Visual indeterminacy in GAN art
GANが生成する画像の「●●ぽいけど、なんか違う...」という「不確定性」に着目し、現代アートの特徴との比較を行った上で、今後のGANアートの将来像を探る。
May 19, 2021
Hertzmann, A. (2020) ‘Visual indeterminacy in GAN art’, Leonardo. MIT Press Journals, 53(4), pp. 424–428.
arttheoryGANvisual
2020
Paper
GANを使った環境音の生成→環境音の識別モデルの性能向上
GANを使った環境音の生成→環境音の識別モデルの性能向上
環境音の識別モデルの学習のためのData Augmentation手法の提案
May 18, 2021
Madhu, A. and K, S. (2021) ‘EnvGAN: Adversarial Synthesis of Environmental Sounds for Data Augmentation’.
soundaudioGAN
2021
Paper
Generating Long Sequences with Sparse Transformers
Generating Long Sequences with Sparse Transformers
スパースなTransformerの仕組みで計算量を抑える
May 16, 2021
Child, R. et al. (2019) ‘Generating Long Sequences with Sparse Transformers’, arXiv. arXiv. Available at: http://arxiv.org/abs/1904.10509 (Accessed: 29 January 2021).
musicvisualaudio
2019
Paper
Neural Text Generation with Unlikelihood Training
Neural Text Generation with Unlikelihood Training
Likelihoodを最適化しようとすると頻出する単語が必要以上に頻出する結果に
May 14, 2021
Welleck, S., Kulikov, I., Roller, S., Dinan, E., Cho, K., & Weston, J. (2019). Neural Text Generation with Unlikelihood Training.
NLP
2019
Paper
The Role of AI Attribution Knowledge in the Evaluation of Artwork
The Role of AI Attribution Knowledge in the Evaluation of Artwork
クラウドソーシングの仕組みを活用して、AIが描いた絵を区別できるか、またAIが描いたという情報が、絵自体の評価にどのくらい影響するのかを調査。
May 11, 2021
Gangadharbatla, H. (2021) ‘The Role of AI Attribution Knowledge in the Evaluation of Artwork’, pp. 1–19. doi: 10.1177/0276237421994697.
theoryart
2021
Paper
Exposing.AI
Exposing.AI
Flickrなどに顔写真をアップロードした場合、特にCreative Commonsのライセンスなどを設定した場合、知らない間に顔認識モデルの学習データとして使われている可能性がある。このサイトは自分の写真が、学習データとして使われていないかチェックできるサイト。
May 5, 2021
Harvey, Adam. LaPlace, Jules, Exposing.AI
ethics
2021
Project
Infinite Bad Guy
Infinite Bad Guy
YouTube上で史上最も多くカバーされた楽曲ビリー・アイリッシュのBad Guy。YouTube上にあがっている曲を解析、分類し、リズムに合わせてスムーズに繋いでいく。無限に続くBad Guyジュークボックス。
May 1, 2021
Infinite Bad Guy (IYOIYO, Kyle McDonald)
music
2020
Project
Talking Drums: Generating drum grooves with neural networks.
Talking Drums: Generating drum grooves with neural networks.
ドラムのキックの位置を入力すると、リズムパターン全体を生成するモデル。言語モデルのseq-to-seqモデルの考え方を利用。
April 30, 2021
Hutchings, P. (2017). Talking Drums: Generating drum grooves with neural networks.
music
2017
Paper
UAV-Human: A Large Benchmark for Human Behavior Understanding with Unmanned Aerial Vehicles
UAV-Human: A Large Benchmark for Human Behavior Understanding with Unmanned Aerial Vehicles
ドローンから撮影した人の行動の動画のデータセット。ドローンを使った監視に直結する恐れ??
April 22, 2021
UAV-Human: A Large Benchmark for Human Behavior Understanding with Unmanned Aerial Vehicles
ethics
2021
Dataset
random_faces - ランダムに存在しない人の顔を生成するPythonライブラリ
random_faces - ランダムに存在しない人の顔を生成するPythonライブラリ
ライブラリをインストールしてたった二行で、存在しない人の顔画像が生成できるPythonライブラリ
April 22, 2021
random_faces
GANimageethics
2021
Tool
AAI - AIを用いたMouse on Marsのアルバム
AAI - AIを用いたMouse on Marsのアルバム
ベテラン電子音楽家、あのMouse on Marsが、AIを用いたアルバムを公開!! テキストを入力した声を合成するシステムを構築。生成した声を用いて楽曲を構成した。
April 22, 2021
"AAI" by Mouse on Mars
music
2021
Project
ArtEmis: Affective Language for Visual Art
ArtEmis: Affective Language for Visual Art
8万枚の絵画にクラウドソーシングで44万の言語情報を付加。
April 22, 2021
ArtEmis: Affective Language for Visual Art
visualart
2021
Dataset
Translating Paintings Into Music Using Neural Networks
Translating Paintings Into Music Using Neural Networks
音楽とアルバムカバーの関係を学習したモデルをベースに、絵画と音楽を相互に変換するパフォーマンス
April 19, 2021
Verma, P., Basica, C. and Kivelson, P. D. (2020) ‘Translating Paintings Into Music Using Neural Networks’.
cross-modalmusicart
2020
Paper