• |人工知能と表現の今|
  • About
  • Archive
  • Paper
  • Project
  • Tool
  • Dataset
Create with AI
Create with AI

Create with AI

‣
Instructions
  1. Duplicate this template to your Notion workspace
  2. Create a site using Super, using your newly created page as the Notion URL.
  3. Add the snippet code and fonts:
  4. ‣
    Fonts

    The fonts used in the template are: PS Fournier: Light Reason New: Regular and Medium You’ll need to add these fonts to a new web project in your Adobe Typekit account and paste the unique ID into the code below.

    ‣
    Using different fonts

    If you want to use your own fonts you’ll need to add custom overrides beneath the CSS in the code below. You can see the original CSS at the following link: https://iamsamsmall.github.io/cy/style.css

    /* Here are the names of the font families in the code. Search for them so you know which lines to override in your customisations. */
    psfournier-std
    reason-new
    ‣
    V2 code

    Paste the code below into the Snippet Injection field in your Super settings.

    ⚠️
    If you’re switching from V1 to V2 and have also made customisations to the code in your site then proceed with caution.

4. Make sure you’ve done these things before you go live

‣
Go live checklist
Change all links in the footer database
Check the favicon, update if necessary in the snippet code
Amend the meta description in the snippet code
Update the share image in the snippet code
Check that the Show or hide page properties option in Super settings is set to ‘Show’
‣
Setting looks like this...
image
Check that all navigation labels and links are correct and that they point to the right pages. Note, they do not automatically update when you amend page names or add new pages.
Add pretty links for your pages, projects, and articles into Super’s pretty URL settings. By default you’ll need to use projects/ and writing/, you can amend these if you want but you’ll need to add CSS overrides.
‣
Example of pretty links and url structure
image
📌
元々はコミュニティベースのサイトとしてスタートしましたが、環境の変化に伴い、現在はほぼ徳井直生 (@naotokui) 個人の研究メモへと変化しています 😅 ご注意ください。

💾
References: AI

AIの10年で芸術はどう変わった?アーティストたちの本音 — Artists on a Decade of AI Evolution: An Interview Study of Affordances, Culture, and Artistic Practice with Machine LearningAIの10年で芸術はどう変わった?アーティストたちの本音 — Artists on a Decade of AI Evolution: An Interview Study of Affordances, Culture, and Artistic Practice with Machine Learning
📄
AIの10年で芸術はどう変わった?アーティストたちの本音 — Artists on a Decade of AI Evolution: An Interview Study of Affordances, Culture, and Artistic Practice with Machine Learning

. . "Artists on a Decade of AI Evolution: An Interview Study of Affordances, Culture, and Artistic Practice with Machine Learning."

Paper

@June 18, 2024 9:30 PM (GMT+2)

March 25, 2026 12:50 PM (GMT+9)
artethicsdesignhuman-aivisualNLPsocietycross-modal
AIが学んだ曲は誰のもの?音楽生成モデルのデータ帰属 — Large-Scale Training Data Attribution for Music Generative Models via UnlearningAIが学んだ曲は誰のもの?音楽生成モデルのデータ帰属 — Large-Scale Training Data Attribution for Music Generative Models via Unlearning
📄
AIが学んだ曲は誰のもの?音楽生成モデルのデータ帰属 — Large-Scale Training Data Attribution for Music Generative Models via Unlearning

Choi, Woosung, Junghyun Koo, Kin Wai Cheuk, Joan Serrà, Marco A. Martínez-Ramírez, Yukara Ikemiya, Naoki Murata, Yuhta Takida, Wei-Hsiang Liao, and Yuki Mitsufuji. 2025. "Large-Scale Training Data Attribution for Music Generative Models via Unlearning." arXiv preprint arXiv:2506.18312.

音楽生成AIが学習データのどの曲から影響を受けたのかを特定する新しい手法を開発

Paper

@June 18, 2024 9:30 PM (GMT+2)

March 23, 2026 5:30 PM (GMT+9)
musicethicsLLMsocietyessential
LLMは本当に理解しているのか?物理概念で検証 — The Stochastic Parrot on LLM's Shoulder: A Summative Assessment of Physical Concept UnderstandingLLMは本当に理解しているのか?物理概念で検証 — The Stochastic Parrot on LLM's Shoulder: A Summative Assessment of Physical Concept Understanding
📄
LLMは本当に理解しているのか?物理概念で検証 — The Stochastic Parrot on LLM's Shoulder: A Summative Assessment of Physical Concept Understanding

The Stochastic Parrot on LLM's Shoulder: A Summative Assessment of Physical Concept Understanding

Mo Yu, Lemao Liu, Junjie Wu, Tsz Ting Chung, Shunchi Zhang, Jiangnan Li, Dit-Yan Yeung, Jie Zhou

Paper

@June 18, 2024 9:30 PM (GMT+2)

March 23, 2026 5:04 PM (GMT+9)
LLMNLPtheoryethicsessential
AIが私たちの書き方を変えている — How LLMs Distort Our Written Language
📄
AIが私たちの書き方を変えている — How LLMs Distort Our Written Language

Abdulhai, Marwa, Isadora White, Yanming Wan, Ibrahim Qureshi, Joel Leibo, Max Kleiman-Weiner, and Natasha Jaques. 2026. "How LLMs Distort Our Written Language." arXiv preprint arXiv:2603.18161.

Marwa Abdulhai, Isadora White, Yanming Wan, Ibrahim Qureshi, Joel Leibo, Max Kleiman-Weiner, Natasha Jaques

Paper

@June 18, 2024 9:30 PM (GMT+2)

March 23, 2026 4:45 PM (GMT+9)
LLMethicsNLPsocietydesignhuman-ai
人間とAIの創造性、ランダムなアイデアは本当に役立つ? — Serendipity by Design: Evaluating the Impact of Cross-domain Mappings on Human and LLM Creativity
📄
人間とAIの創造性、ランダムなアイデアは本当に役立つ? — Serendipity by Design: Evaluating the Impact of Cross-domain Mappings on Human and LLM Creativity

Serendipity by Design: Evaluating the Impact of Cross-domain Mappings on Human and LLM Creativity

Qiawen Ella Liu, Marina Dubova, Henry Conklin, Takumi Harada, Thomas L. Griffiths

Paper

@June 18, 2024 9:30 PM (GMT+2)

March 23, 2026 4:41 PM (GMT+9)
LLMdesignhuman-aitheory
AIの「エラー」がひらめきを生む:不完全性をデザイン発想の味方にAIの「エラー」がひらめきを生む:不完全性をデザイン発想の味方に
📄
AIの「エラー」がひらめきを生む:不完全性をデザイン発想の味方に

Liu, Fang, Junyan Lv, Shenglan Cui, Zhilong Luan, Kui Wu, and Tongqing Zhou. 2024. “Smart ‘Error’! Exploring Imperfect AI to Support Creative Ideation.” Proceedings of the ACM on Human-Computer Interaction 8 (CSCW1): 1–28.

画像認識モデルで誤ってラベル付けされた画像を提示することで、デザイナーに新しいインスピレーションを与えられることを検証

Paper

@June 18, 2024 9:30 PM (GMT+2)

June 5, 2025 6:03 AM (GMT+9)
theorydesign
生成AIと創造性:アイデアの固着と拡散的思考への影響に関する実験的研究生成AIと創造性:アイデアの固着と拡散的思考への影響に関する実験的研究
📄
生成AIと創造性:アイデアの固着と拡散的思考への影響に関する実験的研究

Wadinambiarachchi, Samangi, Ryan M. Kelly, Saumya Pareek, Qiushi Zhou, and Eduardo Velloso. 2024. “The Effects of Generative AI on Design Fixation and Divergent Thinking.” arXiv [Cs.HC]. arXiv. http://arxiv.org/abs/2403.11164.

生成AIをデザインの過程で使うと、AIのアウトプットに無意識に引っ張られてしまい、アイデアの多様性が奪われてしまう可能性がある

Paper

2024

June 4, 2025 6:08 AM (GMT+9)
theorydesign
SONICS - AI生成楽曲のデータセット &識別モデルSONICS - AI生成楽曲のデータセット &識別モデル
📄
SONICS - AI生成楽曲のデータセット &識別モデル

Rahman, Md Awsafur, Zaber Ibn Abdul Hakim, Najibul Haque Sarker, Bishmoy Paul, and S. Fattah. 2024. “SONICS: Synthetic or Not -- Identifying Counterfeit Songs,” August. http://arxiv.org/abs/2408.14080.

SunoやUdioで生成した楽曲を識別するためのフレームワーク

Paper

2024

April 25, 2025 2:27 PM (GMT+9)
musicsoundethics
AIモデルの生成物で新しいモデルを学習! を繰り返すと… 数世代でモデルが崩壊する! AIモデルの生成物で新しいモデルを学習! を繰り返すと… 数世代でモデルが崩壊する!
📄
AIモデルの生成物で新しいモデルを学習! を繰り返すと… 数世代でモデルが崩壊する!

Shumailov, Ilia, Zakhar Shumaylov, Yiren Zhao, Nicolas Papernot, Ross Anderson, and Yarin Gal. 2024. “AI Models Collapse When Trained on Recursively Generated Data.” Nature 631 (8022): 755–59.

LLMが生成したテキストを学習に利用→新しい学習データを生成→学習を繰り返した結果… Natureに掲載された論文

Paper

2024

December 13, 2024 4:33 PM (GMT+9)
絵画を知らないAIが絵画を生成できるか — Art-free Diffusion絵画を知らないAIが絵画を生成できるか — Art-free Diffusion
📄
絵画を知らないAIが絵画を生成できるか — Art-free Diffusion

Ren, Hui, Joanna Materzynska, Rohit Gandikota, David Bau, and Antonio Torralba. 2024. “Art-Free Generative Models: Art Creation Without Graphic Art Knowledge.” http://arxiv.org/abs/2412.00176.

アートを含まない学習データを学習したAIモデルをベースに、少数のアート作品の画像でLoRAを学習。きちんとそのアーティストの特徴を掴んだ画像が生成された。

Paper

2024

December 9, 2024 1:59 PM (GMT+9)
visualtheoryethicsimage
RAVE - VAEを用いたリアルタイムの音色変換アルゴリズム (2019)RAVE - VAEを用いたリアルタイムの音色変換アルゴリズム (2019)
📄
RAVE - VAEを用いたリアルタイムの音色変換アルゴリズム (2019)

Caillon, Antoine, and Philippe Esling. 2021. “RAVE: A Variational Autoencoder for Fast and High-Quality Neural Audio Synthesis.” arXiv [cs.LG]. arXiv. http://arxiv.org/abs/2111.05011.

Paper

2019

July 10, 2024 7:32 AM (GMT+9)
sound
ChatGPT is bullshit — ChatGPTはウ◯コ論者だ💩ChatGPT is bullshit — ChatGPTはウ◯コ論者だ💩
📄
ChatGPT is bullshit — ChatGPTはウ◯コ論者だ💩

Hicks, Michael Townsen, James Humphries, and Joe Slater. 2024. “ChatGPT Is Bullshit.” Ethics and Information Technology 26 (2). https://doi.org/10.1007/s10676-024-09775-5.

ChatGPTの本質を、哲学者のフランクファートが提唱した概念、「ブルシット=ウンコな議論」を通して捉え直す

Paper

2024

June 19, 2024 4:30 AM (GMT+9)
NLPLLMtheory
WavJourney - LLMで複数のモデルを組み合わせて、テキスト入力からオーディオコンテンツを生成WavJourney - LLMで複数のモデルを組み合わせて、テキスト入力からオーディオコンテンツを生成
📄
WavJourney - LLMで複数のモデルを組み合わせて、テキスト入力からオーディオコンテンツを生成

Liu, Xubo, Zhongkai Zhu, Haohe Liu, Yi Yuan, Meng Cui, Qiushi Huang, Jinhua Liang, et al. 2023. “WavJourney: Compositional Audio Creation with Large Language Models.” arXiv [cs.SD]. arXiv. http://arxiv.org/abs/2307.14335.

LLMと複数の音声合成モデルを駆使して、テキストプロンプトからスピーチ、音楽、SEなどを含む音のコンテンツ(ラジオドラマ、ポッドキャストのようなもの)を生成

Paper

2023

May 25, 2024
sound
音楽生成AIは本当に新しい音楽を生成しているか? 学習データをコピーしているだけではないか? - 定量的な調査音楽生成AIは本当に新しい音楽を生成しているか? 学習データをコピーしているだけではないか? - 定量的な調査
📄
音楽生成AIは本当に新しい音楽を生成しているか? 学習データをコピーしているだけではないか? - 定量的な調査

Bralios, Dimitrios, Gordon Wichern, François G. Germain, Zexu Pan, Sameer Khurana, Chiori Hori, and Jonathan Le Roux. 2024. “Generation or Replication: Auscultating Audio Latent Diffusion Models.” In ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 1156–60. IEEE.

音楽生成AIは学習データをコピーしているだけではないか? 学習データと生成されたデータを比較。

Paper

2024

May 13, 2024
musicsound
Active Divergenceのサーベイ — 学習データの忠実な再現からの適度な逸脱を目指してActive Divergenceのサーベイ — 学習データの忠実な再現からの適度な逸脱を目指して
📄
Active Divergenceのサーベイ — 学習データの忠実な再現からの適度な逸脱を目指して

Broad, Terence, Sebastian Berns, Simon Colton, and Mick Grierson. 2021. “Active Divergence with Generative Deep Learning -- A Survey and Taxonomy.” arXiv [cs.LG]. arXiv. http://arxiv.org/abs/2107.05599.

生成モデル(Generative Models)をはじめとするAIモデルの精度が上がる=学習データのパターンをより忠実に再現、再構成できるようになってきた一方で、創造性の観点から言うとそれって学習データものの焼き直しに過ぎないのでは? とう疑問も。 どう適度な逸脱を図るか… が本論文のテーマ。

Paper

2021

November 12, 2023
GANarttheory
ChatGPTをチューリング・テストにかけて分かったことChatGPTをチューリング・テストにかけて分かったこと
📄
ChatGPTをチューリング・テストにかけて分かったこと

Jones, Cameron, and Benjamin Bergen. 2023. “Does GPT-4 Pass the Turing Test?” arXiv [cs.AI]. arXiv. http://arxiv.org/abs/2310.20216.

まだチューリング・テストをクリアしているとは言えなそう… 今、テストを実施する意味とは?

Paper

2023

November 2, 2023
NLPessential
GLAZE: ぱっと見にはわからないノイズを画像に追加することで、拡散モデルを用いたスタイルの模倣を困難にする仕組みGLAZE: ぱっと見にはわからないノイズを画像に追加することで、拡散モデルを用いたスタイルの模倣を困難にする仕組み
📄
GLAZE: ぱっと見にはわからないノイズを画像に追加することで、拡散モデルを用いたスタイルの模倣を困難にする仕組み

Shan, Shawn, Jenna Cryan, Emily Wenger, Haitao Zheng, Rana Hanocka, and Ben Y. Zhao. 2023. “GLAZE: Protecting Artists from Style Mimicry by Text-to-Image Models.” arXiv [cs.CR]. arXiv. http://arxiv.org/abs/2302.04222.

アーティストのスタイルが勝手に模倣されることを防ぐ Adversarial Example

Paper

2023

February 17, 2023
ethicsimagesociety
AudioLDM: latent diffusionを用いてテキストからオーディオ(環境音、音楽等)を生成するモデルAudioLDM: latent diffusionを用いてテキストからオーディオ(環境音、音楽等)を生成するモデル
📄
AudioLDM: latent diffusionを用いてテキストからオーディオ(環境音、音楽等)を生成するモデル

CLAPを用いることでText-to-AudioのSOTAを達成。オープンソース化されていて、すぐに試せるオンラインデモもあり!

Liu, Haohe, Zehua Chen, Yi Yuan, Xinhao Mei, Xubo Liu, Danilo Mandic, Wenwu Wang, and Mark D. Plumbley. 2023. “AudioLDM: Text-to-Audio Generation with Latent Diffusion Models.” arXiv [cs.SD] . arXiv. http://arxiv.org/abs/2301.12503.

Paper

2023

February 10, 2023
musicsound
SingSong — ボーカルを入力に伴奏をまるっと音で生成するモデルSingSong — ボーカルを入力に伴奏をまるっと音で生成するモデル
📄
SingSong — ボーカルを入力に伴奏をまるっと音で生成するモデル

Donahue, Chris, Antoine Caillon, Adam Roberts, Ethan Manilow, Philippe Esling, Andrea Agostinelli, Mauro Verzetti, et al. 2023. “SingSong: Generating Musical Accompaniments from Singing.” arXiv [cs.SD] . arXiv. http://arxiv.org/abs/2301.12662.

音源分離技術を使ってボーカルとそれに付随する伴奏を抽出。その関係を学習。Ground Truth (元々の曲に入ってた伴奏)には流石に劣るがそれに匹敵するクオリティの曲を生成できるようになった。

Paper

2023

January 31, 2023
musicsound
Moûsai: Latent Diffusionモデルでの音楽生成Moûsai: Latent Diffusionモデルでの音楽生成
📄
Moûsai: Latent Diffusionモデルでの音楽生成

Schneider, Flavio, Zhijing Jin, and Bernhard Schölkopf. 2023. “Moûsai: Text-to-Music Generation with Long-Context Latent Diffusion.” arXiv [cs.CL] . arXiv. http://arxiv.org/abs/2301.11757.

Latent Diffusionのアーキテクチャを利用して、テキストから音楽を生成するモデル

Paper

2023

January 30, 2023
musicsound
MusicLM: テキストから音楽を生成するモデルMusicLM: テキストから音楽を生成するモデル
📄
MusicLM: テキストから音楽を生成するモデル

Agostinelli, Andrea, Timo I. Denk, Zalán Borsos, Jesse Engel, Mauro Verzetti, Antoine Caillon, Qingqing Huang, et al. 2023. “MusicLM: Generating Music From Text.” arXiv [cs.SD] . arXiv. http://arxiv.org/abs/2301.11325.

“a calming violin melody backed by a distorted guitar riff” といったテキストから音楽がサウンドファイルとして生成される. Stable Diffusionの音楽版

Paper

2023

January 27, 2023
musicsoundNLP
Datasets That Are Not — 新奇性の高い出力を求めたデータセットのAugmentation手法Datasets That Are Not — 新奇性の高い出力を求めたデータセットのAugmentation手法
📄
Datasets That Are Not — 新奇性の高い出力を求めたデータセットのAugmentation手法

Wu, Yusong, Kyle Kastner, Tim Cooijmans, Cheng-Zhi Anna Huang, and Aaron Courville. n.d. “Datasets That Are Not: Evolving Novelty Through Sparsity and Iterated Learning.”

データセットの模倣ではない、新奇性の高い出力を生成AIを用いて実現するために、生成した画像をデータセットに追加していくことを繰り返す

Paper

2022

January 17, 2023
theory
それっぽさと新奇性、それぞれを最大化するGANモデルを用いた音楽生成 — Musicality-Novelty GAN それっぽさと新奇性、それぞれを最大化するGANモデルを用いた音楽生成 — Musicality-Novelty GAN
📄
それっぽさと新奇性、それぞれを最大化するGANモデルを用いた音楽生成 — Musicality-Novelty GAN

Chen, Gong, Yan Liu, Sheng-Hua Zhong, and Xiang Zhang. 2018. “Musicality-Novelty Generative Adversarial Nets for Algorithmic Composition.” In Proceedings of the 26th ACM International Conference on Multimedia , 1607–15. MM ’18. New York, NY, USA: Association for Computing Machinery.

人真似ではない新しい音楽をAIで生成しようとする野心的な研究

Paper

2018

August 7, 2022
musictheory
深層学習を用いたウェーブ・シェーピング合成 - NEURAL WAVESHAPING SYNTHESIS深層学習を用いたウェーブ・シェーピング合成 - NEURAL WAVESHAPING SYNTHESIS
📄
深層学習を用いたウェーブ・シェーピング合成 - NEURAL WAVESHAPING SYNTHESIS

Hayes, B., Saitis, C., & Fazekas, G. (2021). Neural Waveshaping Synthesis.

CPUでもサクサク動くのがポイント!

Paper

2021

January 19, 2022
musicsound
もしAIが「へのへのもへじ」を作ったら? — CLIPと進化戦略を用いたコラージュ画像の生成もしAIが「へのへのもへじ」を作ったら? — CLIPと進化戦略を用いたコラージュ画像の生成
👨‍👩‍👦
もしAIが「へのへのもへじ」を作ったら? — CLIPと進化戦略を用いたコラージュ画像の生成

CLIP-guided collage image optimization using Evolutionary Strategy

画像とテキストがどれくらいマッチしているかを定量化するCLIPモデルを用いて、要素画像の配置を最適化。入力されたテキストにあったコラージュ画像を生成するシステム

Project

2021

December 11, 2021
visualcross-modal
Botto—コミュニティのフィードバックに基づいてNFTアートを自動生成するBot Botto—コミュニティのフィードバックに基づいてNFTアートを自動生成するBot
👨‍👩‍👦
Botto—コミュニティのフィードバックに基づいてNFTアートを自動生成するBot

Botto Project

CLIP+VQ-GANの仕組みを活用

Project

2021

November 19, 2021
artvisualGAN
X線スキャンとStyle Transferでキャンバスに隠された絵画を「復元」するプロジェクトX線スキャンとStyle Transferでキャンバスに隠された絵画を「復元」するプロジェクト
📄
X線スキャンとStyle Transferでキャンバスに隠された絵画を「復元」するプロジェクト

Bourached, A., & Cann, G. H. (2019). Raiders of the Lost Art. CrossTalk, 22(7–8), 35. https://doi.org/10.1525/9780520914957-028 

X線写真をコンテンツ画像に、同時代の同じ作家の絵をスタイル画像としてスタイルトランスファーをかける。美術史家などからその手法に対して強い批判も上がっている。

Paper

2019

November 11, 2021
artimageethics
Wav2CLIP: CLIPを使用したロバストなオーディオ表現学習手法Wav2CLIP: CLIPを使用したロバストなオーディオ表現学習手法
📄
Wav2CLIP: CLIPを使用したロバストなオーディオ表現学習手法

Wav2CLIP: Learning Robust Audio Representations From CLIP, Andrey Guzhov, Federico Raue, Jörn Hees, Andreas Dengel (2021)

CLIPからオーディオ表現を抽出する手法であるWav2CLIPを提案。オーディオ分類・検索タスクで良好な結果を残す

Paper

2021

October 31, 2021
soundcross-modalimage
CLIPと進化戦略ESを用いて、単純なかたちを組み合わせて描く抽象画. AIキュビズム ? CLIPと進化戦略ESを用いて、単純なかたちを組み合わせて描く抽象画. AIキュビズム ?
👨‍👩‍👦
CLIPと進化戦略ESを用いて、単純なかたちを組み合わせて描く抽象画. AIキュビズム ?

YINGTAO TIAN, DAVID HA. Modern Evolution Strategies for Creativity: Fitting Concrete Images and Abstract Concepts (2021)

テキストと画像がどのくらいマッチしているかを定量化するモデル OpenAI CLIPを評価関数に用いて、進化戦略ESによって生成した抽象画

Project

2021

October 1, 2021
imageart
FakeAVCeleb - ディープフェイク技術で作った顔と話し声のデータセットFakeAVCeleb - ディープフェイク技術で作った顔と話し声のデータセット
💾
FakeAVCeleb - ディープフェイク技術で作った顔と話し声のデータセット

FakeAVCeleb: A Novel Audio-Video Multimodal Deepfake Dataset, Hasam Khalid, Shahroz Tariq, Minha Kim, Simon S. Woo (2021)

顔をディープフェイク技術で動かし、リップシンクした音声を追加することで作ったDeepfake動画のデータセット。ディープフェイクへの対抗策の研究が目的。

Dataset

2021

September 8, 2021
ethicssociety
"AI" - GPT3を用いた実験的な演劇"AI" -  GPT3を用いた実験的な演劇
👨‍👩‍👦
"AI" - GPT3を用いた実験的な演劇

AI by Jennifer Tang

OpenAIの言語モデルGPT3を用いた即興劇。ロンドンの劇場での公演。 

Project

2021

September 3, 2021
performanceNLP
synth1B1 - 10億以上のシンセ音と、そのパラメータがペアになったデータセットsynth1B1 - 10億以上のシンセ音と、そのパラメータがペアになったデータセット
💾
synth1B1 - 10億以上のシンセ音と、そのパラメータがペアになったデータセット

Turian, J., Shier, J., Tzanetakis, G., McNally, K., & Henry, M. (2021). One Billion Audio Sounds from GPU-enabled Modular Synthesis.

なんと総時間は約126年分!! データセットを生成するためにpytorch上に実装された、GPUに最適化されたモジュラーシンセ torchsynthも合わせて公開。

Dataset

2021

July 23, 2021
soundmusic
画像と文章をつなげるモデル OpenAI CLIPを用いた「CLIPアート」画像と文章をつなげるモデル OpenAI CLIPを用いた「CLIPアート」
👨‍👩‍👦
画像と文章をつなげるモデル OpenAI CLIPを用いた「CLIPアート」

OpenAI CLIP + Image Generation Models = CLIP art

画像とテキストの関連性の高さを判定するモデルCLIPを用いて、生成される画像を最適化 → テキストの入力にあった画像が生成

Project

2021

July 17, 2021
artimagecross-modal
The Flemish Scrollers - 議会中にサボっている議員を監視するボットThe Flemish Scrollers - 議会中にサボっている議員を監視するボット
👨‍👩‍👦
The Flemish Scrollers - 議会中にサボっている議員を監視するボット

The Flemish Scrollers, Dries Depoorter (2021)

顔認識とオブジェクト認識を組み合わせて、議会中に電話をいじっている議員を摘発

Project

2021

July 13, 2021
ethicsart
Neural Loop Combiner — リズム、メロディー、ベースライン... どのループを組み合わせる? Neural Loop Combiner — リズム、メロディー、ベースライン... どのループを組み合わせる?
📄
Neural Loop Combiner — リズム、メロディー、ベースライン... どのループを組み合わせる?

Chen, B.-Y., Smith, J. B. L. and Yang, Y.-H. (2020) ‘Neural Loop Combiner: Neural Network Models for Assessing the Compatibility of Loops’.

現代の音楽制作過程で重要なループの組み合わせ。たくさんあるループ間の相性を判定して、適切なループの組み合わせをレコメンドする仕組み。

Paper

2020

June 30, 2021
music
Algorithms of Late-Capitalism — 行き過ぎた資本主義社会におけるAI/アルゴリズムの利用に光を当てるZine/Webサイト Algorithms of Late-Capitalism — 行き過ぎた資本主義社会におけるAI/アルゴリズムの利用に光を当てるZine/Webサイト
👨‍👩‍👦
Algorithms of Late-Capitalism — 行き過ぎた資本主義社会におけるAI/アルゴリズムの利用に光を当てるZine/Webサイト

Algorithms of Late-Capitalism (2020-)

AIや機械学習が社会で用いられる場合、時にそれが市民を搾取するかたちで使われることがある。そうしたAIの利用の実例を取り上げてカタログ化するDigital Activism。

Project

2020

June 30, 2021
ethicssociety
Paint with Music - DDSPを用いて絵筆のストロークを音楽に Paint with Music - DDSPを用いて絵筆のストロークを音楽に
👨‍👩‍👦
Paint with Music - DDSPを用いて絵筆のストロークを音楽に

Paint with Music - Google Magenta

Google Magentaチームの最新のプロジェクト。2020年に発表した DDSP: Differentiable Digital Signal Processing を使って、絵筆のストロークを楽器音に変えている。筆で描くように音を奏でることができる。

Project

2021

June 22, 2021
musicsound
結局AI音楽ツールって使えるの? AI音楽ツールに対する意識調査- A survey on the uptake of Music AI Software結局AI音楽ツールって使えるの? AI音楽ツールに対する意識調査- A survey on the uptake of Music AI Software
📄
結局AI音楽ツールって使えるの? AI音楽ツールに対する意識調査- A survey on the uptake of Music AI Software

Knotts, S., & Collins, N. (2020). A survey on the uptake of Music AI Software. Proceedings of the International Conference on New Interfaces for Musical Expression, 594–600.

AI音楽ツールに対する意識調査を117名に対してオンラインで行った。結論からいうと... AIツールはほとんど使われていない。AIツールに対してポジティブな人も、現状ではなく未来の可能性にひかれている。

Paper

2020

June 19, 2021
music
演奏者が自身の姿と音を学習したAIと向き合うオーディオビジュアルパフォーマンス: Alexander Schubert - Convergence 演奏者が自身の姿と音を学習したAIと向き合うオーディオビジュアルパフォーマンス: Alexander Schubert - Convergence
👨‍👩‍👦
演奏者が自身の姿と音を学習したAIと向き合うオーディオビジュアルパフォーマンス: Alexander Schubert - Convergence

Alexander Schubert - Convergence (2020)

GANやAutoEncoderが使われている。2021年のアルスエレクトロニカ Digital Musics & Sound Art 部門のゴールデンニカ(最優秀賞)。

Project

2020

June 18, 2021
musicperformancesoundGAN
Datagen - AIの学習データをAIで生成、提供するスタートアップDatagen - AIの学習データをAIで生成、提供するスタートアップ
⚒️
Datagen - AIの学習データをAIで生成、提供するスタートアップ

-

バイアスやプライバシーへの配慮から、人を対象にしたデータセットを集めることが難しくなっている。そこでGANなどを使って、適切なデータセットを人工的に作り出す仕組みを提供するスタートアップが登場した。

Dataset

2021

June 12, 2021
ethicssociety
Energy and Policy Considerations for Deep Learning in NLPEnergy and Policy Considerations for Deep Learning in NLP
📄
Energy and Policy Considerations for Deep Learning in NLP

Emma Strubell, Ananya Ganesh, Andrew McCallum (2019)

GPT-2などの言語モデルについて、その精度ではなく、学習時に消費している電力及び、二酸化炭素の放出量についてまとめた。この研究の試算では、例えばTransformer の学習に、一般的な自動車のライフサイクルの約5台分、アメリカ人約17人の一年分に相当するカーボンフットプリントがあることがわかった。

Paper

2019

June 10, 2021
ethicsNLP
VAEベースのリズム生成モデル - Creating Latent Spaces for Modern Music Genre Rhythms Using Minimal Training DataVAEベースのリズム生成モデル - Creating Latent Spaces for Modern Music Genre Rhythms Using Minimal Training Data
📄
VAEベースのリズム生成モデル - Creating Latent Spaces for Modern Music Genre Rhythms Using Minimal Training Data

Vigliensoni, G., Mccallum, L., & Fiebrink, R. (2020). Creating Latent Spaces for Modern Music Genre Rhythms Using Minimal Training Data. Proc. ICCC 2020.

少量の学習データでも効率的に学習できるように、最近のダンスミュージックの特徴を生かしたアーキテクチャを採用

Paper

2020

June 7, 2021
music
LoopNet—ドラムループのサウンド合成LoopNet—ドラムループのサウンド合成
📄
LoopNet—ドラムループのサウンド合成

Chandna, P., Ramires, A., Serra, X., & Gómez, E. (2021). LoopNet: Musical Loop Synthesis Conditioned On Intuitive Musical Parameters.

音源分離のモデルで提案されたWave-U-Netのアーキテクチャを用いて、ドラムループをまるごと生成する仕組み

Paper

2021

June 5, 2021
music
パーカッション音の合成 - NEURAL PERCUSSIVE SYNTHESIS パーカッション音の合成 - NEURAL PERCUSSIVE SYNTHESIS
📄
パーカッション音の合成 - NEURAL PERCUSSIVE SYNTHESIS

Ramires, A., Chandna, P., Favory, X., Gómez, E., & Serra, X. (2019). Neural Percussive Synthesis Parameterised by High-Level Timbral Features. ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings, 2020-May, 786–790. Retrieved from http://arxiv.org/abs/1911.11853

Paper

2019

June 4, 2021
sound
WebFace260M - インターネット上で集められた2億6千万枚の顔写真のデータセットWebFace260M - インターネット上で集められた2億6千万枚の顔写真のデータセット
💾
WebFace260M - インターネット上で集められた2億6千万枚の顔写真のデータセット

Zhu, Z., Huang, G., Deng, J., Ye, Y., Huang, J., Chen, X., … Zhou, J. (2021). WebFace260M: A Benchmark Unveiling the Power of Million-Scale Deep Face Recognition

400万人の人の2億6000万枚の顔写真のデータセットと、ゴミデータを取り除いた200万人/4200万枚の顔写真のデータセットの二種類を提供

Dataset

2021

June 3, 2021
ethics
監視カメラの画像と画像認識で世界の国々の幸福度を計測? - Measuring Happiness Around the World through AI監視カメラの画像と画像認識で世界の国々の幸福度を計測? - Measuring Happiness Around the World through AI
📄
監視カメラの画像と画像認識で世界の国々の幸福度を計測? - Measuring Happiness Around the World through AI

Ozakar, R., Gazanfer, R. E., & Sinan Hanay, Y. (2020, November 25). Measuring happiness around the World through artificial intelligence

世界8都市の街中で撮られた動画から顔を抜き出してCNNを用いた感情推定モデルで解析。都市ごとの有意な差は見当たらないという結果に。

Paper

2020

June 3, 2021
society
Paper
📄
Paper
Paper
June 2, 2021
ドラムパターンとメロディの生成 - Artificial Neural Networks Jamming on the Beatドラムパターンとメロディの生成 - Artificial Neural Networks Jamming on the Beat
📄
ドラムパターンとメロディの生成 - Artificial Neural Networks Jamming on the Beat

Tikhonov, A., & Yamshchikov, I. (2021, July 13). Artificial Neural Networks Jamming on the Beat. 37–44. https://doi.org/10.5220/0010461200370044

リズムパターンのデータセットもあわせて公開。

Paper

2021

June 1, 2021
music
A Bassline Generation System Based on Sequence-to-Sequence LearningA Bassline Generation System Based on Sequence-to-Sequence Learning
📄
A Bassline Generation System Based on Sequence-to-Sequence Learning

Behzad Haki, & Jorda, S. (2019). A Bassline Generation System Based on Sequence-to-Sequence Learning. Proceedings of the International Conference on New Interfaces for Musical Expression, 204–209.

2019年のNIMEで発表された論文。最新の言語モデル(seq-to-seq model)の知見を利用してドラムトラックの音声ファイルからそれにあったベースラインを生成してくれる。

Paper

2019

June 1, 2021
music
NSynth: Neural Audio Synthesis—WaveNetを用いたAutoencoderで楽器音を合成NSynth: Neural Audio Synthesis—WaveNetを用いたAutoencoderで楽器音を合成
📄
NSynth: Neural Audio Synthesis—WaveNetを用いたAutoencoderで楽器音を合成

Engel, J. et al. (2017) ‘Neural Audio Synthesis of Musical Notes with WaveNet Autoencoders’. Available

WaveNetの仕組みを使ったAutoencoderで、楽器の音の時間方向の変化も含めて、潜在空間にマッピング → 潜在ベクトルから楽器の音を合成する。この研究で使った多数の楽器の音を集めたデータセット NSynth を合わせて公開。

Paper

2017

May 28, 2021
musicsound
essentia オーディオ/音楽解析ライブラリessentia オーディオ/音楽解析ライブラリ
⚒️
essentia オーディオ/音楽解析ライブラリ

Dmitry Bogdanov, et al. 2013. ESSENTIA: an open-source library for sound and music analysis. In Proceedings of the 21st ACM international conference on Multimedia (MM '13). Association for Computing Machinery, New York, NY, USA, 855–858. DOI:https://doi.org/10.1145/2502081.2502229

https://github.com/MTG/essentia

Tool

https://github.com/MTG/essentia

May 26, 2021
soundmusic
1万以上のドラム、パーカッション音のデータセット — Freesound One-Shot Percussive Sounds1万以上のドラム、パーカッション音のデータセット — Freesound One-Shot Percussive Sounds
💾
1万以上のドラム、パーカッション音のデータセット — Freesound One-Shot Percussive Sounds

António Ramires, Pritish Chandna, Xavier Favory, Emilia Gómez, & Xavier Serra. (2020). Freesound One-Shot Percussive Sounds (Version 1.0) [Data set]. Zenodo. http://doi.org/10.5281/zenodo.3665275

ドラム、パーカションのワンショットを集めたデータセット

Dataset

2020

May 25, 2021
soundmusic
MuseMorphose: Transformerを用いたVAEによる音楽のスタイル変換MuseMorphose: Transformerを用いたVAEによる音楽のスタイル変換
📄
MuseMorphose: Transformerを用いたVAEによる音楽のスタイル変換

Wu, S.-L. and Yang, Y.-H. (2021) ‘MuseMorphose: Full-Song and Fine-Grained Music Style Transfer with Just One Transformer VAE’

長期の時間依存性を学習できるTransformerの利点とコントロール性が高いVAEの利点。この二つを組み合わせたEncoder-Decoderアーキテクチャで、MIDIで表現された音楽のスタイル変換(Style Transfer)を実現。

Paper

2021

May 21, 2021
music
Visual indeterminacy in GAN artVisual indeterminacy in GAN art
📄
Visual indeterminacy in GAN art

Hertzmann, A. (2020) ‘Visual indeterminacy in GAN art’, Leonardo. MIT Press Journals, 53(4), pp. 424–428.

GANが生成する画像の「●●ぽいけど、なんか違う...」という「不確定性」に着目し、現代アートの特徴との比較を行った上で、今後のGANアートの将来像を探る。

Paper

2020

May 19, 2021
arttheoryGANvisual
GANを使った環境音の生成→環境音の識別モデルの性能向上GANを使った環境音の生成→環境音の識別モデルの性能向上
📄
GANを使った環境音の生成→環境音の識別モデルの性能向上

Madhu, A. and K, S. (2021) ‘EnvGAN: Adversarial Synthesis of Environmental Sounds for Data Augmentation’.

環境音の識別モデルの学習のためのData Augmentation手法の提案

Paper

2021

May 18, 2021
soundGAN
Generating Long Sequences with Sparse TransformersGenerating Long Sequences with Sparse Transformers
📄
Generating Long Sequences with Sparse Transformers

Child, R. et al. (2019) ‘Generating Long Sequences with Sparse Transformers’, arXiv. arXiv. Available at: http://arxiv.org/abs/1904.10509 (Accessed: 29 January 2021).

スパースなTransformerの仕組みで計算量を抑える

Paper

2019

May 16, 2021
musicvisual
Neural Text Generation with Unlikelihood TrainingNeural Text Generation with Unlikelihood Training
📄
Neural Text Generation with Unlikelihood Training

Welleck, S., Kulikov, I., Roller, S., Dinan, E., Cho, K., & Weston, J. (2019). Neural Text Generation with Unlikelihood Training.

Likelihoodを最適化しようとすると頻出する単語が必要以上に頻出する結果に

Paper

2019

May 14, 2021
NLP
The Role of AI Attribution Knowledge in the Evaluation of ArtworkThe Role of AI Attribution Knowledge in the Evaluation of Artwork
📄
The Role of AI Attribution Knowledge in the Evaluation of Artwork

Gangadharbatla, H. (2021) ‘The Role of AI Attribution Knowledge in the Evaluation of Artwork’, pp. 1–19. doi: 10.1177/0276237421994697.

クラウドソーシングの仕組みを活用して、AIが描いた絵を区別できるか、またAIが描いたという情報が、絵自体の評価にどのくらい影響するのかを調査。

Paper

2021

May 11, 2021
theoryart
Exposing.AIExposing.AI
👨‍👩‍👦
Exposing.AI

Harvey, Adam. LaPlace, Jules, Exposing.AI

Flickrなどに顔写真をアップロードした場合、特にCreative Commonsのライセンスなどを設定した場合、知らない間に顔認識モデルの学習データとして使われている可能性がある。このサイトは自分の写真が、学習データとして使われていないかチェックできるサイト。

Project

2021

May 5, 2021
ethics
Infinite Bad GuyInfinite Bad Guy
👨‍👩‍👦
Infinite Bad Guy

Infinite Bad Guy (IYOIYO, Kyle McDonald)

YouTube上で史上最も多くカバーされた楽曲ビリー・アイリッシュのBad Guy。YouTube上にあがっている曲を解析、分類し、リズムに合わせてスムーズに繋いでいく。無限に続くBad Guyジュークボックス。

Project

2020

May 1, 2021
music
Talking Drums: Generating drum grooves with neural networks. Talking Drums: Generating drum grooves with neural networks.
📄
Talking Drums: Generating drum grooves with neural networks.

Hutchings, P. (2017). Talking Drums: Generating drum grooves with neural networks.

ドラムのキックの位置を入力すると、リズムパターン全体を生成するモデル。言語モデルのseq-to-seqモデルの考え方を利用。

Paper

2017

April 30, 2021
music
Portrait AI Portrait AI
👨‍👩‍👦
Portrait AI

https://portraitai.app/

Project

2021

April 30, 2021
UAV-Human: A Large Benchmark for Human Behavior Understanding with Unmanned Aerial VehiclesUAV-Human: A Large Benchmark for Human Behavior Understanding with Unmanned Aerial Vehicles
💾
UAV-Human: A Large Benchmark for Human Behavior Understanding with Unmanned Aerial Vehicles

UAV-Human: A Large Benchmark for Human Behavior Understanding with Unmanned Aerial Vehicles

ドローンから撮影した人の行動の動画のデータセット。ドローンを使った監視に直結する恐れ??

Dataset

2021

April 22, 2021
ethics
random_faces - ランダムに存在しない人の顔を生成するPythonライブラリrandom_faces - ランダムに存在しない人の顔を生成するPythonライブラリ
⚒️
random_faces - ランダムに存在しない人の顔を生成するPythonライブラリ

random_faces

ライブラリをインストールしてたった二行で、存在しない人の顔画像が生成できるPythonライブラリ

Tool

2021

April 22, 2021
GANimageethics
AAI - AIを用いたMouse on MarsのアルバムAAI - AIを用いたMouse on Marsのアルバム
👨‍👩‍👦
AAI - AIを用いたMouse on Marsのアルバム

"AAI" by Mouse on Mars

ベテラン電子音楽家、あのMouse on Marsが、AIを用いたアルバムを公開!! テキストを入力した声を合成するシステムを構築。生成した声を用いて楽曲を構成した。

Project

2021

April 22, 2021
music
ArtEmis: Affective Language for Visual ArtArtEmis: Affective Language for Visual Art
💽
ArtEmis: Affective Language for Visual Art

ArtEmis: Affective Language for Visual Art

8万枚の絵画にクラウドソーシングで44万の言語情報を付加。

Dataset

2021

April 22, 2021
visualart
Translating Paintings Into Music Using Neural NetworksTranslating Paintings Into Music Using Neural Networks
📄
Translating Paintings Into Music Using Neural Networks

Verma, P., Basica, C. and Kivelson, P. D. (2020) ‘Translating Paintings Into Music Using Neural Networks’.

音楽とアルバムカバーの関係を学習したモデルをベースに、絵画と音楽を相互に変換するパフォーマンス

Paper

2020

April 19, 2021
cross-modalmusicart
REAL-TIME TIMBRE TRANSFER AND SOUND SYNTHESIS USING DDSPREAL-TIME TIMBRE TRANSFER AND SOUND SYNTHESIS USING DDSP
📄
REAL-TIME TIMBRE TRANSFER AND SOUND SYNTHESIS USING DDSP

Francesco Ganis, Erik Frej Knudesn, Søren V. K. Lyster, Robin Otterbein, David Südholt, Cumhur Erkut (2021)

Google MagentaのDDSPをリアルタイムに動かせるプラグイン

Paper

2021

April 14, 2021
musicsound
Attention is All You NeedAttention is All You Need
📄
Attention is All You Need

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 2017-Decem, 5999–6009.

現在、GPT-3から音楽生成、画像の生成まで、多様な領域で中心的な仕組みとなっているTransformerを導入した論文。時系列データの学習に一般的に用いられてきたRNNなどの複雑なネットワークを排して、比較的シンプルなAttentionだけで学習できることを示した。

Paper

2017

April 1, 2021
NLPessential
Neural Granular Sound SynthesisNeural Granular Sound Synthesis
📄
Neural Granular Sound Synthesis

Hertzmann, A. (2020) ‘Visual indeterminacy in GAN art’, Leonardo. MIT Press Journals, 53(4), pp. 424–428. doi: 10.1162/LEON_a_01930.

グラニュラーシンセシスのGrain(音の粒)をVAEを使って生成しようという試み。Grainの空間の中での軌跡についても合わせて学習。

Paper

2020

March 30, 2021
musicsound
CinemaNetCinemaNet
⚒️
CinemaNet

CinemaNet by Anton Marini(vade), Rahul Somani

普通の画像認識モデルのようなオブジェクトの識別に加えて、カメラのアングルやフォーカスの当て方(ソフトフォーカス...)、撮影された時間帯(夕方、朝焼け)、場所などをタグ付け

Tool
March 3, 2021
visual
WaveNetを使ったAutoencoderで音楽のドメイン間の変換を可能に! – A Universal Music Translation NetworkWaveNetを使ったAutoencoderで音楽のドメイン間の変換を可能に! – A Universal Music Translation Network
📄
WaveNetを使ったAutoencoderで音楽のドメイン間の変換を可能に! – A Universal Music Translation Network

Mor, Noam, et al. "A universal music translation network." arXiv preprint arXiv:1805.07848 (2018).

Paper

2018

August 13, 2020
music
踊るAI – Dancing to Music踊るAI – Dancing to Music
踊るAI – Dancing to Music

Lee, Hsin-Ying, et al. "Dancing to music." arXiv preprint arXiv:1911.02001 (2019)

Paper

2019

June 24, 2020
musicart
AIを用いたAudio Visual – Stylizing Audio Reactive VisualsAIを用いたAudio Visual – Stylizing Audio Reactive Visuals
AIを用いたAudio Visual – Stylizing Audio Reactive Visuals

Han-Hung Lee, Da-Gin Wu, and Hwann-Tzong Chen, "Stylizing Audio Reactive Visuals", NeurlPS2019, (2019)

Paper

2019

June 24, 2020
visualGAN
ピアノを即興演奏できるインターフェース – Piano Genieピアノを即興演奏できるインターフェース – Piano Genie
ピアノを即興演奏できるインターフェース – Piano Genie

Piano Genie

Paper

2018

May 24, 2020
music
歌詞からメロディを生成 – Conditional LSTM-GAN for Melody Generation from Lyrics歌詞からメロディを生成 – Conditional LSTM-GAN for Melody Generation from Lyrics
歌詞からメロディを生成 – Conditional LSTM-GAN for Melody Generation from Lyrics

Yu, Yi, Abhishek Srivastava, and Simon Canales. "Conditional lstm-gan for melody generation from lyrics." ACM Transactions on Multimedia Computing, Communications, and Applications (TOMM) 17.1 (2021): 1-20.

Paper
February 12, 2020
musicGANNLP
ファッションデザイナーを助けるツール – Human and GAN collaboration to create haute couture dressファッションデザイナーを助けるツール – Human and GAN collaboration to create haute couture dress
ファッションデザイナーを助けるツール – Human and GAN collaboration to create haute couture dress

Tatsuki Koga, at el., "Human and GAN collaboration to create haute couture dress", 33rd Conference on Neural Information Processing Systems, (2019)

Paper

2019

February 12, 2020
GANart
SpaceSheets スプレッドシート型UIでの潜在空間探索 – SpaceSheets: Interactive Latent Space Exploration through a Spreadsheet InterfaceSpaceSheets スプレッドシート型UIでの潜在空間探索 – SpaceSheets: Interactive Latent Space Exploration through a Spreadsheet Interface
SpaceSheets スプレッドシート型UIでの潜在空間探索 – SpaceSheets: Interactive Latent Space Exploration through a Spreadsheet Interface

Loh, Bryan, and Tom White. "Spacesheets: Interactive latent space exploration through a spreadsheet interface." (2018).

Paper

2018

February 5, 2020
GAN
記号創発問題 ─記号創発ロボティクスによる記号接地問題の本質的解決に向けて─記号創発問題 ─記号創発ロボティクスによる記号接地問題の本質的解決に向けて─
記号創発問題 ─記号創発ロボティクスによる記号接地問題の本質的解決に向けて─

谷口忠大, "記号創発問題: 記号創発ロボティクスによる記号接地問題の本質的解決に向けて (< 特集> 認知科学と記号創発ロボティクス: 実世界情報に基づく知覚的シンボルシステムの構成論的理解に向けて)", 人工知能 Vol.31.1, pp74-81, (2016).

Paper

2016

February 5, 2020
theory
様々なメディアのフレームを補間する – Depth-Aware Video Frame Interpolation様々なメディアのフレームを補間する – Depth-Aware Video Frame Interpolation
📄
様々なメディアのフレームを補間する – Depth-Aware Video Frame Interpolation

様々なメディアのフレームを補間する – Depth-Aware Video Frame Interpolation

Paper

2020

February 4, 2020
imagevisual
ある楽器の音色が別の楽器に!? – TimbreTron: A WaveNet(CycleGAN(CQT(Audio))) Pipeline for Musical Timbre Transferある楽器の音色が別の楽器に!? – TimbreTron: A WaveNet(CycleGAN(CQT(Audio))) Pipeline for Musical Timbre Transfer
ある楽器の音色が別の楽器に!? – TimbreTron: A WaveNet(CycleGAN(CQT(Audio))) Pipeline for Musical Timbre Transfer

Huang, Sicong, et al. "Timbretron: A wavenet (cyclegan (cqt (audio))) pipeline for musical timbre transfer." arXiv preprint arXiv:1811.09620 (2018).

Paper

2018

February 4, 2020
GANmusic
音源からそれぞれの楽器を分離するツール – SPLEETER音源からそれぞれの楽器を分離するツール – SPLEETER
📄
音源からそれぞれの楽器を分離するツール – SPLEETER

SPLEETER: A FAST AND STATE-OF-THE ART MUSIC SOURCE SEPARATION TOOL WITH PRE-TRAINED MODELS

CDなどのミックスされた音源からボーカル、ピアノ、ベース、ドラムのようにそれぞれの楽器(トラック)の音を抽出できるツール

Paper

2019

February 3, 2020
musicdj
モノラル音源を映像とdeep learningを用いて立体音源にモノラル音源を映像とdeep learningを用いて立体音源に
📄
モノラル音源を映像とdeep learningを用いて立体音源に

2.5D Visual Sound

Paper

2019

January 30, 2020
画像認識モデルが苦手とする画像のデータセット – Natural Adversarial Examples画像認識モデルが苦手とする画像のデータセット – Natural Adversarial Examples
💾
画像認識モデルが苦手とする画像のデータセット – Natural Adversarial Examples

Dan Hendrycks, Kevin Zhao, Steven Basart, Jacob Stein- hardt, and Dawn Song. Natural adversarial examples. arXiv preprint arXiv:1907.07174, 2019.

Dataset

2019

July 29, 2019
image
自律的人工アーティストプロジェクト Artist in the Cloud: Towards an Autonomous Artist
📄
自律的人工アーティストプロジェクト Artist in the Cloud: Towards an Autonomous Artist

Artist in the Cloud: Towards an Autonomous Artist

自律型人工アーティストの制作を試みるオープンプレジェクト

Paper

2019

July 17, 2019
GANart
音と映像の関係性の学習 – Audio-Visual Scene Analysis with Self-Supervised Multisensory Features音と映像の関係性の学習 – Audio-Visual Scene Analysis with Self-Supervised Multisensory Features
📄
音と映像の関係性の学習 – Audio-Visual Scene Analysis with Self-Supervised Multisensory Features

Audio-Visual Scene Analysis with Self-Supervised Multisensory Features

Paper

2018

May 20, 2018
soundvisual
進化と創造性 – The Surprising Creativity of Digital Evolution: A Collection of Anecdotes from the Evolutionary Computation and Artificial Life Research Communities進化と創造性 – The Surprising Creativity of Digital Evolution: A Collection of Anecdotes from the Evolutionary Computation and Artificial Life Research Communities
📄
進化と創造性 – The Surprising Creativity of Digital Evolution: A Collection of Anecdotes from the Evolutionary Computation and Artificial Life Research Communities

Lehman, Joel, et al. "The surprising creativity of digital evolution: A collection of anecdotes from the evolutionary computation and artificial life research communities." Artificial life 26.2 (2020): 274-306.

Paper

2020

March 22, 2018
GANによる音の生成 – Synthesizing Audio with Generative Adversarial NetworksGANによる音の生成 – Synthesizing Audio with Generative Adversarial Networks
📄
GANによる音の生成 – Synthesizing Audio with Generative Adversarial Networks

Synthesizing Audio with Generative Adversarial Networks

Paper

2018

February 16, 2018
GANsound
ボットのみを見分ける?CAPTCHA – Humans Not Invited.ボットのみを見分ける?CAPTCHA – Humans Not Invited.
👨‍👩‍👦
ボットのみを見分ける?CAPTCHA – Humans Not Invited.

This CAPTCHA Makes Sure You're A Robot. Yes, You Read That Right

Web Site
February 8, 2018
performance
動画からそれにあった音を生成 – Visual to Sound: Generating Natural Sound for Videos in the Wild動画からそれにあった音を生成 – Visual to Sound: Generating Natural Sound for Videos in the Wild
📄
動画からそれにあった音を生成 – Visual to Sound: Generating Natural Sound for Videos in the Wild

Visual to Sound: Generating Natural Sound for Videos in the Wild

Paper

2018

January 3, 2018
soundvisual
ロボットを交えての即興コメディHumanMachine – Artificial Intelligence Improvisationロボットを交えての即興コメディHumanMachine – Artificial Intelligence Improvisation
👨‍👩‍👦
ロボットを交えての即興コメディHumanMachine – Artificial Intelligence Improvisation

Improvised Comedy as a Turing Test

RNNベースのseq2seq会話エンジンを持ったロボットを交えた即興の漫才. 二人のコメディアン兼研究者とロボットのショー

Project

2017

December 8, 2017
art
画像から、好みのメッシュの3Dモデルを作成する -Neural 3D Mesh Renderer-画像から、好みのメッシュの3Dモデルを作成する -Neural 3D Mesh Renderer-
📄
画像から、好みのメッシュの3Dモデルを作成する -Neural 3D Mesh Renderer-

Neural 3D Mesh Renderer

Paper

2017

November 25, 2017
visualimage
Deep Learningを用いた音楽生成手法のまとめ – Deep Learning Techniques for Music Generation – A SurveyDeep Learningを用いた音楽生成手法のまとめ – Deep Learning Techniques for Music Generation – A Survey
👨‍👩‍👦
Deep Learningを用いた音楽生成手法のまとめ – Deep Learning Techniques for Music Generation – A Survey

Deep Learning Techniques for Music Generation – A Survey

Web Site

2017

November 22, 2017
artmusic
AIとの共作で行う「過去との対話」ー Maison book girl 「cotoeri」AIとの共作で行う「過去との対話」ー Maison book girl 「cotoeri」
👨‍👩‍👦
AIとの共作で行う「過去との対話」ー Maison book girl 「cotoeri」

Maison book girl 「cotoeri」

Project

2017

November 13, 2017
musicperformance
まるでアルチンボルド? GANを用いて野菜で顔を描く – The Electronic Curatorまるでアルチンボルド? GANを用いて野菜で顔を描く – The Electronic Curator
👨‍👩‍👦
まるでアルチンボルド? GANを用いて野菜で顔を描く – The Electronic Curator

The Electronic Curator

Web Site

2017

November 13, 2017
artGAN
AIとともに紡ぐホラーストーリー – Sherry, AI-Powered Horror StoriesAIとともに紡ぐホラーストーリー – Sherry, AI-Powered Horror Stories
👨‍👩‍👦
AIとともに紡ぐホラーストーリー – Sherry, AI-Powered Horror Stories

Sherry, AI-Powered Horror Stories

Project

2017

November 10, 2017
art
アフリカの野生動物の観測にDeep Learningを利用 – Automatically identifying wild animals in camera-trap images with deep learningアフリカの野生動物の観測にDeep Learningを利用 – Automatically identifying wild animals in camera-trap images with deep learning
📄
アフリカの野生動物の観測にDeep Learningを利用 – Automatically identifying wild animals in camera-trap images with deep learning

Automatically identifying wild animals in camera-trap images with deep learning

アフリカの野生動物の観測にDeep Learningを利用 – Automatically identifying wild animals in camera-trap images with deep learning

Paper

2017

October 25, 2017
cross-modal
人の行動の動画データセット – AVA: A Video Dataset of Spatio-temporally Localized Atomic Visual Actions人の行動の動画データセット – AVA: A Video Dataset of Spatio-temporally Localized Atomic Visual Actions
💾
人の行動の動画データセット – AVA: A Video Dataset of Spatio-temporally Localized Atomic Visual Actions

AVA: A Video Dataset of Spatio-temporally Localized Atomic Visual Actions

Dataset

2017

October 23, 2017
visualimage
機械とともに描くポートレート – Delusions機械とともに描くポートレート – Delusions
👨‍👩‍👦
機械とともに描くポートレート – Delusions

Delusions

demo

2017

October 20, 2017
performancevisualimage
”意識の流れを読む”「意識の辞書」 – A Dictionary of Consciousness”意識の流れを読む”「意識の辞書」 – A Dictionary of Consciousness
👨‍👩‍👦
”意識の流れを読む”「意識の辞書」 – A Dictionary of Consciousness

A Dictionary of Consciousness

Project

2017

October 2, 2017
essential
顔写真から3Dモデルを生成 – Large Pose 3D Face Reconstruction from a Single Image via Direct Volumetric CNN Regression顔写真から3Dモデルを生成 – Large Pose 3D Face Reconstruction from a Single Image via Direct Volumetric CNN Regression
👨‍👩‍👦
顔写真から3Dモデルを生成 – Large Pose 3D Face Reconstruction from a Single Image via Direct Volumetric CNN Regression

Large Pose 3D Face Reconstruction from a Single Image via Direct Volumetric CNN Regression

demo

2017

September 29, 2017
artvisualimage
Deep Learningを活用した都市の”形態学” – Urban morphology meets deep learning: Exploring urban forms in one million cities, town and villages across the planetDeep Learningを活用した都市の”形態学” – Urban morphology meets deep learning: Exploring urban forms in one million cities, town and villages across the planet
📄
Deep Learningを活用した都市の”形態学” – Urban morphology meets deep learning: Exploring urban forms in one million cities, town and villages across the planet

Deep Learningを活用した都市の”形態学”

Deep Learningを活用した都市の”形態学”

Paper

2017

September 25, 2017
society
創造性をどう評価するか – A Machine Learning Approach for Evaluating Creative Artifacts創造性をどう評価するか – A Machine Learning Approach for Evaluating Creative Artifacts
📄
創造性をどう評価するか – A Machine Learning Approach for Evaluating Creative Artifacts

A Machine Learning Approach for Evaluating Creative Artifacts

「人間の創造性をどのように評価、定量化するか」という大きな問題に取り組んでいる

Paper

2017

September 16, 2017
art
音楽の特徴に基づいたダンスの動きのリアルタイム生成 – GrooveNet: Real-Time Music-Driven Dance Movement Generation using Artificial Neural Networks音楽の特徴に基づいたダンスの動きのリアルタイム生成 – GrooveNet: Real-Time Music-Driven Dance Movement Generation using Artificial Neural Networks
📄
音楽の特徴に基づいたダンスの動きのリアルタイム生成 – GrooveNet: Real-Time Music-Driven Dance Movement Generation using Artificial Neural Networks

GrooveNet: Real-Time Music-Driven Dance Movement Generation using Artificial Neural Networks

音楽の特徴に基づいたダンスの動きのリアルタイム生成

Paper

2017

August 23, 2017
musiccross-modal
グラフィックデザインにおける各要素の重要性を可視化 – Learning Visual Importance for Graphic Designs and Data Visualizationsグラフィックデザインにおける各要素の重要性を可視化 – Learning Visual Importance for Graphic Designs and Data Visualizations
📄
グラフィックデザインにおける各要素の重要性を可視化 – Learning Visual Importance for Graphic Designs and Data Visualizations

グラフィックデザインにおける各要素の重要性を可視化 – Learning Visual Importance for Graphic Designs and Data Visualizations

グラフィックデザインにおける各要素の重要性を可視化

Paper

2017

August 8, 2017
image
衛星写真から住民の所得を推定 – Penny, an AI to predict wealth from space衛星写真から住民の所得を推定 – Penny, an AI to predict wealth from space
👨‍👩‍👦
衛星写真から住民の所得を推定 – Penny, an AI to predict wealth from space

衛星写真から住民の所得を推定 – Penny, an AI to predict wealth from space

衛星写真から住民の所得を推定

Project

2017

August 6, 2017
衛星写真から住民の所得を推定 – Penny, an AI to predict wealth from space衛星写真から住民の所得を推定 – Penny, an AI to predict wealth from space
⚒️
衛星写真から住民の所得を推定 – Penny, an AI to predict wealth from space

Penny, an AI to predict wealth from space

demo

2017

August 6, 2017
imagesociety
料理の写真 ↔︎ 材料とレシピ – Learning Cross-modal Embeddings for Cooking Recipes and Food Images料理の写真 ↔︎ 材料とレシピ – Learning Cross-modal Embeddings for Cooking Recipes and Food Images
👨‍👩‍👦
料理の写真 ↔︎ 材料とレシピ – Learning Cross-modal Embeddings for Cooking Recipes and Food Images

Learning Cross-modal Embeddings for Cooking Recipes and Food Images

料理の写真 ↔︎ 材料とレシピ

Project

2017

July 25, 2017
imageNLPcross-modal
動植物の画像データセット – The iNaturalist Challenge 2017 Dataset動植物の画像データセット – The iNaturalist Challenge 2017 Dataset
💾
動植物の画像データセット – The iNaturalist Challenge 2017 Dataset

The iNaturalist Challenge 2017 Dataset

Dataset

2017

July 23, 2017
visual
GANで音楽生成 – MidiNet: A Convolutional Generative Adversarial Network for Symbolic-domain Music Generation using 1D and 2D ConditionsGANで音楽生成 – MidiNet: A Convolutional Generative Adversarial Network for Symbolic-domain Music Generation using 1D and 2D Conditions
📄
GANで音楽生成 – MidiNet: A Convolutional Generative Adversarial Network for Symbolic-domain Music Generation using 1D and 2D Conditions

Yang, Li-Chia, Szu-Yu Chou, and Yi-Hsuan Yang. "Midinet: A convolutional generative adversarial network for symbolic-domain music generation." arXiv preprint arXiv:1703.10847 (2017).

GANで音楽生成

Paper

2017

July 9, 2017
music
機械学習による、「演奏」の学習 – Performance RNN: Generating Music with Expressive Timing and Dynamics –機械学習による、「演奏」の学習
 – Performance RNN: Generating Music with Expressive Timing and Dynamics –
👨‍👩‍👦
機械学習による、「演奏」の学習 – Performance RNN: Generating Music with Expressive Timing and Dynamics –

Performance RNN: Generating Music with Expressive Timing and Dynamics

demo

2017

July 1, 2017
musicsoundperformance
過去の作品を学習することで本当に新しい作品が作れるのか?? – CAN: Creative Adversarial Networks Generating “Art” by Learning About Styles and Deviating from Style Norms過去の作品を学習することで本当に新しい作品が作れるのか?? – CAN: Creative Adversarial Networks Generating “Art” by Learning About Styles and Deviating from Style Norms
📄
過去の作品を学習することで本当に新しい作品が作れるのか?? – CAN: Creative Adversarial Networks Generating “Art” by Learning About Styles and Deviating from Style Norms

CAN: Creative Adversarial Networks Generating “Art” by Learning About Styles and Deviating from Style Norms

Paper

2017

June 29, 2017
GANartvisual
人工知能の力を借り、3Dモデルを共作する – Interactive 3D Modeling with a Generative Adversarial Network –人工知能の力を借り、3Dモデルを共作する – Interactive 3D Modeling with a Generative Adversarial Network –
📄
人工知能の力を借り、3Dモデルを共作する – Interactive 3D Modeling with a Generative Adversarial Network –

Interactive 3D Modeling with a Generative Adversarial Network

demo

2017

June 25, 2017
visualGAN
ウィットに富んだキャプション生成 – Punny Captions: WittyWordplay in Image Descriptionsウィットに富んだキャプション生成 – Punny Captions: WittyWordplay in Image Descriptions
📄
ウィットに富んだキャプション生成 – Punny Captions: WittyWordplay in Image Descriptions

Chandrasekaran, Arjun, Devi Parikh, and Mohit Bansal. "Punny captions: Witty wordplay in image descriptions." arXiv preprint arXiv:1704.08224 (2017).

Paper

2017

June 19, 2017
image
進化の仕組みを応用した音楽ツール – Musical Novelty Search – Evolutionary Algorithms + Ableton Live進化の仕組みを応用した音楽ツール – Musical Novelty Search – Evolutionary Algorithms + Ableton Live
⚒️
進化の仕組みを応用した音楽ツール – Musical Novelty Search – Evolutionary Algorithms + Ableton Live

Musical Novelty Search – Evolutionary Algorithms + Ableton Live

Tool

2017

June 9, 2017
musicperformance
服を着ている人の画像を生成 – A Generative Model of People in Clothing服を着ている人の画像を生成 – A Generative Model of People in Clothing
📄
服を着ている人の画像を生成 – A Generative Model of People in Clothing
Paper

2017

May 31, 2017
image
画像⇆音の生成 – Deep Cross-Modal Audio-Visual GenerationDeep Cross-Modal Audio-Visual Generation画像⇆音の生成 – Deep Cross-Modal Audio-Visual GenerationDeep Cross-Modal Audio-Visual Generation
📄
画像⇆音の生成 – Deep Cross-Modal Audio-Visual GenerationDeep Cross-Modal Audio-Visual Generation

Deep Cross-Modal Audio-Visual Generation

Paper

2017

May 14, 2017
visualsound
連想の学習 – See, Hear, and Read: Deep Aligned Representations連想の学習 – See, Hear, and Read: Deep Aligned Representations
📄
連想の学習 – See, Hear, and Read: Deep Aligned Representations

See, Hear, and Read: Deep Aligned Representations

Paper

2017

May 7, 2017
cross-modal
車載カメラ画像データセット – Mapillary Vistas Dataset車載カメラ画像データセット – Mapillary Vistas Dataset
💾
車載カメラ画像データセット – Mapillary Vistas Dataset

Mapillary Vistas Dataset

Dataset

2017

May 4, 2017
visual
適切なフォントの組み合わせを生成 – Fontjoy適切なフォントの組み合わせを生成 – Fontjoy
📄
適切なフォントの組み合わせを生成 – Fontjoy

適切なフォントの組み合わせを生成 – Fontjoy

適切なフォントの組み合わせを生成 – Fontjoy

demo

2017

April 30, 2017
visual
未来を予測して動画を生成 – Generating Videos with Scene Dynamics –未来を予測して動画を生成 – Generating Videos with Scene Dynamics –
👨‍👩‍👦
未来を予測して動画を生成 – Generating Videos with Scene Dynamics –

Generating Videos with Scene Dynamics

Project

2017

April 30, 2017
visualimage
声質をコピーする音声合成システム – Lyrebird声質をコピーする音声合成システム – Lyrebird
⚒️
声質をコピーする音声合成システム – Lyrebird

Lyrebird

Tool

2017

April 27, 2017
musicsound
一枚の写真からその後の人の動きを予測 – Forecasting Human Dynamics from Static Images一枚の写真からその後の人の動きを予測 – Forecasting Human Dynamics from Static Images
📄
一枚の写真からその後の人の動きを予測 – Forecasting Human Dynamics from Static Images

Forecasting Human Dynamics from Static Images

Paper

2017

April 25, 2017
visualimageperformance
いろいろなGANまとめいろいろなGANまとめ
💾
いろいろなGANまとめ

いろいろなGANまとめ

Dataset

2017

April 24, 2017
AIを言葉でナビして学習 – Beating Atari with Natural Language Guided Reinforcement LearningAIを言葉でナビして学習 – Beating Atari with Natural Language Guided Reinforcement Learning
👨‍👩‍👦
AIを言葉でナビして学習 – Beating Atari with Natural Language Guided Reinforcement Learning

AIを言葉でナビして学習 – Beating Atari with Natural Language Guided Reinforcement Learning

AIを言葉でナビして学習 – Beating Atari with Natural Language Guided Reinforcement Learning

Paper

2017

April 23, 2017
NLP
横顔から正面から見た顔を生成 – Beyond Face Rotation: Global and Local Perception GAN for Photorealistic and Identity Preserving Frontal View Synthesis横顔から正面から見た顔を生成 – Beyond Face Rotation: Global and Local Perception GAN for Photorealistic and Identity Preserving Frontal View Synthesis
📄
横顔から正面から見た顔を生成 – Beyond Face Rotation: Global and Local Perception GAN for Photorealistic and Identity Preserving Frontal View Synthesis

Beyond Face Rotation: Global and Local Perception GAN for Photorealistic and Identity Preserving Frontal View Synthesis

Paper

2017

April 18, 2017
GANvisual
絵を「描く」プロセスの模倣 – A Neural Representation of Sketch Drawings絵を「描く」プロセスの模倣 – A Neural Representation of Sketch Drawings
📄
絵を「描く」プロセスの模倣 – A Neural Representation of Sketch Drawings

絵を「描く」プロセスの模倣 – A Neural Representation of Sketch Drawings

絵を「描く」プロセスの模倣 – A Neural Representation of Sketch Drawings

Paper

2017

April 15, 2017
image
目線をあやつる – Gaze Warping目線をあやつる – Gaze Warping
📄
目線をあやつる – Gaze Warping

目線をあやつる – Gaze Warping

目線をあやつる – Gaze Warping

Web Site

2017

April 7, 2017
image
機械学習を用いたドラムマシン – The Infinite Drum Machine : Thousands of everyday sounds, organized using machine learning.機械学習を用いたドラムマシン – The Infinite Drum Machine : Thousands of everyday sounds, organized using machine learning.
👨‍👩‍👦
機械学習を用いたドラムマシン – The Infinite Drum Machine : Thousands of everyday sounds, organized using machine learning.

The Infinite Drum Machine : Thousands of everyday sounds, organized using machine learning

Project

2017

April 7, 2017
musicvisualsound
見えない体を見る. 一人称視点の映像からカメラをつけている人の姿勢を推定. – Seeing Invisible Poses: Estimating 3D Body Pose from Egocentric Video見えない体を見る. 一人称視点の映像からカメラをつけている人の姿勢を推定. – Seeing Invisible Poses: Estimating 3D Body Pose from Egocentric Video
📄
見えない体を見る. 一人称視点の映像からカメラをつけている人の姿勢を推定. – Seeing Invisible Poses: Estimating 3D Body Pose from Egocentric Video

Seeing Invisible Poses: Estimating 3D Body Pose from Egocentric Video

Paper

2017

April 6, 2017
visualimage
Attributesによる画像の美しさ判定 – Photo Aesthetics Ranking Network with Attributes and Content AdaptationAttributesによる画像の美しさ判定 – Photo Aesthetics Ranking Network with Attributes and Content Adaptation
📄
Attributesによる画像の美しさ判定 – Photo Aesthetics Ranking Network with Attributes and Content Adaptation

Photo Aesthetics Ranking Network with Attributes and Content Adaptation

Paper

2017

April 4, 2017
visualimage
ピクセルではなくベクターで画像を生成ピクセルではなくベクターで画像を生成
📄
ピクセルではなくベクターで画像を生成

ピクセルではなく、ベクターで画像を生成する。

ピクセルではなく、ベクターで画像を生成する。

Web Site

2016

April 4, 2017
image
転移学習(Transfer Learning)概論転移学習(Transfer Learning)概論
👨‍👩‍👦
転移学習(Transfer Learning)概論

Transfer Learning - Machine Learning's Next Frontier

Transfer Learning - Machine Learning's Next Frontier

Web Site

2017

April 4, 2017
theory
一枚の写真からヘアスタイル全体が分かる技術 – AutoHair: Fully Automatic Hair Modeling from A Single Image一枚の写真からヘアスタイル全体が分かる技術 – AutoHair: Fully Automatic Hair Modeling from A Single Image
📄
一枚の写真からヘアスタイル全体が分かる技術 – AutoHair: Fully Automatic Hair Modeling from A Single Image

AutoHair: Fully Automatic Hair Modeling from A Single Image

Paper

2017

April 2, 2017
image
CycleGAN 対訳がなくても画像を翻訳(変換) – Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial NetworksCycleGAN 対訳がなくても画像を翻訳(変換) – Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks
📄
CycleGAN 対訳がなくても画像を翻訳(変換) – Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks

Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks

Project

2017

April 1, 2017
visualimage
ストリートビューの画像の解析による人口統計調査 – Using Deep Learning and Google Street View to Estimate the Demographic Makeup of the USストリートビューの画像の解析による人口統計調査 – Using Deep Learning and Google Street View to Estimate the Demographic Makeup of the US
📄
ストリートビューの画像の解析による人口統計調査 – Using Deep Learning and Google Street View to Estimate the Demographic Makeup of the US

Using Deep Learning and Google Street View to Estimate the Demographic Makeup of the US

Paper

2017

March 31, 2017
visualimage
GANによるカラーパレットの生成 – ColormindGANによるカラーパレットの生成 – Colormind
👨‍👩‍👦
GANによるカラーパレットの生成 – Colormind

Colormind

Web Site

2017

March 30, 2017
artimageGAN
AIで表現するとは?壮大なデジタルの歴史から紐解く、その可能性についてAIで表現するとは?壮大なデジタルの歴史から紐解く、その可能性について
👨‍👩‍👦
AIで表現するとは?壮大なデジタルの歴史から紐解く、その可能性について

AIで表現するとは?壮大なデジタルの歴史から紐解く、その可能性について

Journal

2017

March 29, 2017
GANart
ファッション・トレンドの解析. 東京は… – Changing Fashion Culturesファッション・トレンドの解析. 東京は… – Changing Fashion Cultures
📄
ファッション・トレンドの解析. 東京は… – Changing Fashion Cultures

Changing Fashion Cultures

Paper

2017

March 29, 2017
visualart
ファッション・トレンドの解析. 東京は… – Changing Fashion Culturesファッション・トレンドの解析. 東京は… – Changing Fashion Cultures
📄
ファッション・トレンドの解析. 東京は… – Changing Fashion Cultures

Abe, Kaori, et al., "Changing fashion cultures." arXiv preprint arXiv:1703.07920, (2017)

ファッションの地理的および時系列的なトレンドをスナップ写真から解析するプロジェクト.

Paper

2017

March 29, 2017
image
CNNとLSTMでダンスダンスレボリューションのステップ譜を生成 – Dance Dance ConvolutionCNNとLSTMでダンスダンスレボリューションのステップ譜を生成 – Dance Dance Convolution
📄
CNNとLSTMでダンスダンスレボリューションのステップ譜を生成 – Dance Dance Convolution

DONAHUE, Chris; LIPTON, Zachary C.; MCAULEY, Julian, "Dance dance convolution. In: International conference on machine learning", PMLR, pp. 1039-1048, (2017)

CNNとLSTMでダンスダンスレボリューションのステップ譜

Paper

2017

March 27, 2017
music
人気があるから綺麗とは限らない!? – An Image is Worth More than a Thousand Favorites: Surfacing the Hidden Beauty of Flickr Pictures人気があるから綺麗とは限らない!? – An Image is Worth More than a Thousand Favorites: Surfacing the Hidden Beauty of Flickr Pictures
📄
人気があるから綺麗とは限らない!? – An Image is Worth More than a Thousand Favorites: Surfacing the Hidden Beauty of Flickr Pictures

Schifanella, Rossano, Miriam Redi, and Luca Maria Aiello, "An image is worth more than a thousand favorites: Surfacing the hidden beauty of flickr pictures.", Ninth International AAAI Conference on Web and Social Media, (2015)

Paper

2015

March 27, 2017
image
200万ものサウンド・クリップのデータセット – AudioSet200万ものサウンド・クリップのデータセット – AudioSet
💾
200万ものサウンド・クリップのデータセット – AudioSet

AudioSet

Dataset

2017

March 26, 2017
soundmusic
ジョークを集めたデータセット – Collection of over 200,000 short jokes for humour researchジョークを集めたデータセット – Collection of over 200,000 short jokes for humour research
💾
ジョークを集めたデータセット – Collection of over 200,000 short jokes for humour research

Collection of over 200,000 short jokes for humour research

Dataset

2017

March 26, 2017
society
fMRIの脳の反応を機械学習に利用 ?!? – Using human brain activity to guide machine learningfMRIの脳の反応を機械学習に利用 ?!? – Using human brain activity to guide machine learning
📄
fMRIの脳の反応を機械学習に利用 ?!? – Using human brain activity to guide machine learning

Using human brain activity to guide machine learning

Paper

2017

March 25, 2017
essential
写真のStyle Transfer- Deep Photo Style Transfer写真のStyle Transfer- Deep Photo Style Transfer
📄
写真のStyle Transfer- Deep Photo Style Transfer

Deep Photo Style Transfer

Paper

2017

March 25, 2017
visualimage
論文からポスターを自動生成 – Learning to Generate Posters of Scientific Papers論文からポスターを自動生成 – Learning to Generate Posters of Scientific Papers
📄
論文からポスターを自動生成 – Learning to Generate Posters of Scientific Papers

Learning to Generate Posters of Scientific Papers

Paper

2017

March 25, 2017
image
輪郭/物体抽出の新スタンダードになるか? – Mask R-CNN輪郭/物体抽出の新スタンダードになるか? – Mask R-CNN
📄
輪郭/物体抽出の新スタンダードになるか? – Mask R-CNN

HE, Kaiming, et al., "Mask r-cnn", Proceedings of the IEEE international conference on computer vision, pp. 2961-2969, (2017)

Faster-RCNNの拡張. ひとつのモデルで最小限の変更で物体検出、輪郭検出、人の姿勢の検出を高い精度で行う.

Paper

2017

March 23, 2017
image
目が回ります – DeepWarp: Photorealistic Image Resynthesis for Gaze Manipulation目が回ります – DeepWarp: Photorealistic Image Resynthesis for Gaze Manipulation
👨‍👩‍👦
目が回ります – DeepWarp: Photorealistic Image Resynthesis for Gaze Manipulation

DeepWarp: Photorealistic Image Resynthesis for Gaze Manipulation

demo

2017

March 19, 2017
visual
DeepDreamを用いたのドローイングツール- DreamCanvasDeepDreamを用いたのドローイングツール- DreamCanvas
📄
DeepDreamを用いたのドローイングツール- DreamCanvas

DeepDreamを用いたのドローイングツール- DreamCanvas

DeepDreamを用いたのドローイングツール- DreamCanvas

demo

2017

March 15, 2017
visual
GANを応用したSANによるSaliency Map(顕著性マップ)の生成 – Supervised Adversarial Networks for Image Saliency Detection –GANを応用したSANによるSaliency Map(顕著性マップ)の生成 – Supervised Adversarial Networks for Image Saliency Detection –
📄
GANを応用したSANによるSaliency Map(顕著性マップ)の生成 – Supervised Adversarial Networks for Image Saliency Detection –

GANを応用したSANによるSaliency Map(顕著性マップ)の生成 – Supervised Adversarial Networks for Image Saliency Detection –

GANを応用したSANによるSaliency Map(顕著性マップ)の生成

Paper

2017

March 15, 2017
GAN
機械学習を用いたドローイングツール – AutoDraw機械学習を用いたドローイングツール – AutoDraw
📄
機械学習を用いたドローイングツール – AutoDraw

機械学習を用いたドローイングツール – AutoDraw

機械学習を用いたドローイングツール – AutoDraw

Paper

2017

March 15, 2017
GANimage
ちょっとしたノイズを加えると…あら不思議 – Adversarial examples in the physical worldちょっとしたノイズを加えると…あら不思議 – Adversarial examples in the physical world
📄
ちょっとしたノイズを加えると…あら不思議 – Adversarial examples in the physical world

Domenech, Arnau Pons, and Hartmut Ruhl. "An implicit ODE-based numerical solver for the simulation of the Heisenberg-Euler equations in 3+ 1 dimensions." arXiv preprint arXiv:1607.00253 (2016).

Paper

2016

March 15, 2017
image
Web MIDIでMagentaとセッション – Magenta SessionWeb MIDIでMagentaとセッション – Magenta Session
👨‍👩‍👦
Web MIDIでMagentaとセッション – Magenta Session

magenta session

demo

2017

March 15, 2017
music
CRNNで鳥の声の識別 – Convolutional Recurrent Neural Networks for Bird Audio DetectionCRNNで鳥の声の識別 – Convolutional Recurrent Neural Networks for Bird Audio Detection
📄
CRNNで鳥の声の識別 – Convolutional Recurrent Neural Networks for Bird Audio Detection

Convolutional Recurrent Neural Networks for Bird Audio Detection

Paper

2017

March 13, 2017
sound
顔写真から肥満度を推定 – Face-to-BMI: Using Computer Vision to Infer Body Mass Index on Social Media顔写真から肥満度を推定 – Face-to-BMI: Using Computer Vision to Infer Body Mass Index on Social Media
📄
顔写真から肥満度を推定 – Face-to-BMI: Using Computer Vision to Infer Body Mass Index on Social Media

Face-to-BMI: Using Computer Vision to Infer Body Mass Index on Social Media

Paper

2017

March 12, 2017
RobotArt – the Robot Art competitionRobotArt – the Robot Art competition
📄
RobotArt – the Robot Art competition

RobotArt – the Robot Art competition

the Robot Art competition

Web Site

2017

March 11, 2017
image
ファッション写真のデータセット – Large-scale Fashion (DeepFashion) Databaseファッション写真のデータセット – Large-scale Fashion (DeepFashion) Database
💾
ファッション写真のデータセット – Large-scale Fashion (DeepFashion) Database

ファッション写真のデータセット – Large-scale Fashion (DeepFashion) Database

Dataset

2016

March 10, 2017
image
日々のニュース写真から似通った作品を検索(テートギャラリー) – Recognition Tate日々のニュース写真から似通った作品を検索(テートギャラリー) – Recognition Tate
👨‍👩‍👦
日々のニュース写真から似通った作品を検索(テートギャラリー) – Recognition Tate

日々のニュース写真から似通った作品を検索

日々のニュース写真から似通った作品を検索

Project

2017

March 8, 2017
society
ビデオのフレーム補間 – Video Frame Synthesis using Deep Voxel Flビデオのフレーム補間 – Video Frame Synthesis using Deep Voxel Fl
📄
ビデオのフレーム補間 – Video Frame Synthesis using Deep Voxel Fl

LIU, Ziwei, et al., "Video frame synthesis using deep voxel flow", Proceedings of the IEEE International Conference on Computer Vision, pp. 4463-4471, (2017)

Paper

2017

February 11, 2017
image
音源分離 – Deep Clustering and Conventional Networks for Music Separation: Stronger Together音源分離 – Deep Clustering and Conventional Networks for Music Separation: Stronger Together
📄
音源分離 – Deep Clustering and Conventional Networks for Music Separation: Stronger Together

Deep Clustering and Conventional Networks for Music Separation: Stronger Together

Paper

2016

February 10, 2017
music
フォントのStyle Transfer? – Awesome Typography: Statistics-Based Text Effects TransferフォントのStyle Transfer? – Awesome Typography: Statistics-Based Text Effects Transfer
📄
フォントのStyle Transfer? – Awesome Typography: Statistics-Based Text Effects Transfer

YANG, Shuai, et al. "Awesome typography: Statistics-based text effects transfer", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp.7464-7473, (2017)

Paper

2017

February 5, 2017
visualimage
パラレルコーパスデータ集 : OPUS – the open parallel corpusパラレルコーパスデータ集 : OPUS – the open parallel corpus
💾
パラレルコーパスデータ集 : OPUS – the open parallel corpus

OPUS – the open parallel corpus

Dataset

2017

January 30, 2017
list
food2vec – Augmented cooking with machine intelligencefood2vec – Augmented cooking with machine intelligence
👨‍👩‍👦
food2vec – Augmented cooking with machine intelligence

food2vec – Augmented cooking with machine intelligence

demo

2017

January 27, 2017
essential
food2vec – Augmented cooking with machine intelligencefood2vec – Augmented cooking with machine intelligence
👨‍👩‍👦
food2vec – Augmented cooking with machine intelligence

food2vec – Augmented cooking with machine intelligence

demo

2016

January 27, 2017
NLP
Learning to Draw: Generating Icons and HieroglyphsLearning to Draw: Generating Icons and Hieroglyphs
👨‍👩‍👦
Learning to Draw: Generating Icons and Hieroglyphs

Learning to Draw: Generating Icons and Hieroglyphs

demo

2017

January 25, 2017
artimage
How many animals can one find in a random image?How many animals can one find in a random image?
👨‍👩‍👦
How many animals can one find in a random image?

How many animals can one find in a random image?

Project

2017

January 23, 2017
artimage
AENet: Learning Deep Audio Features for Video AnalysisAENet: Learning Deep Audio Features for Video Analysis
📄
AENet: Learning Deep Audio Features for Video Analysis

AENet: Learning Deep Audio Features for Video Analysis

Paper

2017

January 20, 2017
visualmusic
T-SNE MAP – Google Arts and Culture ExperimentsT-SNE MAP – Google Arts and Culture Experiments
👨‍👩‍👦
T-SNE MAP – Google Arts and Culture Experiments

T-SNE MAP – Google Arts and Culture Experiments

Project

2016

January 13, 2017
performancevisual
Learning to Protect Communications with Adversarial Neural CryptographyLearning to Protect Communications with Adversarial Neural Cryptography
📄
Learning to Protect Communications with Adversarial Neural Cryptography

Abadi, Martín, and David G. Andersen. "Learning to protect communications with adversarial neural cryptography." arXiv preprint arXiv:1610.06918 (2016)

Paper

2016

January 8, 2017
GAN
ドキュメンタリー – The Automation of Creativity: How man & AI will work together to improve the ad industryドキュメンタリー – The Automation of Creativity: How man & AI will work together to improve the ad industry
👨‍👩‍👦
ドキュメンタリー – The Automation of Creativity: How man & AI will work together to improve the ad industry

The Automation of Creativity: How man & AI will work together to improve the ad industry

Journal

2017

January 2, 2017
society
ドキュメンタリー – The Automation of Creativity: How man & AI will work together to improve the ad industryドキュメンタリー – The Automation of Creativity: How man & AI will work together to improve the ad industry
ドキュメンタリー – The Automation of Creativity: How man & AI will work together to improve the ad industry

ドキュメンタリー – The Automation of Creativity: How man & AI will work together to improve the ad industry

demo

2016

January 2, 2017
performance
Pix2Pixを使った風景画像の生成 – Imaginary landscapes using pix2pixPix2Pixを使った風景画像の生成 – Imaginary landscapes using pix2pix
👨‍👩‍👦
Pix2Pixを使った風景画像の生成 – Imaginary landscapes using pix2pix

Imaginary landscapes using pix2pix

Project

2016

January 2, 2017
クリエイティブ ・チューリングテスト- Turing Tests in the Creative Artsクリエイティブ ・チューリングテスト- Turing Tests in the Creative Arts
👨‍👩‍👦
クリエイティブ ・チューリングテスト- Turing Tests in the Creative Arts
Project

2016

December 23, 2016
art
The Lakh MIDI Dataset v0.1The Lakh MIDI Dataset v0.1
👨‍👩‍👦
The Lakh MIDI Dataset v0.1

The Lakh MIDI Dataset v0.1

Dataset

2016

December 22, 2016
musicsound
DeepBach: a Steerable Model for Bach chorales generation by Gaëtan Hadjeres, François PachetDeepBach: a Steerable Model for Bach chorales generation by Gaëtan Hadjeres, François Pachet
📄
DeepBach: a Steerable Model for Bach chorales generation by Gaëtan Hadjeres, François Pachet

Hadjeres, Gaëtan, François Pachet, and Frank Nielsen, "Deepbach: a steerable model for bach chorales generation.", International Conference on Machine Learning. PMLR, (2017)

Paper

2017

December 19, 2016
music
Unsupervised Learning of 3D Structure from ImagesUnsupervised Learning of 3D Structure from Images
📄
Unsupervised Learning of 3D Structure from Images

Unsupervised Learning of 3D Structure from Images

Paper

2016

December 6, 2016
visualimage
SoundNet: Learning Sound Representations from Unlabeled VideoSoundNet: Learning Sound Representations from Unlabeled Video
📄
SoundNet: Learning Sound Representations from Unlabeled Video

Aytar, Yusuf, Carl Vondrick, and Antonio Torralba, "Soundnet: Learning sound representations from unlabeled video.", Advances in neural information processing systems 29, pp892-900 (2016)

Paper

2016

December 5, 2016
musicsound
MIDIの演奏に強弱をつけてより自然に! – Neural Translation of Musical StyleMIDIの演奏に強弱をつけてより自然に! – Neural Translation of Musical Style
📄
MIDIの演奏に強弱をつけてより自然に! – Neural Translation of Musical Style

Malik, Iman, and Carl Henrik Ek. "Neural translation of musical style." arXiv preprint arXiv:1708.03535 (2017).

Paper

2017

June 6, 2015
musictheory
変化し続ける架空の人物ポートレート – Portraits of Imaginary People変化し続ける架空の人物ポートレート – Portraits of Imaginary People
👨‍👩‍👦
変化し続ける架空の人物ポートレート – Portraits of Imaginary People

Portraits of Imaginary People

Project
Self-Supervised VQ-VAE for One-Shot Music Style Transfer
📄
Self-Supervised VQ-VAE for One-Shot Music Style Transfer
Paper

2021

musicsound
Music transformer: Generating music with long-term structure
📄
Music transformer: Generating music with long-term structure
Paper

2018

music

Read more

Footer

Name
Rows
1

About

2

Facebook

3

Twitter

4

Qosmo

5

Keio SFC Computational Creativity Lab

‣
Linked pages

💾
References: AI

💾

Gallery

3 views

💾

Gallery

💾

List

💾

Table

AIの10年で芸術はどう変わった?アーティストたちの本音 — Artists on a Decade of AI Evolution: An Interview Study of Affordances, Culture, and Artistic Practice with Machine LearningAIの10年で芸術はどう変わった?アーティストたちの本音 — Artists on a Decade of AI Evolution: An Interview Study of Affordances, Culture, and Artistic Practice with Machine Learning
📄
AIの10年で芸術はどう変わった?アーティストたちの本音 — Artists on a Decade of AI Evolution: An Interview Study of Affordances, Culture, and Artistic Practice with Machine Learning
March 25, 2026 12:50 PM (GMT+9)

. . "Artists on a Decade of AI Evolution: An Interview Study of Affordances, Culture, and Artistic Practice with Machine Learning."

artethicsdesignhuman-aivisualNLPsocietycross-modal

@June 18, 2024 9:30 PM (GMT+2)

Paper
AIが学んだ曲は誰のもの?音楽生成モデルのデータ帰属 — Large-Scale Training Data Attribution for Music Generative Models via UnlearningAIが学んだ曲は誰のもの?音楽生成モデルのデータ帰属 — Large-Scale Training Data Attribution for Music Generative Models via Unlearning
📄
AIが学んだ曲は誰のもの?音楽生成モデルのデータ帰属 — Large-Scale Training Data Attribution for Music Generative Models via Unlearning

音楽生成AIが学習データのどの曲から影響を受けたのかを特定する新しい手法を開発

March 23, 2026 5:30 PM (GMT+9)

Choi, Woosung, Junghyun Koo, Kin Wai Cheuk, Joan Serrà, Marco A. Martínez-Ramírez, Yukara Ikemiya, Naoki Murata, Yuhta Takida, Wei-Hsiang Liao, and Yuki Mitsufuji. 2025. "Large-Scale Training Data Attribution for Music Generative Models via Unlearning." arXiv preprint arXiv:2506.18312.

musicethicsLLMsocietyessential

@June 18, 2024 9:30 PM (GMT+2)

Paper
LLMは本当に理解しているのか?物理概念で検証 — The Stochastic Parrot on LLM's Shoulder: A Summative Assessment of Physical Concept UnderstandingLLMは本当に理解しているのか?物理概念で検証 — The Stochastic Parrot on LLM's Shoulder: A Summative Assessment of Physical Concept Understanding
📄
LLMは本当に理解しているのか?物理概念で検証 — The Stochastic Parrot on LLM's Shoulder: A Summative Assessment of Physical Concept Understanding

Mo Yu, Lemao Liu, Junjie Wu, Tsz Ting Chung, Shunchi Zhang, Jiangnan Li, Dit-Yan Yeung, Jie Zhou

March 23, 2026 5:04 PM (GMT+9)

The Stochastic Parrot on LLM's Shoulder: A Summative Assessment of Physical Concept Understanding

LLMNLPtheoryethicsessential

@June 18, 2024 9:30 PM (GMT+2)

Paper
AIが私たちの書き方を変えている — How LLMs Distort Our Written Language
📄
AIが私たちの書き方を変えている — How LLMs Distort Our Written Language

Marwa Abdulhai, Isadora White, Yanming Wan, Ibrahim Qureshi, Joel Leibo, Max Kleiman-Weiner, Natasha Jaques

March 23, 2026 4:45 PM (GMT+9)

Abdulhai, Marwa, Isadora White, Yanming Wan, Ibrahim Qureshi, Joel Leibo, Max Kleiman-Weiner, and Natasha Jaques. 2026. "How LLMs Distort Our Written Language." arXiv preprint arXiv:2603.18161.

LLMethicsNLPsocietydesignhuman-ai

@June 18, 2024 9:30 PM (GMT+2)

Paper
人間とAIの創造性、ランダムなアイデアは本当に役立つ? — Serendipity by Design: Evaluating the Impact of Cross-domain Mappings on Human and LLM Creativity
📄
人間とAIの創造性、ランダムなアイデアは本当に役立つ? — Serendipity by Design: Evaluating the Impact of Cross-domain Mappings on Human and LLM Creativity

Qiawen Ella Liu, Marina Dubova, Henry Conklin, Takumi Harada, Thomas L. Griffiths

March 23, 2026 4:41 PM (GMT+9)

Serendipity by Design: Evaluating the Impact of Cross-domain Mappings on Human and LLM Creativity

LLMdesignhuman-aitheory

@June 18, 2024 9:30 PM (GMT+2)

Paper
AIの「エラー」がひらめきを生む:不完全性をデザイン発想の味方にAIの「エラー」がひらめきを生む:不完全性をデザイン発想の味方に
📄
AIの「エラー」がひらめきを生む:不完全性をデザイン発想の味方に

画像認識モデルで誤ってラベル付けされた画像を提示することで、デザイナーに新しいインスピレーションを与えられることを検証

June 5, 2025 6:03 AM (GMT+9)

Liu, Fang, Junyan Lv, Shenglan Cui, Zhilong Luan, Kui Wu, and Tongqing Zhou. 2024. “Smart ‘Error’! Exploring Imperfect AI to Support Creative Ideation.” Proceedings of the ACM on Human-Computer Interaction 8 (CSCW1): 1–28.

theorydesign

@June 18, 2024 9:30 PM (GMT+2)

Paper
生成AIと創造性:アイデアの固着と拡散的思考への影響に関する実験的研究生成AIと創造性:アイデアの固着と拡散的思考への影響に関する実験的研究
📄
生成AIと創造性:アイデアの固着と拡散的思考への影響に関する実験的研究

生成AIをデザインの過程で使うと、AIのアウトプットに無意識に引っ張られてしまい、アイデアの多様性が奪われてしまう可能性がある

June 4, 2025 6:08 AM (GMT+9)

Wadinambiarachchi, Samangi, Ryan M. Kelly, Saumya Pareek, Qiushi Zhou, and Eduardo Velloso. 2024. “The Effects of Generative AI on Design Fixation and Divergent Thinking.” arXiv [Cs.HC]. arXiv. http://arxiv.org/abs/2403.11164.

theorydesign

2024

Paper
SONICS - AI生成楽曲のデータセット &識別モデルSONICS - AI生成楽曲のデータセット &識別モデル
📄
SONICS - AI生成楽曲のデータセット &識別モデル

SunoやUdioで生成した楽曲を識別するためのフレームワーク

April 25, 2025 2:27 PM (GMT+9)

Rahman, Md Awsafur, Zaber Ibn Abdul Hakim, Najibul Haque Sarker, Bishmoy Paul, and S. Fattah. 2024. “SONICS: Synthetic or Not -- Identifying Counterfeit Songs,” August. http://arxiv.org/abs/2408.14080.

musicsoundethics

2024

Paper
AIモデルの生成物で新しいモデルを学習! を繰り返すと… 数世代でモデルが崩壊する! AIモデルの生成物で新しいモデルを学習! を繰り返すと… 数世代でモデルが崩壊する!
📄
AIモデルの生成物で新しいモデルを学習! を繰り返すと… 数世代でモデルが崩壊する!

LLMが生成したテキストを学習に利用→新しい学習データを生成→学習を繰り返した結果… Natureに掲載された論文

December 13, 2024 4:33 PM (GMT+9)

Shumailov, Ilia, Zakhar Shumaylov, Yiren Zhao, Nicolas Papernot, Ross Anderson, and Yarin Gal. 2024. “AI Models Collapse When Trained on Recursively Generated Data.” Nature 631 (8022): 755–59.

2024

Paper
絵画を知らないAIが絵画を生成できるか — Art-free Diffusion絵画を知らないAIが絵画を生成できるか — Art-free Diffusion
📄
絵画を知らないAIが絵画を生成できるか — Art-free Diffusion

アートを含まない学習データを学習したAIモデルをベースに、少数のアート作品の画像でLoRAを学習。きちんとそのアーティストの特徴を掴んだ画像が生成された。

December 9, 2024 1:59 PM (GMT+9)

Ren, Hui, Joanna Materzynska, Rohit Gandikota, David Bau, and Antonio Torralba. 2024. “Art-Free Generative Models: Art Creation Without Graphic Art Knowledge.” http://arxiv.org/abs/2412.00176.

visualtheoryethicsimage

2024

Paper
RAVE - VAEを用いたリアルタイムの音色変換アルゴリズム (2019)RAVE - VAEを用いたリアルタイムの音色変換アルゴリズム (2019)
📄
RAVE - VAEを用いたリアルタイムの音色変換アルゴリズム (2019)
July 10, 2024 7:32 AM (GMT+9)

Caillon, Antoine, and Philippe Esling. 2021. “RAVE: A Variational Autoencoder for Fast and High-Quality Neural Audio Synthesis.” arXiv [cs.LG]. arXiv. http://arxiv.org/abs/2111.05011.

sound

2019

Paper
ChatGPT is bullshit — ChatGPTはウ◯コ論者だ💩ChatGPT is bullshit — ChatGPTはウ◯コ論者だ💩
📄
ChatGPT is bullshit — ChatGPTはウ◯コ論者だ💩

ChatGPTの本質を、哲学者のフランクファートが提唱した概念、「ブルシット=ウンコな議論」を通して捉え直す

June 19, 2024 4:30 AM (GMT+9)

Hicks, Michael Townsen, James Humphries, and Joe Slater. 2024. “ChatGPT Is Bullshit.” Ethics and Information Technology 26 (2). https://doi.org/10.1007/s10676-024-09775-5.

NLPLLMtheory

2024

Paper
WavJourney - LLMで複数のモデルを組み合わせて、テキスト入力からオーディオコンテンツを生成WavJourney - LLMで複数のモデルを組み合わせて、テキスト入力からオーディオコンテンツを生成
📄
WavJourney - LLMで複数のモデルを組み合わせて、テキスト入力からオーディオコンテンツを生成

LLMと複数の音声合成モデルを駆使して、テキストプロンプトからスピーチ、音楽、SEなどを含む音のコンテンツ(ラジオドラマ、ポッドキャストのようなもの)を生成

May 25, 2024

Liu, Xubo, Zhongkai Zhu, Haohe Liu, Yi Yuan, Meng Cui, Qiushi Huang, Jinhua Liang, et al. 2023. “WavJourney: Compositional Audio Creation with Large Language Models.” arXiv [cs.SD]. arXiv. http://arxiv.org/abs/2307.14335.

sound

2023

Paper
音楽生成AIは本当に新しい音楽を生成しているか? 学習データをコピーしているだけではないか? - 定量的な調査音楽生成AIは本当に新しい音楽を生成しているか? 学習データをコピーしているだけではないか? - 定量的な調査
📄
音楽生成AIは本当に新しい音楽を生成しているか? 学習データをコピーしているだけではないか? - 定量的な調査

音楽生成AIは学習データをコピーしているだけではないか? 学習データと生成されたデータを比較。

May 13, 2024

Bralios, Dimitrios, Gordon Wichern, François G. Germain, Zexu Pan, Sameer Khurana, Chiori Hori, and Jonathan Le Roux. 2024. “Generation or Replication: Auscultating Audio Latent Diffusion Models.” In ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 1156–60. IEEE.

musicsound

2024

Paper
Active Divergenceのサーベイ — 学習データの忠実な再現からの適度な逸脱を目指してActive Divergenceのサーベイ — 学習データの忠実な再現からの適度な逸脱を目指して
📄
Active Divergenceのサーベイ — 学習データの忠実な再現からの適度な逸脱を目指して

生成モデル(Generative Models)をはじめとするAIモデルの精度が上がる=学習データのパターンをより忠実に再現、再構成できるようになってきた一方で、創造性の観点から言うとそれって学習データものの焼き直しに過ぎないのでは? とう疑問も。 どう適度な逸脱を図るか… が本論文のテーマ。

November 12, 2023

Broad, Terence, Sebastian Berns, Simon Colton, and Mick Grierson. 2021. “Active Divergence with Generative Deep Learning -- A Survey and Taxonomy.” arXiv [cs.LG]. arXiv. http://arxiv.org/abs/2107.05599.

GANarttheory

2021

Paper
ChatGPTをチューリング・テストにかけて分かったことChatGPTをチューリング・テストにかけて分かったこと
📄
ChatGPTをチューリング・テストにかけて分かったこと

まだチューリング・テストをクリアしているとは言えなそう… 今、テストを実施する意味とは?

November 2, 2023

Jones, Cameron, and Benjamin Bergen. 2023. “Does GPT-4 Pass the Turing Test?” arXiv [cs.AI]. arXiv. http://arxiv.org/abs/2310.20216.

NLPessential

2023

Paper
GLAZE: ぱっと見にはわからないノイズを画像に追加することで、拡散モデルを用いたスタイルの模倣を困難にする仕組みGLAZE: ぱっと見にはわからないノイズを画像に追加することで、拡散モデルを用いたスタイルの模倣を困難にする仕組み
📄
GLAZE: ぱっと見にはわからないノイズを画像に追加することで、拡散モデルを用いたスタイルの模倣を困難にする仕組み

アーティストのスタイルが勝手に模倣されることを防ぐ Adversarial Example

February 17, 2023

Shan, Shawn, Jenna Cryan, Emily Wenger, Haitao Zheng, Rana Hanocka, and Ben Y. Zhao. 2023. “GLAZE: Protecting Artists from Style Mimicry by Text-to-Image Models.” arXiv [cs.CR]. arXiv. http://arxiv.org/abs/2302.04222.

ethicsimagesociety

2023

Paper
AudioLDM: latent diffusionを用いてテキストからオーディオ(環境音、音楽等)を生成するモデルAudioLDM: latent diffusionを用いてテキストからオーディオ(環境音、音楽等)を生成するモデル
📄
AudioLDM: latent diffusionを用いてテキストからオーディオ(環境音、音楽等)を生成するモデル

Liu, Haohe, Zehua Chen, Yi Yuan, Xinhao Mei, Xubo Liu, Danilo Mandic, Wenwu Wang, and Mark D. Plumbley. 2023. “AudioLDM: Text-to-Audio Generation with Latent Diffusion Models.” arXiv [cs.SD] . arXiv. http://arxiv.org/abs/2301.12503.

February 10, 2023

CLAPを用いることでText-to-AudioのSOTAを達成。オープンソース化されていて、すぐに試せるオンラインデモもあり!

musicsound

2023

Paper
SingSong — ボーカルを入力に伴奏をまるっと音で生成するモデルSingSong — ボーカルを入力に伴奏をまるっと音で生成するモデル
📄
SingSong — ボーカルを入力に伴奏をまるっと音で生成するモデル

音源分離技術を使ってボーカルとそれに付随する伴奏を抽出。その関係を学習。Ground Truth (元々の曲に入ってた伴奏)には流石に劣るがそれに匹敵するクオリティの曲を生成できるようになった。

January 31, 2023

Donahue, Chris, Antoine Caillon, Adam Roberts, Ethan Manilow, Philippe Esling, Andrea Agostinelli, Mauro Verzetti, et al. 2023. “SingSong: Generating Musical Accompaniments from Singing.” arXiv [cs.SD] . arXiv. http://arxiv.org/abs/2301.12662.

musicsound

2023

Paper
Moûsai: Latent Diffusionモデルでの音楽生成Moûsai: Latent Diffusionモデルでの音楽生成
📄
Moûsai: Latent Diffusionモデルでの音楽生成

Latent Diffusionのアーキテクチャを利用して、テキストから音楽を生成するモデル

January 30, 2023

Schneider, Flavio, Zhijing Jin, and Bernhard Schölkopf. 2023. “Moûsai: Text-to-Music Generation with Long-Context Latent Diffusion.” arXiv [cs.CL] . arXiv. http://arxiv.org/abs/2301.11757.

musicsound

2023

Paper
MusicLM: テキストから音楽を生成するモデルMusicLM: テキストから音楽を生成するモデル
📄
MusicLM: テキストから音楽を生成するモデル

“a calming violin melody backed by a distorted guitar riff” といったテキストから音楽がサウンドファイルとして生成される. Stable Diffusionの音楽版

January 27, 2023

Agostinelli, Andrea, Timo I. Denk, Zalán Borsos, Jesse Engel, Mauro Verzetti, Antoine Caillon, Qingqing Huang, et al. 2023. “MusicLM: Generating Music From Text.” arXiv [cs.SD] . arXiv. http://arxiv.org/abs/2301.11325.

musicsoundNLP

2023

Paper
Datasets That Are Not — 新奇性の高い出力を求めたデータセットのAugmentation手法Datasets That Are Not — 新奇性の高い出力を求めたデータセットのAugmentation手法
📄
Datasets That Are Not — 新奇性の高い出力を求めたデータセットのAugmentation手法

データセットの模倣ではない、新奇性の高い出力を生成AIを用いて実現するために、生成した画像をデータセットに追加していくことを繰り返す

January 17, 2023

Wu, Yusong, Kyle Kastner, Tim Cooijmans, Cheng-Zhi Anna Huang, and Aaron Courville. n.d. “Datasets That Are Not: Evolving Novelty Through Sparsity and Iterated Learning.”

theory

2022

Paper
それっぽさと新奇性、それぞれを最大化するGANモデルを用いた音楽生成 — Musicality-Novelty GAN それっぽさと新奇性、それぞれを最大化するGANモデルを用いた音楽生成 — Musicality-Novelty GAN
📄
それっぽさと新奇性、それぞれを最大化するGANモデルを用いた音楽生成 — Musicality-Novelty GAN

人真似ではない新しい音楽をAIで生成しようとする野心的な研究

August 7, 2022

Chen, Gong, Yan Liu, Sheng-Hua Zhong, and Xiang Zhang. 2018. “Musicality-Novelty Generative Adversarial Nets for Algorithmic Composition.” In Proceedings of the 26th ACM International Conference on Multimedia , 1607–15. MM ’18. New York, NY, USA: Association for Computing Machinery.

musictheory

2018

Paper
深層学習を用いたウェーブ・シェーピング合成 - NEURAL WAVESHAPING SYNTHESIS深層学習を用いたウェーブ・シェーピング合成 - NEURAL WAVESHAPING SYNTHESIS
📄
深層学習を用いたウェーブ・シェーピング合成 - NEURAL WAVESHAPING SYNTHESIS

CPUでもサクサク動くのがポイント!

January 19, 2022

Hayes, B., Saitis, C., & Fazekas, G. (2021). Neural Waveshaping Synthesis.

musicsound

2021

Paper
もしAIが「へのへのもへじ」を作ったら? — CLIPと進化戦略を用いたコラージュ画像の生成もしAIが「へのへのもへじ」を作ったら? — CLIPと進化戦略を用いたコラージュ画像の生成
👨‍👩‍👦
もしAIが「へのへのもへじ」を作ったら? — CLIPと進化戦略を用いたコラージュ画像の生成

画像とテキストがどれくらいマッチしているかを定量化するCLIPモデルを用いて、要素画像の配置を最適化。入力されたテキストにあったコラージュ画像を生成するシステム

December 11, 2021

CLIP-guided collage image optimization using Evolutionary Strategy

visualcross-modal

2021

Project
Botto—コミュニティのフィードバックに基づいてNFTアートを自動生成するBot Botto—コミュニティのフィードバックに基づいてNFTアートを自動生成するBot
👨‍👩‍👦
Botto—コミュニティのフィードバックに基づいてNFTアートを自動生成するBot

CLIP+VQ-GANの仕組みを活用

November 19, 2021

Botto Project

artvisualGAN

2021

Project
X線スキャンとStyle Transferでキャンバスに隠された絵画を「復元」するプロジェクトX線スキャンとStyle Transferでキャンバスに隠された絵画を「復元」するプロジェクト
📄
X線スキャンとStyle Transferでキャンバスに隠された絵画を「復元」するプロジェクト

X線写真をコンテンツ画像に、同時代の同じ作家の絵をスタイル画像としてスタイルトランスファーをかける。美術史家などからその手法に対して強い批判も上がっている。

November 11, 2021

Bourached, A., & Cann, G. H. (2019). Raiders of the Lost Art. CrossTalk, 22(7–8), 35. https://doi.org/10.1525/9780520914957-028 

artimageethics

2019

Paper
Wav2CLIP: CLIPを使用したロバストなオーディオ表現学習手法Wav2CLIP: CLIPを使用したロバストなオーディオ表現学習手法
📄
Wav2CLIP: CLIPを使用したロバストなオーディオ表現学習手法

CLIPからオーディオ表現を抽出する手法であるWav2CLIPを提案。オーディオ分類・検索タスクで良好な結果を残す

October 31, 2021

Wav2CLIP: Learning Robust Audio Representations From CLIP, Andrey Guzhov, Federico Raue, Jörn Hees, Andreas Dengel (2021)

soundcross-modalimage

2021

Paper
CLIPと進化戦略ESを用いて、単純なかたちを組み合わせて描く抽象画. AIキュビズム ? CLIPと進化戦略ESを用いて、単純なかたちを組み合わせて描く抽象画. AIキュビズム ?
👨‍👩‍👦
CLIPと進化戦略ESを用いて、単純なかたちを組み合わせて描く抽象画. AIキュビズム ?

テキストと画像がどのくらいマッチしているかを定量化するモデル OpenAI CLIPを評価関数に用いて、進化戦略ESによって生成した抽象画

October 1, 2021

YINGTAO TIAN, DAVID HA. Modern Evolution Strategies for Creativity: Fitting Concrete Images and Abstract Concepts (2021)

imageart

2021

Project
FakeAVCeleb - ディープフェイク技術で作った顔と話し声のデータセットFakeAVCeleb - ディープフェイク技術で作った顔と話し声のデータセット
💾
FakeAVCeleb - ディープフェイク技術で作った顔と話し声のデータセット

顔をディープフェイク技術で動かし、リップシンクした音声を追加することで作ったDeepfake動画のデータセット。ディープフェイクへの対抗策の研究が目的。

September 8, 2021

FakeAVCeleb: A Novel Audio-Video Multimodal Deepfake Dataset, Hasam Khalid, Shahroz Tariq, Minha Kim, Simon S. Woo (2021)

ethicssociety

2021

Dataset
"AI" - GPT3を用いた実験的な演劇"AI" -  GPT3を用いた実験的な演劇
👨‍👩‍👦
"AI" - GPT3を用いた実験的な演劇

OpenAIの言語モデルGPT3を用いた即興劇。ロンドンの劇場での公演。 

September 3, 2021

AI by Jennifer Tang

performanceNLP

2021

Project
synth1B1 - 10億以上のシンセ音と、そのパラメータがペアになったデータセットsynth1B1 - 10億以上のシンセ音と、そのパラメータがペアになったデータセット
💾
synth1B1 - 10億以上のシンセ音と、そのパラメータがペアになったデータセット

なんと総時間は約126年分!! データセットを生成するためにpytorch上に実装された、GPUに最適化されたモジュラーシンセ torchsynthも合わせて公開。

July 23, 2021

Turian, J., Shier, J., Tzanetakis, G., McNally, K., & Henry, M. (2021). One Billion Audio Sounds from GPU-enabled Modular Synthesis.

soundmusic

2021

Dataset
画像と文章をつなげるモデル OpenAI CLIPを用いた「CLIPアート」画像と文章をつなげるモデル OpenAI CLIPを用いた「CLIPアート」
👨‍👩‍👦
画像と文章をつなげるモデル OpenAI CLIPを用いた「CLIPアート」

画像とテキストの関連性の高さを判定するモデルCLIPを用いて、生成される画像を最適化 → テキストの入力にあった画像が生成

July 17, 2021

OpenAI CLIP + Image Generation Models = CLIP art

artimagecross-modal

2021

Project
The Flemish Scrollers - 議会中にサボっている議員を監視するボットThe Flemish Scrollers - 議会中にサボっている議員を監視するボット
👨‍👩‍👦
The Flemish Scrollers - 議会中にサボっている議員を監視するボット

顔認識とオブジェクト認識を組み合わせて、議会中に電話をいじっている議員を摘発

July 13, 2021

The Flemish Scrollers, Dries Depoorter (2021)

ethicsart

2021

Project
Neural Loop Combiner — リズム、メロディー、ベースライン... どのループを組み合わせる? Neural Loop Combiner — リズム、メロディー、ベースライン... どのループを組み合わせる?
📄
Neural Loop Combiner — リズム、メロディー、ベースライン... どのループを組み合わせる?

現代の音楽制作過程で重要なループの組み合わせ。たくさんあるループ間の相性を判定して、適切なループの組み合わせをレコメンドする仕組み。

June 30, 2021

Chen, B.-Y., Smith, J. B. L. and Yang, Y.-H. (2020) ‘Neural Loop Combiner: Neural Network Models for Assessing the Compatibility of Loops’.

music

2020

Paper
Algorithms of Late-Capitalism — 行き過ぎた資本主義社会におけるAI/アルゴリズムの利用に光を当てるZine/Webサイト Algorithms of Late-Capitalism — 行き過ぎた資本主義社会におけるAI/アルゴリズムの利用に光を当てるZine/Webサイト
👨‍👩‍👦
Algorithms of Late-Capitalism — 行き過ぎた資本主義社会におけるAI/アルゴリズムの利用に光を当てるZine/Webサイト

AIや機械学習が社会で用いられる場合、時にそれが市民を搾取するかたちで使われることがある。そうしたAIの利用の実例を取り上げてカタログ化するDigital Activism。

June 30, 2021

Algorithms of Late-Capitalism (2020-)

ethicssociety

2020

Project
Paint with Music - DDSPを用いて絵筆のストロークを音楽に Paint with Music - DDSPを用いて絵筆のストロークを音楽に
👨‍👩‍👦
Paint with Music - DDSPを用いて絵筆のストロークを音楽に

Google Magentaチームの最新のプロジェクト。2020年に発表した DDSP: Differentiable Digital Signal Processing を使って、絵筆のストロークを楽器音に変えている。筆で描くように音を奏でることができる。

June 22, 2021

Paint with Music - Google Magenta

musicsound

2021

Project
結局AI音楽ツールって使えるの? AI音楽ツールに対する意識調査- A survey on the uptake of Music AI Software結局AI音楽ツールって使えるの? AI音楽ツールに対する意識調査- A survey on the uptake of Music AI Software
📄
結局AI音楽ツールって使えるの? AI音楽ツールに対する意識調査- A survey on the uptake of Music AI Software

AI音楽ツールに対する意識調査を117名に対してオンラインで行った。結論からいうと... AIツールはほとんど使われていない。AIツールに対してポジティブな人も、現状ではなく未来の可能性にひかれている。

June 19, 2021

Knotts, S., & Collins, N. (2020). A survey on the uptake of Music AI Software. Proceedings of the International Conference on New Interfaces for Musical Expression, 594–600.

music

2020

Paper
演奏者が自身の姿と音を学習したAIと向き合うオーディオビジュアルパフォーマンス: Alexander Schubert - Convergence 演奏者が自身の姿と音を学習したAIと向き合うオーディオビジュアルパフォーマンス: Alexander Schubert - Convergence
👨‍👩‍👦
演奏者が自身の姿と音を学習したAIと向き合うオーディオビジュアルパフォーマンス: Alexander Schubert - Convergence

GANやAutoEncoderが使われている。2021年のアルスエレクトロニカ Digital Musics & Sound Art 部門のゴールデンニカ(最優秀賞)。

June 18, 2021

Alexander Schubert - Convergence (2020)

musicperformancesoundGAN

2020

Project
Datagen - AIの学習データをAIで生成、提供するスタートアップDatagen - AIの学習データをAIで生成、提供するスタートアップ
⚒️
Datagen - AIの学習データをAIで生成、提供するスタートアップ

バイアスやプライバシーへの配慮から、人を対象にしたデータセットを集めることが難しくなっている。そこでGANなどを使って、適切なデータセットを人工的に作り出す仕組みを提供するスタートアップが登場した。

June 12, 2021

-

ethicssociety

2021

Dataset
Energy and Policy Considerations for Deep Learning in NLPEnergy and Policy Considerations for Deep Learning in NLP
📄
Energy and Policy Considerations for Deep Learning in NLP

GPT-2などの言語モデルについて、その精度ではなく、学習時に消費している電力及び、二酸化炭素の放出量についてまとめた。この研究の試算では、例えばTransformer の学習に、一般的な自動車のライフサイクルの約5台分、アメリカ人約17人の一年分に相当するカーボンフットプリントがあることがわかった。

June 10, 2021

Emma Strubell, Ananya Ganesh, Andrew McCallum (2019)

ethicsNLP

2019

Paper
VAEベースのリズム生成モデル - Creating Latent Spaces for Modern Music Genre Rhythms Using Minimal Training DataVAEベースのリズム生成モデル - Creating Latent Spaces for Modern Music Genre Rhythms Using Minimal Training Data
📄
VAEベースのリズム生成モデル - Creating Latent Spaces for Modern Music Genre Rhythms Using Minimal Training Data

少量の学習データでも効率的に学習できるように、最近のダンスミュージックの特徴を生かしたアーキテクチャを採用

June 7, 2021

Vigliensoni, G., Mccallum, L., & Fiebrink, R. (2020). Creating Latent Spaces for Modern Music Genre Rhythms Using Minimal Training Data. Proc. ICCC 2020.

music

2020

Paper
LoopNet—ドラムループのサウンド合成LoopNet—ドラムループのサウンド合成
📄
LoopNet—ドラムループのサウンド合成

音源分離のモデルで提案されたWave-U-Netのアーキテクチャを用いて、ドラムループをまるごと生成する仕組み

June 5, 2021

Chandna, P., Ramires, A., Serra, X., & Gómez, E. (2021). LoopNet: Musical Loop Synthesis Conditioned On Intuitive Musical Parameters.

music

2021

Paper
パーカッション音の合成 - NEURAL PERCUSSIVE SYNTHESIS パーカッション音の合成 - NEURAL PERCUSSIVE SYNTHESIS
📄
パーカッション音の合成 - NEURAL PERCUSSIVE SYNTHESIS
June 4, 2021

Ramires, A., Chandna, P., Favory, X., Gómez, E., & Serra, X. (2019). Neural Percussive Synthesis Parameterised by High-Level Timbral Features. ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings, 2020-May, 786–790. Retrieved from http://arxiv.org/abs/1911.11853

sound

2019

Paper
WebFace260M - インターネット上で集められた2億6千万枚の顔写真のデータセットWebFace260M - インターネット上で集められた2億6千万枚の顔写真のデータセット
💾
WebFace260M - インターネット上で集められた2億6千万枚の顔写真のデータセット

400万人の人の2億6000万枚の顔写真のデータセットと、ゴミデータを取り除いた200万人/4200万枚の顔写真のデータセットの二種類を提供

June 3, 2021

Zhu, Z., Huang, G., Deng, J., Ye, Y., Huang, J., Chen, X., … Zhou, J. (2021). WebFace260M: A Benchmark Unveiling the Power of Million-Scale Deep Face Recognition

ethics

2021

Dataset
監視カメラの画像と画像認識で世界の国々の幸福度を計測? - Measuring Happiness Around the World through AI監視カメラの画像と画像認識で世界の国々の幸福度を計測? - Measuring Happiness Around the World through AI
📄
監視カメラの画像と画像認識で世界の国々の幸福度を計測? - Measuring Happiness Around the World through AI

世界8都市の街中で撮られた動画から顔を抜き出してCNNを用いた感情推定モデルで解析。都市ごとの有意な差は見当たらないという結果に。

June 3, 2021

Ozakar, R., Gazanfer, R. E., & Sinan Hanay, Y. (2020, November 25). Measuring happiness around the World through artificial intelligence

society

2020

Paper
Paper
📄
Paper
June 2, 2021
Paper
ドラムパターンとメロディの生成 - Artificial Neural Networks Jamming on the Beatドラムパターンとメロディの生成 - Artificial Neural Networks Jamming on the Beat
📄
ドラムパターンとメロディの生成 - Artificial Neural Networks Jamming on the Beat

リズムパターンのデータセットもあわせて公開。

June 1, 2021

Tikhonov, A., & Yamshchikov, I. (2021, July 13). Artificial Neural Networks Jamming on the Beat. 37–44. https://doi.org/10.5220/0010461200370044

music

2021

Paper
A Bassline Generation System Based on Sequence-to-Sequence LearningA Bassline Generation System Based on Sequence-to-Sequence Learning
📄
A Bassline Generation System Based on Sequence-to-Sequence Learning

2019年のNIMEで発表された論文。最新の言語モデル(seq-to-seq model)の知見を利用してドラムトラックの音声ファイルからそれにあったベースラインを生成してくれる。

June 1, 2021

Behzad Haki, & Jorda, S. (2019). A Bassline Generation System Based on Sequence-to-Sequence Learning. Proceedings of the International Conference on New Interfaces for Musical Expression, 204–209.

music

2019

Paper
NSynth: Neural Audio Synthesis—WaveNetを用いたAutoencoderで楽器音を合成NSynth: Neural Audio Synthesis—WaveNetを用いたAutoencoderで楽器音を合成
📄
NSynth: Neural Audio Synthesis—WaveNetを用いたAutoencoderで楽器音を合成

WaveNetの仕組みを使ったAutoencoderで、楽器の音の時間方向の変化も含めて、潜在空間にマッピング → 潜在ベクトルから楽器の音を合成する。この研究で使った多数の楽器の音を集めたデータセット NSynth を合わせて公開。

May 28, 2021

Engel, J. et al. (2017) ‘Neural Audio Synthesis of Musical Notes with WaveNet Autoencoders’. Available

musicsound

2017

Paper
essentia オーディオ/音楽解析ライブラリessentia オーディオ/音楽解析ライブラリ
⚒️
essentia オーディオ/音楽解析ライブラリ

https://github.com/MTG/essentia

May 26, 2021

Dmitry Bogdanov, et al. 2013. ESSENTIA: an open-source library for sound and music analysis. In Proceedings of the 21st ACM international conference on Multimedia (MM '13). Association for Computing Machinery, New York, NY, USA, 855–858. DOI:https://doi.org/10.1145/2502081.2502229

soundmusic

https://github.com/MTG/essentia

Tool
1万以上のドラム、パーカッション音のデータセット — Freesound One-Shot Percussive Sounds1万以上のドラム、パーカッション音のデータセット — Freesound One-Shot Percussive Sounds
💾
1万以上のドラム、パーカッション音のデータセット — Freesound One-Shot Percussive Sounds

ドラム、パーカションのワンショットを集めたデータセット

May 25, 2021

António Ramires, Pritish Chandna, Xavier Favory, Emilia Gómez, & Xavier Serra. (2020). Freesound One-Shot Percussive Sounds (Version 1.0) [Data set]. Zenodo. http://doi.org/10.5281/zenodo.3665275

soundmusic

2020

Dataset
MuseMorphose: Transformerを用いたVAEによる音楽のスタイル変換MuseMorphose: Transformerを用いたVAEによる音楽のスタイル変換
📄
MuseMorphose: Transformerを用いたVAEによる音楽のスタイル変換

長期の時間依存性を学習できるTransformerの利点とコントロール性が高いVAEの利点。この二つを組み合わせたEncoder-Decoderアーキテクチャで、MIDIで表現された音楽のスタイル変換(Style Transfer)を実現。

May 21, 2021

Wu, S.-L. and Yang, Y.-H. (2021) ‘MuseMorphose: Full-Song and Fine-Grained Music Style Transfer with Just One Transformer VAE’

music

2021

Paper
Visual indeterminacy in GAN artVisual indeterminacy in GAN art
📄
Visual indeterminacy in GAN art

GANが生成する画像の「●●ぽいけど、なんか違う...」という「不確定性」に着目し、現代アートの特徴との比較を行った上で、今後のGANアートの将来像を探る。

May 19, 2021

Hertzmann, A. (2020) ‘Visual indeterminacy in GAN art’, Leonardo. MIT Press Journals, 53(4), pp. 424–428.

arttheoryGANvisual

2020

Paper
GANを使った環境音の生成→環境音の識別モデルの性能向上GANを使った環境音の生成→環境音の識別モデルの性能向上
📄
GANを使った環境音の生成→環境音の識別モデルの性能向上

環境音の識別モデルの学習のためのData Augmentation手法の提案

May 18, 2021

Madhu, A. and K, S. (2021) ‘EnvGAN: Adversarial Synthesis of Environmental Sounds for Data Augmentation’.

soundGAN

2021

Paper
Generating Long Sequences with Sparse TransformersGenerating Long Sequences with Sparse Transformers
📄
Generating Long Sequences with Sparse Transformers

スパースなTransformerの仕組みで計算量を抑える

May 16, 2021

Child, R. et al. (2019) ‘Generating Long Sequences with Sparse Transformers’, arXiv. arXiv. Available at: http://arxiv.org/abs/1904.10509 (Accessed: 29 January 2021).

musicvisual

2019

Paper
Neural Text Generation with Unlikelihood TrainingNeural Text Generation with Unlikelihood Training
📄
Neural Text Generation with Unlikelihood Training

Likelihoodを最適化しようとすると頻出する単語が必要以上に頻出する結果に

May 14, 2021

Welleck, S., Kulikov, I., Roller, S., Dinan, E., Cho, K., & Weston, J. (2019). Neural Text Generation with Unlikelihood Training.

NLP

2019

Paper
The Role of AI Attribution Knowledge in the Evaluation of ArtworkThe Role of AI Attribution Knowledge in the Evaluation of Artwork
📄
The Role of AI Attribution Knowledge in the Evaluation of Artwork

クラウドソーシングの仕組みを活用して、AIが描いた絵を区別できるか、またAIが描いたという情報が、絵自体の評価にどのくらい影響するのかを調査。

May 11, 2021

Gangadharbatla, H. (2021) ‘The Role of AI Attribution Knowledge in the Evaluation of Artwork’, pp. 1–19. doi: 10.1177/0276237421994697.

theoryart

2021

Paper
Exposing.AIExposing.AI
👨‍👩‍👦
Exposing.AI

Flickrなどに顔写真をアップロードした場合、特にCreative Commonsのライセンスなどを設定した場合、知らない間に顔認識モデルの学習データとして使われている可能性がある。このサイトは自分の写真が、学習データとして使われていないかチェックできるサイト。

May 5, 2021

Harvey, Adam. LaPlace, Jules, Exposing.AI

ethics

2021

Project
Infinite Bad GuyInfinite Bad Guy
👨‍👩‍👦
Infinite Bad Guy

YouTube上で史上最も多くカバーされた楽曲ビリー・アイリッシュのBad Guy。YouTube上にあがっている曲を解析、分類し、リズムに合わせてスムーズに繋いでいく。無限に続くBad Guyジュークボックス。

May 1, 2021

Infinite Bad Guy (IYOIYO, Kyle McDonald)

music

2020

Project
Talking Drums: Generating drum grooves with neural networks. Talking Drums: Generating drum grooves with neural networks.
📄
Talking Drums: Generating drum grooves with neural networks.

ドラムのキックの位置を入力すると、リズムパターン全体を生成するモデル。言語モデルのseq-to-seqモデルの考え方を利用。

April 30, 2021

Hutchings, P. (2017). Talking Drums: Generating drum grooves with neural networks.

music

2017

Paper
Portrait AI Portrait AI
👨‍👩‍👦
Portrait AI

https://portraitai.app/

April 30, 2021

2021

Project
UAV-Human: A Large Benchmark for Human Behavior Understanding with Unmanned Aerial VehiclesUAV-Human: A Large Benchmark for Human Behavior Understanding with Unmanned Aerial Vehicles
💾
UAV-Human: A Large Benchmark for Human Behavior Understanding with Unmanned Aerial Vehicles

ドローンから撮影した人の行動の動画のデータセット。ドローンを使った監視に直結する恐れ??

April 22, 2021

UAV-Human: A Large Benchmark for Human Behavior Understanding with Unmanned Aerial Vehicles

ethics

2021

Dataset
random_faces - ランダムに存在しない人の顔を生成するPythonライブラリrandom_faces - ランダムに存在しない人の顔を生成するPythonライブラリ
⚒️
random_faces - ランダムに存在しない人の顔を生成するPythonライブラリ

ライブラリをインストールしてたった二行で、存在しない人の顔画像が生成できるPythonライブラリ

April 22, 2021

random_faces

GANimageethics

2021

Tool
AAI - AIを用いたMouse on MarsのアルバムAAI - AIを用いたMouse on Marsのアルバム
👨‍👩‍👦
AAI - AIを用いたMouse on Marsのアルバム

ベテラン電子音楽家、あのMouse on Marsが、AIを用いたアルバムを公開!! テキストを入力した声を合成するシステムを構築。生成した声を用いて楽曲を構成した。

April 22, 2021

"AAI" by Mouse on Mars

music

2021

Project
ArtEmis: Affective Language for Visual ArtArtEmis: Affective Language for Visual Art
💽
ArtEmis: Affective Language for Visual Art

8万枚の絵画にクラウドソーシングで44万の言語情報を付加。

April 22, 2021

ArtEmis: Affective Language for Visual Art

visualart

2021

Dataset
Translating Paintings Into Music Using Neural NetworksTranslating Paintings Into Music Using Neural Networks
📄
Translating Paintings Into Music Using Neural Networks

音楽とアルバムカバーの関係を学習したモデルをベースに、絵画と音楽を相互に変換するパフォーマンス

April 19, 2021

Verma, P., Basica, C. and Kivelson, P. D. (2020) ‘Translating Paintings Into Music Using Neural Networks’.

cross-modalmusicart

2020

Paper
REAL-TIME TIMBRE TRANSFER AND SOUND SYNTHESIS USING DDSPREAL-TIME TIMBRE TRANSFER AND SOUND SYNTHESIS USING DDSP
📄
REAL-TIME TIMBRE TRANSFER AND SOUND SYNTHESIS USING DDSP

Google MagentaのDDSPをリアルタイムに動かせるプラグイン

April 14, 2021

Francesco Ganis, Erik Frej Knudesn, Søren V. K. Lyster, Robin Otterbein, David Südholt, Cumhur Erkut (2021)

musicsound

2021

Paper
Attention is All You NeedAttention is All You Need
📄
Attention is All You Need

現在、GPT-3から音楽生成、画像の生成まで、多様な領域で中心的な仕組みとなっているTransformerを導入した論文。時系列データの学習に一般的に用いられてきたRNNなどの複雑なネットワークを排して、比較的シンプルなAttentionだけで学習できることを示した。

April 1, 2021

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 2017-Decem, 5999–6009.

NLPessential

2017

Paper
Neural Granular Sound SynthesisNeural Granular Sound Synthesis
📄
Neural Granular Sound Synthesis

グラニュラーシンセシスのGrain(音の粒)をVAEを使って生成しようという試み。Grainの空間の中での軌跡についても合わせて学習。

March 30, 2021

Hertzmann, A. (2020) ‘Visual indeterminacy in GAN art’, Leonardo. MIT Press Journals, 53(4), pp. 424–428. doi: 10.1162/LEON_a_01930.

musicsound

2020

Paper
CinemaNetCinemaNet
⚒️
CinemaNet

普通の画像認識モデルのようなオブジェクトの識別に加えて、カメラのアングルやフォーカスの当て方(ソフトフォーカス...)、撮影された時間帯(夕方、朝焼け)、場所などをタグ付け

March 3, 2021

CinemaNet by Anton Marini(vade), Rahul Somani

visual
Tool
WaveNetを使ったAutoencoderで音楽のドメイン間の変換を可能に! – A Universal Music Translation NetworkWaveNetを使ったAutoencoderで音楽のドメイン間の変換を可能に! – A Universal Music Translation Network
📄
WaveNetを使ったAutoencoderで音楽のドメイン間の変換を可能に! – A Universal Music Translation Network
August 13, 2020

Mor, Noam, et al. "A universal music translation network." arXiv preprint arXiv:1805.07848 (2018).

music

2018

Paper
踊るAI – Dancing to Music踊るAI – Dancing to Music
踊るAI – Dancing to Music
June 24, 2020

Lee, Hsin-Ying, et al. "Dancing to music." arXiv preprint arXiv:1911.02001 (2019)

musicart

2019

Paper
AIを用いたAudio Visual – Stylizing Audio Reactive VisualsAIを用いたAudio Visual – Stylizing Audio Reactive Visuals
AIを用いたAudio Visual – Stylizing Audio Reactive Visuals
June 24, 2020

Han-Hung Lee, Da-Gin Wu, and Hwann-Tzong Chen, "Stylizing Audio Reactive Visuals", NeurlPS2019, (2019)

visualGAN

2019

Paper
ピアノを即興演奏できるインターフェース – Piano Genieピアノを即興演奏できるインターフェース – Piano Genie
ピアノを即興演奏できるインターフェース – Piano Genie
May 24, 2020

Piano Genie

music

2018

Paper
歌詞からメロディを生成 – Conditional LSTM-GAN for Melody Generation from Lyrics歌詞からメロディを生成 – Conditional LSTM-GAN for Melody Generation from Lyrics
歌詞からメロディを生成 – Conditional LSTM-GAN for Melody Generation from Lyrics
February 12, 2020

Yu, Yi, Abhishek Srivastava, and Simon Canales. "Conditional lstm-gan for melody generation from lyrics." ACM Transactions on Multimedia Computing, Communications, and Applications (TOMM) 17.1 (2021): 1-20.

musicGANNLP
Paper
ファッションデザイナーを助けるツール – Human and GAN collaboration to create haute couture dressファッションデザイナーを助けるツール – Human and GAN collaboration to create haute couture dress
ファッションデザイナーを助けるツール – Human and GAN collaboration to create haute couture dress
February 12, 2020

Tatsuki Koga, at el., "Human and GAN collaboration to create haute couture dress", 33rd Conference on Neural Information Processing Systems, (2019)

GANart

2019

Paper
SpaceSheets スプレッドシート型UIでの潜在空間探索 – SpaceSheets: Interactive Latent Space Exploration through a Spreadsheet InterfaceSpaceSheets スプレッドシート型UIでの潜在空間探索 – SpaceSheets: Interactive Latent Space Exploration through a Spreadsheet Interface
SpaceSheets スプレッドシート型UIでの潜在空間探索 – SpaceSheets: Interactive Latent Space Exploration through a Spreadsheet Interface
February 5, 2020

Loh, Bryan, and Tom White. "Spacesheets: Interactive latent space exploration through a spreadsheet interface." (2018).

GAN

2018

Paper
記号創発問題 ─記号創発ロボティクスによる記号接地問題の本質的解決に向けて─記号創発問題 ─記号創発ロボティクスによる記号接地問題の本質的解決に向けて─
記号創発問題 ─記号創発ロボティクスによる記号接地問題の本質的解決に向けて─
February 5, 2020

谷口忠大, "記号創発問題: 記号創発ロボティクスによる記号接地問題の本質的解決に向けて (< 特集> 認知科学と記号創発ロボティクス: 実世界情報に基づく知覚的シンボルシステムの構成論的理解に向けて)", 人工知能 Vol.31.1, pp74-81, (2016).

theory

2016

Paper
様々なメディアのフレームを補間する – Depth-Aware Video Frame Interpolation様々なメディアのフレームを補間する – Depth-Aware Video Frame Interpolation
📄
様々なメディアのフレームを補間する – Depth-Aware Video Frame Interpolation
February 4, 2020

様々なメディアのフレームを補間する – Depth-Aware Video Frame Interpolation

imagevisual

2020

Paper
ある楽器の音色が別の楽器に!? – TimbreTron: A WaveNet(CycleGAN(CQT(Audio))) Pipeline for Musical Timbre Transferある楽器の音色が別の楽器に!? – TimbreTron: A WaveNet(CycleGAN(CQT(Audio))) Pipeline for Musical Timbre Transfer
ある楽器の音色が別の楽器に!? – TimbreTron: A WaveNet(CycleGAN(CQT(Audio))) Pipeline for Musical Timbre Transfer
February 4, 2020

Huang, Sicong, et al. "Timbretron: A wavenet (cyclegan (cqt (audio))) pipeline for musical timbre transfer." arXiv preprint arXiv:1811.09620 (2018).

GANmusic

2018

Paper
音源からそれぞれの楽器を分離するツール – SPLEETER音源からそれぞれの楽器を分離するツール – SPLEETER
📄
音源からそれぞれの楽器を分離するツール – SPLEETER

CDなどのミックスされた音源からボーカル、ピアノ、ベース、ドラムのようにそれぞれの楽器(トラック)の音を抽出できるツール

February 3, 2020

SPLEETER: A FAST AND STATE-OF-THE ART MUSIC SOURCE SEPARATION TOOL WITH PRE-TRAINED MODELS

musicdj

2019

Paper
モノラル音源を映像とdeep learningを用いて立体音源にモノラル音源を映像とdeep learningを用いて立体音源に
📄
モノラル音源を映像とdeep learningを用いて立体音源に
January 30, 2020

2.5D Visual Sound

2019

Paper
画像認識モデルが苦手とする画像のデータセット – Natural Adversarial Examples画像認識モデルが苦手とする画像のデータセット – Natural Adversarial Examples
💾
画像認識モデルが苦手とする画像のデータセット – Natural Adversarial Examples
July 29, 2019

Dan Hendrycks, Kevin Zhao, Steven Basart, Jacob Stein- hardt, and Dawn Song. Natural adversarial examples. arXiv preprint arXiv:1907.07174, 2019.

image

2019

Dataset
自律的人工アーティストプロジェクト Artist in the Cloud: Towards an Autonomous Artist
📄
自律的人工アーティストプロジェクト Artist in the Cloud: Towards an Autonomous Artist

自律型人工アーティストの制作を試みるオープンプレジェクト

July 17, 2019

Artist in the Cloud: Towards an Autonomous Artist

GANart

2019

Paper
音と映像の関係性の学習 – Audio-Visual Scene Analysis with Self-Supervised Multisensory Features音と映像の関係性の学習 – Audio-Visual Scene Analysis with Self-Supervised Multisensory Features
📄
音と映像の関係性の学習 – Audio-Visual Scene Analysis with Self-Supervised Multisensory Features
May 20, 2018

Audio-Visual Scene Analysis with Self-Supervised Multisensory Features

soundvisual

2018

Paper
進化と創造性 – The Surprising Creativity of Digital Evolution: A Collection of Anecdotes from the Evolutionary Computation and Artificial Life Research Communities進化と創造性 – The Surprising Creativity of Digital Evolution: A Collection of Anecdotes from the Evolutionary Computation and Artificial Life Research Communities
📄
進化と創造性 – The Surprising Creativity of Digital Evolution: A Collection of Anecdotes from the Evolutionary Computation and Artificial Life Research Communities
March 22, 2018

Lehman, Joel, et al. "The surprising creativity of digital evolution: A collection of anecdotes from the evolutionary computation and artificial life research communities." Artificial life 26.2 (2020): 274-306.

2020

Paper
GANによる音の生成 – Synthesizing Audio with Generative Adversarial NetworksGANによる音の生成 – Synthesizing Audio with Generative Adversarial Networks
📄
GANによる音の生成 – Synthesizing Audio with Generative Adversarial Networks
February 16, 2018

Synthesizing Audio with Generative Adversarial Networks

GANsound

2018

Paper
ボットのみを見分ける?CAPTCHA – Humans Not Invited.ボットのみを見分ける?CAPTCHA – Humans Not Invited.
👨‍👩‍👦
ボットのみを見分ける?CAPTCHA – Humans Not Invited.
February 8, 2018

This CAPTCHA Makes Sure You're A Robot. Yes, You Read That Right

performance
Web Site
動画からそれにあった音を生成 – Visual to Sound: Generating Natural Sound for Videos in the Wild動画からそれにあった音を生成 – Visual to Sound: Generating Natural Sound for Videos in the Wild
📄
動画からそれにあった音を生成 – Visual to Sound: Generating Natural Sound for Videos in the Wild
January 3, 2018

Visual to Sound: Generating Natural Sound for Videos in the Wild

soundvisual

2018

Paper
ロボットを交えての即興コメディHumanMachine – Artificial Intelligence Improvisationロボットを交えての即興コメディHumanMachine – Artificial Intelligence Improvisation
👨‍👩‍👦
ロボットを交えての即興コメディHumanMachine – Artificial Intelligence Improvisation

RNNベースのseq2seq会話エンジンを持ったロボットを交えた即興の漫才. 二人のコメディアン兼研究者とロボットのショー

December 8, 2017

Improvised Comedy as a Turing Test

art

2017

Project
画像から、好みのメッシュの3Dモデルを作成する -Neural 3D Mesh Renderer-画像から、好みのメッシュの3Dモデルを作成する -Neural 3D Mesh Renderer-
📄
画像から、好みのメッシュの3Dモデルを作成する -Neural 3D Mesh Renderer-
November 25, 2017

Neural 3D Mesh Renderer

visualimage

2017

Paper
Deep Learningを用いた音楽生成手法のまとめ – Deep Learning Techniques for Music Generation – A SurveyDeep Learningを用いた音楽生成手法のまとめ – Deep Learning Techniques for Music Generation – A Survey
👨‍👩‍👦
Deep Learningを用いた音楽生成手法のまとめ – Deep Learning Techniques for Music Generation – A Survey
November 22, 2017

Deep Learning Techniques for Music Generation – A Survey

artmusic

2017

Web Site
AIとの共作で行う「過去との対話」ー Maison book girl 「cotoeri」AIとの共作で行う「過去との対話」ー Maison book girl 「cotoeri」
👨‍👩‍👦
AIとの共作で行う「過去との対話」ー Maison book girl 「cotoeri」
November 13, 2017

Maison book girl 「cotoeri」

musicperformance

2017

Project
まるでアルチンボルド? GANを用いて野菜で顔を描く – The Electronic Curatorまるでアルチンボルド? GANを用いて野菜で顔を描く – The Electronic Curator
👨‍👩‍👦
まるでアルチンボルド? GANを用いて野菜で顔を描く – The Electronic Curator
November 13, 2017

The Electronic Curator

artGAN

2017

Web Site
AIとともに紡ぐホラーストーリー – Sherry, AI-Powered Horror StoriesAIとともに紡ぐホラーストーリー – Sherry, AI-Powered Horror Stories
👨‍👩‍👦
AIとともに紡ぐホラーストーリー – Sherry, AI-Powered Horror Stories
November 10, 2017

Sherry, AI-Powered Horror Stories

art

2017

Project
アフリカの野生動物の観測にDeep Learningを利用 – Automatically identifying wild animals in camera-trap images with deep learningアフリカの野生動物の観測にDeep Learningを利用 – Automatically identifying wild animals in camera-trap images with deep learning
📄
アフリカの野生動物の観測にDeep Learningを利用 – Automatically identifying wild animals in camera-trap images with deep learning

アフリカの野生動物の観測にDeep Learningを利用 – Automatically identifying wild animals in camera-trap images with deep learning

October 25, 2017

Automatically identifying wild animals in camera-trap images with deep learning

cross-modal

2017

Paper
人の行動の動画データセット – AVA: A Video Dataset of Spatio-temporally Localized Atomic Visual Actions人の行動の動画データセット – AVA: A Video Dataset of Spatio-temporally Localized Atomic Visual Actions
💾
人の行動の動画データセット – AVA: A Video Dataset of Spatio-temporally Localized Atomic Visual Actions
October 23, 2017

AVA: A Video Dataset of Spatio-temporally Localized Atomic Visual Actions

visualimage

2017

Dataset
機械とともに描くポートレート – Delusions機械とともに描くポートレート – Delusions
👨‍👩‍👦
機械とともに描くポートレート – Delusions
October 20, 2017

Delusions

performancevisualimage

2017

demo
”意識の流れを読む”「意識の辞書」 – A Dictionary of Consciousness”意識の流れを読む”「意識の辞書」 – A Dictionary of Consciousness
👨‍👩‍👦
”意識の流れを読む”「意識の辞書」 – A Dictionary of Consciousness
October 2, 2017

A Dictionary of Consciousness

essential

2017

Project
顔写真から3Dモデルを生成 – Large Pose 3D Face Reconstruction from a Single Image via Direct Volumetric CNN Regression顔写真から3Dモデルを生成 – Large Pose 3D Face Reconstruction from a Single Image via Direct Volumetric CNN Regression
👨‍👩‍👦
顔写真から3Dモデルを生成 – Large Pose 3D Face Reconstruction from a Single Image via Direct Volumetric CNN Regression
September 29, 2017

Large Pose 3D Face Reconstruction from a Single Image via Direct Volumetric CNN Regression

artvisualimage

2017

demo
Deep Learningを活用した都市の”形態学” – Urban morphology meets deep learning: Exploring urban forms in one million cities, town and villages across the planetDeep Learningを活用した都市の”形態学” – Urban morphology meets deep learning: Exploring urban forms in one million cities, town and villages across the planet
📄
Deep Learningを活用した都市の”形態学” – Urban morphology meets deep learning: Exploring urban forms in one million cities, town and villages across the planet

Deep Learningを活用した都市の”形態学”

September 25, 2017

Deep Learningを活用した都市の”形態学”

society

2017

Paper
創造性をどう評価するか – A Machine Learning Approach for Evaluating Creative Artifacts創造性をどう評価するか – A Machine Learning Approach for Evaluating Creative Artifacts
📄
創造性をどう評価するか – A Machine Learning Approach for Evaluating Creative Artifacts

「人間の創造性をどのように評価、定量化するか」という大きな問題に取り組んでいる

September 16, 2017

A Machine Learning Approach for Evaluating Creative Artifacts

art

2017

Paper
音楽の特徴に基づいたダンスの動きのリアルタイム生成 – GrooveNet: Real-Time Music-Driven Dance Movement Generation using Artificial Neural Networks音楽の特徴に基づいたダンスの動きのリアルタイム生成 – GrooveNet: Real-Time Music-Driven Dance Movement Generation using Artificial Neural Networks
📄
音楽の特徴に基づいたダンスの動きのリアルタイム生成 – GrooveNet: Real-Time Music-Driven Dance Movement Generation using Artificial Neural Networks

音楽の特徴に基づいたダンスの動きのリアルタイム生成

August 23, 2017

GrooveNet: Real-Time Music-Driven Dance Movement Generation using Artificial Neural Networks

musiccross-modal

2017

Paper
グラフィックデザインにおける各要素の重要性を可視化 – Learning Visual Importance for Graphic Designs and Data Visualizationsグラフィックデザインにおける各要素の重要性を可視化 – Learning Visual Importance for Graphic Designs and Data Visualizations
📄
グラフィックデザインにおける各要素の重要性を可視化 – Learning Visual Importance for Graphic Designs and Data Visualizations

グラフィックデザインにおける各要素の重要性を可視化

August 8, 2017

グラフィックデザインにおける各要素の重要性を可視化 – Learning Visual Importance for Graphic Designs and Data Visualizations

image

2017

Paper
衛星写真から住民の所得を推定 – Penny, an AI to predict wealth from space衛星写真から住民の所得を推定 – Penny, an AI to predict wealth from space
👨‍👩‍👦
衛星写真から住民の所得を推定 – Penny, an AI to predict wealth from space

衛星写真から住民の所得を推定

August 6, 2017

衛星写真から住民の所得を推定 – Penny, an AI to predict wealth from space

2017

Project
衛星写真から住民の所得を推定 – Penny, an AI to predict wealth from space衛星写真から住民の所得を推定 – Penny, an AI to predict wealth from space
⚒️
衛星写真から住民の所得を推定 – Penny, an AI to predict wealth from space
August 6, 2017

Penny, an AI to predict wealth from space

imagesociety

2017

demo
料理の写真 ↔︎ 材料とレシピ – Learning Cross-modal Embeddings for Cooking Recipes and Food Images料理の写真 ↔︎ 材料とレシピ – Learning Cross-modal Embeddings for Cooking Recipes and Food Images
👨‍👩‍👦
料理の写真 ↔︎ 材料とレシピ – Learning Cross-modal Embeddings for Cooking Recipes and Food Images

料理の写真 ↔︎ 材料とレシピ

July 25, 2017

Learning Cross-modal Embeddings for Cooking Recipes and Food Images

imageNLPcross-modal

2017

Project
動植物の画像データセット – The iNaturalist Challenge 2017 Dataset動植物の画像データセット – The iNaturalist Challenge 2017 Dataset
💾
動植物の画像データセット – The iNaturalist Challenge 2017 Dataset
July 23, 2017

The iNaturalist Challenge 2017 Dataset

visual

2017

Dataset
GANで音楽生成 – MidiNet: A Convolutional Generative Adversarial Network for Symbolic-domain Music Generation using 1D and 2D ConditionsGANで音楽生成 – MidiNet: A Convolutional Generative Adversarial Network for Symbolic-domain Music Generation using 1D and 2D Conditions
📄
GANで音楽生成 – MidiNet: A Convolutional Generative Adversarial Network for Symbolic-domain Music Generation using 1D and 2D Conditions

GANで音楽生成

July 9, 2017

Yang, Li-Chia, Szu-Yu Chou, and Yi-Hsuan Yang. "Midinet: A convolutional generative adversarial network for symbolic-domain music generation." arXiv preprint arXiv:1703.10847 (2017).

music

2017

Paper
機械学習による、「演奏」の学習 – Performance RNN: Generating Music with Expressive Timing and Dynamics –機械学習による、「演奏」の学習
 – Performance RNN: Generating Music with Expressive Timing and Dynamics –
👨‍👩‍👦
機械学習による、「演奏」の学習 – Performance RNN: Generating Music with Expressive Timing and Dynamics –
July 1, 2017

Performance RNN: Generating Music with Expressive Timing and Dynamics

musicsoundperformance

2017

demo
過去の作品を学習することで本当に新しい作品が作れるのか?? – CAN: Creative Adversarial Networks Generating “Art” by Learning About Styles and Deviating from Style Norms過去の作品を学習することで本当に新しい作品が作れるのか?? – CAN: Creative Adversarial Networks Generating “Art” by Learning About Styles and Deviating from Style Norms
📄
過去の作品を学習することで本当に新しい作品が作れるのか?? – CAN: Creative Adversarial Networks Generating “Art” by Learning About Styles and Deviating from Style Norms
June 29, 2017

CAN: Creative Adversarial Networks Generating “Art” by Learning About Styles and Deviating from Style Norms

GANartvisual

2017

Paper
人工知能の力を借り、3Dモデルを共作する – Interactive 3D Modeling with a Generative Adversarial Network –人工知能の力を借り、3Dモデルを共作する – Interactive 3D Modeling with a Generative Adversarial Network –
📄
人工知能の力を借り、3Dモデルを共作する – Interactive 3D Modeling with a Generative Adversarial Network –
June 25, 2017

Interactive 3D Modeling with a Generative Adversarial Network

visualGAN

2017

demo
ウィットに富んだキャプション生成 – Punny Captions: WittyWordplay in Image Descriptionsウィットに富んだキャプション生成 – Punny Captions: WittyWordplay in Image Descriptions
📄
ウィットに富んだキャプション生成 – Punny Captions: WittyWordplay in Image Descriptions
June 19, 2017

Chandrasekaran, Arjun, Devi Parikh, and Mohit Bansal. "Punny captions: Witty wordplay in image descriptions." arXiv preprint arXiv:1704.08224 (2017).

image

2017

Paper
進化の仕組みを応用した音楽ツール – Musical Novelty Search – Evolutionary Algorithms + Ableton Live進化の仕組みを応用した音楽ツール – Musical Novelty Search – Evolutionary Algorithms + Ableton Live
⚒️
進化の仕組みを応用した音楽ツール – Musical Novelty Search – Evolutionary Algorithms + Ableton Live
June 9, 2017

Musical Novelty Search – Evolutionary Algorithms + Ableton Live

musicperformance

2017

Tool
服を着ている人の画像を生成 – A Generative Model of People in Clothing服を着ている人の画像を生成 – A Generative Model of People in Clothing
📄
服を着ている人の画像を生成 – A Generative Model of People in Clothing
May 31, 2017
image

2017

Paper
画像⇆音の生成 – Deep Cross-Modal Audio-Visual GenerationDeep Cross-Modal Audio-Visual Generation画像⇆音の生成 – Deep Cross-Modal Audio-Visual GenerationDeep Cross-Modal Audio-Visual Generation
📄
画像⇆音の生成 – Deep Cross-Modal Audio-Visual GenerationDeep Cross-Modal Audio-Visual Generation
May 14, 2017

Deep Cross-Modal Audio-Visual Generation

visualsound

2017

Paper
連想の学習 – See, Hear, and Read: Deep Aligned Representations連想の学習 – See, Hear, and Read: Deep Aligned Representations
📄
連想の学習 – See, Hear, and Read: Deep Aligned Representations
May 7, 2017

See, Hear, and Read: Deep Aligned Representations

cross-modal

2017

Paper
車載カメラ画像データセット – Mapillary Vistas Dataset車載カメラ画像データセット – Mapillary Vistas Dataset
💾
車載カメラ画像データセット – Mapillary Vistas Dataset
May 4, 2017

Mapillary Vistas Dataset

visual

2017

Dataset
適切なフォントの組み合わせを生成 – Fontjoy適切なフォントの組み合わせを生成 – Fontjoy
📄
適切なフォントの組み合わせを生成 – Fontjoy

適切なフォントの組み合わせを生成 – Fontjoy

April 30, 2017

適切なフォントの組み合わせを生成 – Fontjoy

visual

2017

demo
未来を予測して動画を生成 – Generating Videos with Scene Dynamics –未来を予測して動画を生成 – Generating Videos with Scene Dynamics –
👨‍👩‍👦
未来を予測して動画を生成 – Generating Videos with Scene Dynamics –
April 30, 2017

Generating Videos with Scene Dynamics

visualimage

2017

Project
声質をコピーする音声合成システム – Lyrebird声質をコピーする音声合成システム – Lyrebird
⚒️
声質をコピーする音声合成システム – Lyrebird
April 27, 2017

Lyrebird

musicsound

2017

Tool
一枚の写真からその後の人の動きを予測 – Forecasting Human Dynamics from Static Images一枚の写真からその後の人の動きを予測 – Forecasting Human Dynamics from Static Images
📄
一枚の写真からその後の人の動きを予測 – Forecasting Human Dynamics from Static Images
April 25, 2017

Forecasting Human Dynamics from Static Images

visualimageperformance

2017

Paper
いろいろなGANまとめいろいろなGANまとめ
💾
いろいろなGANまとめ
April 24, 2017

いろいろなGANまとめ

2017

Dataset
AIを言葉でナビして学習 – Beating Atari with Natural Language Guided Reinforcement LearningAIを言葉でナビして学習 – Beating Atari with Natural Language Guided Reinforcement Learning
👨‍👩‍👦
AIを言葉でナビして学習 – Beating Atari with Natural Language Guided Reinforcement Learning

AIを言葉でナビして学習 – Beating Atari with Natural Language Guided Reinforcement Learning

April 23, 2017

AIを言葉でナビして学習 – Beating Atari with Natural Language Guided Reinforcement Learning

NLP

2017

Paper
横顔から正面から見た顔を生成 – Beyond Face Rotation: Global and Local Perception GAN for Photorealistic and Identity Preserving Frontal View Synthesis横顔から正面から見た顔を生成 – Beyond Face Rotation: Global and Local Perception GAN for Photorealistic and Identity Preserving Frontal View Synthesis
📄
横顔から正面から見た顔を生成 – Beyond Face Rotation: Global and Local Perception GAN for Photorealistic and Identity Preserving Frontal View Synthesis
April 18, 2017

Beyond Face Rotation: Global and Local Perception GAN for Photorealistic and Identity Preserving Frontal View Synthesis

GANvisual

2017

Paper
絵を「描く」プロセスの模倣 – A Neural Representation of Sketch Drawings絵を「描く」プロセスの模倣 – A Neural Representation of Sketch Drawings
📄
絵を「描く」プロセスの模倣 – A Neural Representation of Sketch Drawings

絵を「描く」プロセスの模倣 – A Neural Representation of Sketch Drawings

April 15, 2017

絵を「描く」プロセスの模倣 – A Neural Representation of Sketch Drawings

image

2017

Paper
目線をあやつる – Gaze Warping目線をあやつる – Gaze Warping
📄
目線をあやつる – Gaze Warping

目線をあやつる – Gaze Warping

April 7, 2017

目線をあやつる – Gaze Warping

image

2017

Web Site
機械学習を用いたドラムマシン – The Infinite Drum Machine : Thousands of everyday sounds, organized using machine learning.機械学習を用いたドラムマシン – The Infinite Drum Machine : Thousands of everyday sounds, organized using machine learning.
👨‍👩‍👦
機械学習を用いたドラムマシン – The Infinite Drum Machine : Thousands of everyday sounds, organized using machine learning.
April 7, 2017

The Infinite Drum Machine : Thousands of everyday sounds, organized using machine learning

musicvisualsound

2017

Project
見えない体を見る. 一人称視点の映像からカメラをつけている人の姿勢を推定. – Seeing Invisible Poses: Estimating 3D Body Pose from Egocentric Video見えない体を見る. 一人称視点の映像からカメラをつけている人の姿勢を推定. – Seeing Invisible Poses: Estimating 3D Body Pose from Egocentric Video
📄
見えない体を見る. 一人称視点の映像からカメラをつけている人の姿勢を推定. – Seeing Invisible Poses: Estimating 3D Body Pose from Egocentric Video
April 6, 2017

Seeing Invisible Poses: Estimating 3D Body Pose from Egocentric Video

visualimage

2017

Paper
Attributesによる画像の美しさ判定 – Photo Aesthetics Ranking Network with Attributes and Content AdaptationAttributesによる画像の美しさ判定 – Photo Aesthetics Ranking Network with Attributes and Content Adaptation
📄
Attributesによる画像の美しさ判定 – Photo Aesthetics Ranking Network with Attributes and Content Adaptation
April 4, 2017

Photo Aesthetics Ranking Network with Attributes and Content Adaptation

visualimage

2017

Paper
ピクセルではなくベクターで画像を生成ピクセルではなくベクターで画像を生成
📄
ピクセルではなくベクターで画像を生成

ピクセルではなく、ベクターで画像を生成する。

April 4, 2017

ピクセルではなく、ベクターで画像を生成する。

image

2016

Web Site
転移学習(Transfer Learning)概論転移学習(Transfer Learning)概論
👨‍👩‍👦
転移学習(Transfer Learning)概論

Transfer Learning - Machine Learning's Next Frontier

April 4, 2017

Transfer Learning - Machine Learning's Next Frontier

theory

2017

Web Site
一枚の写真からヘアスタイル全体が分かる技術 – AutoHair: Fully Automatic Hair Modeling from A Single Image一枚の写真からヘアスタイル全体が分かる技術 – AutoHair: Fully Automatic Hair Modeling from A Single Image
📄
一枚の写真からヘアスタイル全体が分かる技術 – AutoHair: Fully Automatic Hair Modeling from A Single Image
April 2, 2017

AutoHair: Fully Automatic Hair Modeling from A Single Image

image

2017

Paper
CycleGAN 対訳がなくても画像を翻訳(変換) – Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial NetworksCycleGAN 対訳がなくても画像を翻訳(変換) – Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks
📄
CycleGAN 対訳がなくても画像を翻訳(変換) – Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks
April 1, 2017

Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks

visualimage

2017

Project
ストリートビューの画像の解析による人口統計調査 – Using Deep Learning and Google Street View to Estimate the Demographic Makeup of the USストリートビューの画像の解析による人口統計調査 – Using Deep Learning and Google Street View to Estimate the Demographic Makeup of the US
📄
ストリートビューの画像の解析による人口統計調査 – Using Deep Learning and Google Street View to Estimate the Demographic Makeup of the US
March 31, 2017

Using Deep Learning and Google Street View to Estimate the Demographic Makeup of the US

visualimage

2017

Paper
GANによるカラーパレットの生成 – ColormindGANによるカラーパレットの生成 – Colormind
👨‍👩‍👦
GANによるカラーパレットの生成 – Colormind
March 30, 2017

Colormind

artimageGAN

2017

Web Site
AIで表現するとは?壮大なデジタルの歴史から紐解く、その可能性についてAIで表現するとは?壮大なデジタルの歴史から紐解く、その可能性について
👨‍👩‍👦
AIで表現するとは?壮大なデジタルの歴史から紐解く、その可能性について
March 29, 2017

AIで表現するとは?壮大なデジタルの歴史から紐解く、その可能性について

GANart

2017

Journal
ファッション・トレンドの解析. 東京は… – Changing Fashion Culturesファッション・トレンドの解析. 東京は… – Changing Fashion Cultures
📄
ファッション・トレンドの解析. 東京は… – Changing Fashion Cultures
March 29, 2017

Changing Fashion Cultures

visualart

2017

Paper
ファッション・トレンドの解析. 東京は… – Changing Fashion Culturesファッション・トレンドの解析. 東京は… – Changing Fashion Cultures
📄
ファッション・トレンドの解析. 東京は… – Changing Fashion Cultures

ファッションの地理的および時系列的なトレンドをスナップ写真から解析するプロジェクト.

March 29, 2017

Abe, Kaori, et al., "Changing fashion cultures." arXiv preprint arXiv:1703.07920, (2017)

image

2017

Paper
CNNとLSTMでダンスダンスレボリューションのステップ譜を生成 – Dance Dance ConvolutionCNNとLSTMでダンスダンスレボリューションのステップ譜を生成 – Dance Dance Convolution
📄
CNNとLSTMでダンスダンスレボリューションのステップ譜を生成 – Dance Dance Convolution

CNNとLSTMでダンスダンスレボリューションのステップ譜

March 27, 2017

DONAHUE, Chris; LIPTON, Zachary C.; MCAULEY, Julian, "Dance dance convolution. In: International conference on machine learning", PMLR, pp. 1039-1048, (2017)

music

2017

Paper
人気があるから綺麗とは限らない!? – An Image is Worth More than a Thousand Favorites: Surfacing the Hidden Beauty of Flickr Pictures人気があるから綺麗とは限らない!? – An Image is Worth More than a Thousand Favorites: Surfacing the Hidden Beauty of Flickr Pictures
📄
人気があるから綺麗とは限らない!? – An Image is Worth More than a Thousand Favorites: Surfacing the Hidden Beauty of Flickr Pictures
March 27, 2017

Schifanella, Rossano, Miriam Redi, and Luca Maria Aiello, "An image is worth more than a thousand favorites: Surfacing the hidden beauty of flickr pictures.", Ninth International AAAI Conference on Web and Social Media, (2015)

image

2015

Paper
200万ものサウンド・クリップのデータセット – AudioSet200万ものサウンド・クリップのデータセット – AudioSet
💾
200万ものサウンド・クリップのデータセット – AudioSet
March 26, 2017

AudioSet

soundmusic

2017

Dataset
ジョークを集めたデータセット – Collection of over 200,000 short jokes for humour researchジョークを集めたデータセット – Collection of over 200,000 short jokes for humour research
💾
ジョークを集めたデータセット – Collection of over 200,000 short jokes for humour research
March 26, 2017

Collection of over 200,000 short jokes for humour research

society

2017

Dataset
fMRIの脳の反応を機械学習に利用 ?!? – Using human brain activity to guide machine learningfMRIの脳の反応を機械学習に利用 ?!? – Using human brain activity to guide machine learning
📄
fMRIの脳の反応を機械学習に利用 ?!? – Using human brain activity to guide machine learning
March 25, 2017

Using human brain activity to guide machine learning

essential

2017

Paper
写真のStyle Transfer- Deep Photo Style Transfer写真のStyle Transfer- Deep Photo Style Transfer
📄
写真のStyle Transfer- Deep Photo Style Transfer
March 25, 2017

Deep Photo Style Transfer

visualimage

2017

Paper
論文からポスターを自動生成 – Learning to Generate Posters of Scientific Papers論文からポスターを自動生成 – Learning to Generate Posters of Scientific Papers
📄
論文からポスターを自動生成 – Learning to Generate Posters of Scientific Papers
March 25, 2017

Learning to Generate Posters of Scientific Papers

image

2017

Paper
輪郭/物体抽出の新スタンダードになるか? – Mask R-CNN輪郭/物体抽出の新スタンダードになるか? – Mask R-CNN
📄
輪郭/物体抽出の新スタンダードになるか? – Mask R-CNN

Faster-RCNNの拡張. ひとつのモデルで最小限の変更で物体検出、輪郭検出、人の姿勢の検出を高い精度で行う.

March 23, 2017

HE, Kaiming, et al., "Mask r-cnn", Proceedings of the IEEE international conference on computer vision, pp. 2961-2969, (2017)

image

2017

Paper
目が回ります – DeepWarp: Photorealistic Image Resynthesis for Gaze Manipulation目が回ります – DeepWarp: Photorealistic Image Resynthesis for Gaze Manipulation
👨‍👩‍👦
目が回ります – DeepWarp: Photorealistic Image Resynthesis for Gaze Manipulation
March 19, 2017

DeepWarp: Photorealistic Image Resynthesis for Gaze Manipulation

visual

2017

demo
DeepDreamを用いたのドローイングツール- DreamCanvasDeepDreamを用いたのドローイングツール- DreamCanvas
📄
DeepDreamを用いたのドローイングツール- DreamCanvas

DeepDreamを用いたのドローイングツール- DreamCanvas

March 15, 2017

DeepDreamを用いたのドローイングツール- DreamCanvas

visual

2017

demo
GANを応用したSANによるSaliency Map(顕著性マップ)の生成 – Supervised Adversarial Networks for Image Saliency Detection –GANを応用したSANによるSaliency Map(顕著性マップ)の生成 – Supervised Adversarial Networks for Image Saliency Detection –
📄
GANを応用したSANによるSaliency Map(顕著性マップ)の生成 – Supervised Adversarial Networks for Image Saliency Detection –

GANを応用したSANによるSaliency Map(顕著性マップ)の生成

March 15, 2017

GANを応用したSANによるSaliency Map(顕著性マップ)の生成 – Supervised Adversarial Networks for Image Saliency Detection –

GAN

2017

Paper
機械学習を用いたドローイングツール – AutoDraw機械学習を用いたドローイングツール – AutoDraw
📄
機械学習を用いたドローイングツール – AutoDraw

機械学習を用いたドローイングツール – AutoDraw

March 15, 2017

機械学習を用いたドローイングツール – AutoDraw

GANimage

2017

Paper
ちょっとしたノイズを加えると…あら不思議 – Adversarial examples in the physical worldちょっとしたノイズを加えると…あら不思議 – Adversarial examples in the physical world
📄
ちょっとしたノイズを加えると…あら不思議 – Adversarial examples in the physical world
March 15, 2017

Domenech, Arnau Pons, and Hartmut Ruhl. "An implicit ODE-based numerical solver for the simulation of the Heisenberg-Euler equations in 3+ 1 dimensions." arXiv preprint arXiv:1607.00253 (2016).

image

2016

Paper
Web MIDIでMagentaとセッション – Magenta SessionWeb MIDIでMagentaとセッション – Magenta Session
👨‍👩‍👦
Web MIDIでMagentaとセッション – Magenta Session
March 15, 2017

magenta session

music

2017

demo
CRNNで鳥の声の識別 – Convolutional Recurrent Neural Networks for Bird Audio DetectionCRNNで鳥の声の識別 – Convolutional Recurrent Neural Networks for Bird Audio Detection
📄
CRNNで鳥の声の識別 – Convolutional Recurrent Neural Networks for Bird Audio Detection
March 13, 2017

Convolutional Recurrent Neural Networks for Bird Audio Detection

sound

2017

Paper
顔写真から肥満度を推定 – Face-to-BMI: Using Computer Vision to Infer Body Mass Index on Social Media顔写真から肥満度を推定 – Face-to-BMI: Using Computer Vision to Infer Body Mass Index on Social Media
📄
顔写真から肥満度を推定 – Face-to-BMI: Using Computer Vision to Infer Body Mass Index on Social Media
March 12, 2017

Face-to-BMI: Using Computer Vision to Infer Body Mass Index on Social Media

2017

Paper
RobotArt – the Robot Art competitionRobotArt – the Robot Art competition
📄
RobotArt – the Robot Art competition

the Robot Art competition

March 11, 2017

RobotArt – the Robot Art competition

image

2017

Web Site
ファッション写真のデータセット – Large-scale Fashion (DeepFashion) Databaseファッション写真のデータセット – Large-scale Fashion (DeepFashion) Database
💾
ファッション写真のデータセット – Large-scale Fashion (DeepFashion) Database
March 10, 2017

ファッション写真のデータセット – Large-scale Fashion (DeepFashion) Database

image

2016

Dataset
日々のニュース写真から似通った作品を検索(テートギャラリー) – Recognition Tate日々のニュース写真から似通った作品を検索(テートギャラリー) – Recognition Tate
👨‍👩‍👦
日々のニュース写真から似通った作品を検索(テートギャラリー) – Recognition Tate

日々のニュース写真から似通った作品を検索

March 8, 2017

日々のニュース写真から似通った作品を検索

society

2017

Project
ビデオのフレーム補間 – Video Frame Synthesis using Deep Voxel Flビデオのフレーム補間 – Video Frame Synthesis using Deep Voxel Fl
📄
ビデオのフレーム補間 – Video Frame Synthesis using Deep Voxel Fl
February 11, 2017

LIU, Ziwei, et al., "Video frame synthesis using deep voxel flow", Proceedings of the IEEE International Conference on Computer Vision, pp. 4463-4471, (2017)

image

2017

Paper
音源分離 – Deep Clustering and Conventional Networks for Music Separation: Stronger Together音源分離 – Deep Clustering and Conventional Networks for Music Separation: Stronger Together
📄
音源分離 – Deep Clustering and Conventional Networks for Music Separation: Stronger Together
February 10, 2017

Deep Clustering and Conventional Networks for Music Separation: Stronger Together

music

2016

Paper
フォントのStyle Transfer? – Awesome Typography: Statistics-Based Text Effects TransferフォントのStyle Transfer? – Awesome Typography: Statistics-Based Text Effects Transfer
📄
フォントのStyle Transfer? – Awesome Typography: Statistics-Based Text Effects Transfer
February 5, 2017

YANG, Shuai, et al. "Awesome typography: Statistics-based text effects transfer", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp.7464-7473, (2017)

visualimage

2017

Paper
パラレルコーパスデータ集 : OPUS – the open parallel corpusパラレルコーパスデータ集 : OPUS – the open parallel corpus
💾
パラレルコーパスデータ集 : OPUS – the open parallel corpus
January 30, 2017

OPUS – the open parallel corpus

list

2017

Dataset
food2vec – Augmented cooking with machine intelligencefood2vec – Augmented cooking with machine intelligence
👨‍👩‍👦
food2vec – Augmented cooking with machine intelligence
January 27, 2017

food2vec – Augmented cooking with machine intelligence

essential

2017

demo
food2vec – Augmented cooking with machine intelligencefood2vec – Augmented cooking with machine intelligence
👨‍👩‍👦
food2vec – Augmented cooking with machine intelligence
January 27, 2017

food2vec – Augmented cooking with machine intelligence

NLP

2016

demo
Learning to Draw: Generating Icons and HieroglyphsLearning to Draw: Generating Icons and Hieroglyphs
👨‍👩‍👦
Learning to Draw: Generating Icons and Hieroglyphs
January 25, 2017

Learning to Draw: Generating Icons and Hieroglyphs

artimage

2017

demo
How many animals can one find in a random image?How many animals can one find in a random image?
👨‍👩‍👦
How many animals can one find in a random image?
January 23, 2017

How many animals can one find in a random image?

artimage

2017

Project
AENet: Learning Deep Audio Features for Video AnalysisAENet: Learning Deep Audio Features for Video Analysis
📄
AENet: Learning Deep Audio Features for Video Analysis
January 20, 2017

AENet: Learning Deep Audio Features for Video Analysis

visualmusic

2017

Paper
T-SNE MAP – Google Arts and Culture ExperimentsT-SNE MAP – Google Arts and Culture Experiments
👨‍👩‍👦
T-SNE MAP – Google Arts and Culture Experiments
January 13, 2017

T-SNE MAP – Google Arts and Culture Experiments

performancevisual

2016

Project
Learning to Protect Communications with Adversarial Neural CryptographyLearning to Protect Communications with Adversarial Neural Cryptography
📄
Learning to Protect Communications with Adversarial Neural Cryptography
January 8, 2017

Abadi, Martín, and David G. Andersen. "Learning to protect communications with adversarial neural cryptography." arXiv preprint arXiv:1610.06918 (2016)

GAN

2016

Paper
ドキュメンタリー – The Automation of Creativity: How man & AI will work together to improve the ad industryドキュメンタリー – The Automation of Creativity: How man & AI will work together to improve the ad industry
👨‍👩‍👦
ドキュメンタリー – The Automation of Creativity: How man & AI will work together to improve the ad industry
January 2, 2017

The Automation of Creativity: How man & AI will work together to improve the ad industry

society

2017

Journal
ドキュメンタリー – The Automation of Creativity: How man & AI will work together to improve the ad industryドキュメンタリー – The Automation of Creativity: How man & AI will work together to improve the ad industry
ドキュメンタリー – The Automation of Creativity: How man & AI will work together to improve the ad industry
January 2, 2017

ドキュメンタリー – The Automation of Creativity: How man & AI will work together to improve the ad industry

performance

2016

demo
Pix2Pixを使った風景画像の生成 – Imaginary landscapes using pix2pixPix2Pixを使った風景画像の生成 – Imaginary landscapes using pix2pix
👨‍👩‍👦
Pix2Pixを使った風景画像の生成 – Imaginary landscapes using pix2pix
January 2, 2017

Imaginary landscapes using pix2pix

2016

Project
クリエイティブ ・チューリングテスト- Turing Tests in the Creative Artsクリエイティブ ・チューリングテスト- Turing Tests in the Creative Arts
👨‍👩‍👦
クリエイティブ ・チューリングテスト- Turing Tests in the Creative Arts
December 23, 2016
art

2016

Project
The Lakh MIDI Dataset v0.1The Lakh MIDI Dataset v0.1
👨‍👩‍👦
The Lakh MIDI Dataset v0.1
December 22, 2016

The Lakh MIDI Dataset v0.1

musicsound

2016

Dataset
DeepBach: a Steerable Model for Bach chorales generation by Gaëtan Hadjeres, François PachetDeepBach: a Steerable Model for Bach chorales generation by Gaëtan Hadjeres, François Pachet
📄
DeepBach: a Steerable Model for Bach chorales generation by Gaëtan Hadjeres, François Pachet
December 19, 2016

Hadjeres, Gaëtan, François Pachet, and Frank Nielsen, "Deepbach: a steerable model for bach chorales generation.", International Conference on Machine Learning. PMLR, (2017)

music

2017

Paper
Unsupervised Learning of 3D Structure from ImagesUnsupervised Learning of 3D Structure from Images
📄
Unsupervised Learning of 3D Structure from Images
December 6, 2016

Unsupervised Learning of 3D Structure from Images

visualimage

2016

Paper
SoundNet: Learning Sound Representations from Unlabeled VideoSoundNet: Learning Sound Representations from Unlabeled Video
📄
SoundNet: Learning Sound Representations from Unlabeled Video
December 5, 2016

Aytar, Yusuf, Carl Vondrick, and Antonio Torralba, "Soundnet: Learning sound representations from unlabeled video.", Advances in neural information processing systems 29, pp892-900 (2016)

musicsound

2016

Paper
MIDIの演奏に強弱をつけてより自然に! – Neural Translation of Musical StyleMIDIの演奏に強弱をつけてより自然に! – Neural Translation of Musical Style
📄
MIDIの演奏に強弱をつけてより自然に! – Neural Translation of Musical Style
June 6, 2015

Malik, Iman, and Carl Henrik Ek. "Neural translation of musical style." arXiv preprint arXiv:1708.03535 (2017).

musictheory

2017

Paper
変化し続ける架空の人物ポートレート – Portraits of Imaginary People変化し続ける架空の人物ポートレート – Portraits of Imaginary People
👨‍👩‍👦
変化し続ける架空の人物ポートレート – Portraits of Imaginary People

Portraits of Imaginary People

Project
Self-Supervised VQ-VAE for One-Shot Music Style Transfer
📄
Self-Supervised VQ-VAE for One-Shot Music Style Transfer
musicsound

2021

Paper
Music transformer: Generating music with long-term structure
📄
Music transformer: Generating music with long-term structure
music

2018

Paper
💾References: AICreate with AI: AllCreate with AI: AboutCreate with AI: PaperCreate with AI: ProjectCreate with AI: ToolCreate with AI: DatasetFooterTag: artTag: NLPTag: musicTag: theoryTag: soundTag: listTag: GANTag: visualTag: djTag: NLPTag: essentialTag: ethicsTag: cross-modalTag: imageTag: societyTag: performance
<!-- Typekit: Update the link below with your Typekit ID -->
<link rel="stylesheet" href="https://use.typekit.net/gnx8fcu.css">

<!-- Add your analytics script here -->
<!-- I use Fathom, it’s a great alternative to Google Analytics with a minimal dashboard and a focus on privacy. Please consider using my referral link when creating an account: https://usefathom.com/ref/CSKBJR -->

<!-- Favicon: Having a custom nav breaks the Favicon that you can upload in the Super settings. To change it, update the link here -->
<link rel="icon" href="https://s3.amazonaws.com/super-notion/images/8a28f49c-9631-4450-89f2-b87a3a60099e.png">

<!-- Meta Description: Having a custom nav breaks the site description that you can edit in the Super settings. To change it, update the text here -->
<meta property="og:description" content="Cy, a minimal portfolio template built on Notion and powered by Super.">

<!-- Share image: Having a custom nav breaks the site share image that you can edit in the Super settings. To change it, update the url and the alt description below -->
<meta property="og:image" content="https://s3.amazonaws.com/super-notion/images/ca38c918-dbcb-4cdf-ae61-35a0f6415764.jpg">
<meta property="og:image:alt" content="Screenshot of the Cy demo site">

<!--- Cy template styles -->
<link rel="stylesheet" href="https://iamsamsmall.github.io/cy/style.css">

<!-- Add your own custom overrides here -->
<style>

</style>
<!-- End of custom overrides -->

<!-- Navigation -->
<nav class="nav">
  <div class="left">
    <a class="nav-link" href="/">Cy</a>
  </div>
  <div class="right">
    <a class="nav-link" href="/projects">Projects</a>
    <a class="nav-link" href="/about">About</a>
    <a class="nav-link" href="/writing">Writing</a>
  </div>
</nav>