(Personal Memo) Musimathics

Volume 1: Musical Elements

image

Errata:

  • Scale, Pitch ...
    • ユニゾン unison
      • 同じピッチ
    • ピッチ
      • 伝統的な楽器は 27Hz-4000Hz の間の音を出す p16
      • あまりにピッチの感覚が狭いと識別できない -> 西洋音楽では90ほどのピッチ
    • Scale スケール
      • ordered set of pitches
      • オクターブが違っても同じ度数のピッチは同じ役割 -> オクターブ内で名前をつける
      • Gamut 全音域
        • ある楽器で出せる全音域
    • Diatonic scale 全音階
      • C, D, E,F, G, A, Bの7度
      • 全音階 whole stepと半音階 half step がある
      • 音程 2 (whole step) 1 (half step)で表すと
        • {2, 2, 1, 2, 2, 2, 1} となる - 楽譜の上ではわからない
        • image
        • この非対称性が重要. 曲の(音程の)中で位置を知ることに役立つ
    • Sonorities 鳴り方
      • Perfect / Major / Minor / Diminished / Augmented
      • Major scale - diatonic scale
      • Minor Scale - diatonic と同じ並びだが 6番目のピッチからスタートしたときのインターバルの並びと同じ
        • {2, 1, 2, 2, 1, 2, 2}
          • {2, 2, 1 , 2, 2, 2, 1, 2, 2, 1, 2, 2 , 2, 1 ...} のmajor scaleのスタートが二つ前にズレた
          • image
      • Mode モード
        • 1,6以外からスタート
        • image
        • それぞれのキーからスタートして白鍵だけ叩けばそのモードになる
    • Chromatic Scale 半音階
      • ♯ ♭で半音階を表現 (臨時記号)
      • A♯とB♭は同じピッチ どちらでもいい
    • Transpose
      • C以外の度 (= キー)からスタートすると transposed 転調
      • key signature 調号 を見ると マイナーならこのキー、メジャーならこのキーに転調されているというのがわかる
      • image

      • その他のスケール
        • diatonic / choromaticはありうるインターバルのうちの選択肢でしかない
        • Pentatonic Scale - インターバル {2, 3, 2, 2, 3} ピアノの黒鍵だけを選ぶとペンタトニックに!
          • Cからスタートしてfifthとfourthの関係で作られる
          • image
          • 25/12=1.3348...4/32^{5/12} = 1.3348... \approx 4/3 fourthの関係
          • 27/12=1.4983...3/22^{7/12} = 1.4983... \approx 3/2 fifthの関係
          • 単純な整数比に非常に近い!
        • whole-tone scale 全音音階 {2, 2, 2, 2, 2, 2}
          • 対称性が特徴 - 調整の感覚をぼかすのに使われる
      • 音色
        1. image
        2. Partials 部分音が整数比の時 harmonics 倍音 高調波
          • ドラムなどは inharmonics
        3. 基音 fundamental は 楽器のresonance 共鳴音が生み出す
    • Pythagorean Scale ピタゴラス音律
      1. image
      2. fifth と fourthの関係から構成される - fifthのみで作れる
      3. image
      4. ピッチの間隔がバラバラで転調できない
  • 音量 - Decibel
    • log10lhth=log10100 W/m21012 W/m2=12 bel. \log _{10} \frac{l_{h}}{t_{h}}=\log _{10} \frac{10^{0} \mathrm{~W} / \mathrm{m}^{2}}{10^{-12} \mathrm{~W} / \mathrm{m}^{2}}=12 \text { bel. }
      • 人が感じられる最小の音と痛みを感じるレベルの音の音圧の差は 101210^{12} 程度の差
      • log10log_{10}をとって bel という単位に
        • 12ベルの範囲では狭すぎるので 10をかけて 0-120 decibel (dB)で表現する!
    • 10log10lhth=10log10100 W/m21012 W/m2=120 dB10 \log _{10} \frac{l_{h}}{t_{h}}=10 \log _{10} \frac{10^{0} \mathrm{~W} / \mathrm{m}^{2}}{10^{-12} \mathrm{~W} / \mathrm{m}^{2}}=120 \mathrm{~dB}
    • 例えば、二倍の強度は 10log102/1=10(log102log101)=10(0.3010..0)=3.010..0log_{10}{2/1} = 10(log_{10}2 - log_{10}1 ) = 10 * (0.3010.. - 0) = 3.010..
  • 近接効果 proximity effect
    • 音源にマイクが近いと特に高周波の場合、マイクの表面に対して波面の広がりのカーブが強く、波形の音圧が高いところと低いところが打ち消しあうことになる。遠くになると影響が減る。
    • 音源に近いほど、高音が弱まりソフトな音になる
    • image
  • Pitch
    • 主に周波数によって影響を受ける、位相は概ね無視される
    • fantom pitch.maxpat
    • 300Hz, 400Hz, 500Hzの音を聞くと最大公約数の100Hzの音が基音として聞こえる
      • 小さいスピーカーでもそれなりになっているように感じるのは低音を知覚(脳)が補完するため
    • 30Hz以下の音はピッチを感じにくい
    • 1kH - 4kHzが一番センシティブ = 話し言葉のレンジ
  • 知覚
    • ヴェーバーの法則
      • ΔII=k\frac{\Delta I}{I}= k Δ{\Delta}は知覚の差を感じられる最小の差異 kk は定数
    • ヴェーバー-フェヒナーの法則
      • ΨlogΦ=k\frac{\Psi}{\log \Phi}=k 知覚される感覚量 Ψ\Psi は刺激量 Φ\Phiの対数の比は一定
      image
    • tone height / chroma
      • 6thと7thだと7thの方が距離が遠いのに、クロマ的には近くなる - 下がっているようにも聞こえる
      • Shepard Scale Illusion http://www.fallingfalling.com/
    • Loudness
      • intensityへの知覚的な反応
      • オクターブのような明確な構造がない
      • 周波数帯とIntensityに依存してJND (Just Noticeable Difference)は異なる
        • phon -異なる周波数で同じラウドネスを感じる
        • sone - 同じ周波数での感じるラウドネスの違い
      • phon
      • image
      • sone
        1. Ls=2(Lp40)/10L_{s}=2^{\left(L_{p}-40\right) / 10}
        2. LsL_{s}はsoneスケールのラウドネス LpL_{p}は phon
        3. Lskp0.6L_{s} \cong k p^{0.6} pは音圧 kは周波数依存の定数
    • Pitch Shift
      • 例えば 100Hzで40dBから100dBに音量が上がると、感じ取れるピッチは約10%下がる
      • 周波数帯によって効果の大きさは異なる
    • Frequency Domain Masking
      1. image
      2. 注意) 高音側の方が強くマスクされる
    • Temporal Masking
      • 時間的に前後する場合でもマスキングが働く。
      • 5msec以下のタイミングの違いは知覚的には無視されることがわかる
      • image

    • Critical Band
      • MPEG規格のベースに
      • サイン波をノイズでマスキング。マスキングされても聞こえるようにするにはサイン波の音量をあげる必要がある。ノイズの周波数帯を広げてパワーを強くするとそれに合わせてサイン波の音量をあげる必要がある。ところがある一定の周波数幅 (Critical Band)以上になると、それ以上ノイズの周波数帯を広げて必要なサイン波の音量の増加につながらない
      • image
      • だいたいオクターブの1/3程度が Critical Bandの幅 - ピッチのJNDの30倍程度
  • Duration
    • 15ms程度だと単なるノイズのバーストに聞こえる  そのあと30msくらいまではアタックが緩やかだとピッチが認識できるようになる。30ms以降はアタックに関係なくピッチを認識できる
    • Pitch
      • ΔfΔt=k\Delta{f}\Delta{t} = k
        • ピッチの解像度Δf\Delta{f}と必要な長さΔt\Delta{t} は反比例の関係
        • kk は 0.1程度とされている = 1秒あれば0.1Hzの音の違いを聞き分けられる
    • Loudness
      • ラウドネスを認識するためにも200ms程度の長さが必要
      • 200ms 以下の場合、長さが10倍になるたびに感じられるラウドネスは10dB大きく
        • 実際は大きな音でも短いと大きく感じない! → 耳を危険にさらす
  • 協和音 / 不協和音 - Consonance / Dissonance
    • JND/Critical Bandの考え方で整理できる
      • JND以下の違いの音はユニゾンとして捉えられる
      • Critical Band以上の違いは干渉しない
      • Critical Bandの5% - 50%程度の違いの音がもっとも不協和音として感じられる
    • ピッチのインターバルごとにそれぞれの倍音(partials)とCritical bandの関係を確認。Critical Bandの5%-50%に入る倍音の数をカウントすると、協和音と不協和音の関係によく似た関係になる
  • Localization - 位置の特定
    • Interaural Level Difference - 遠い方の耳に届く音は小さく、そして特に高音がマスキングされた音になる
      • 波長が頭のサイズよりも大きい低音 (<500Hz)の場合は影響が小さい
    • Interaural Time Difference
      • ❌ 頭のサイズよりも波長が短い高周波に関しては、位相がずれるだけで違いがわからなくなる
      • 500Hzあたりで一番左右の時間差に敏感 - 実験によると 18msec18msecの違い 約Δ2°\Delta2\degreeの角度を見分けられる

Acoustics

熱は熱いものから低い温度のものへ流れるエネルギーを指す。単位はジュール。流れ出さない限りは熱とは言わない

理想的な気体の場合 以下が成り立つ

PV=nRTP V=n R T P: 気圧 V: 容積 T: 温度 R: 定数 n: 気体内の分子の数 (モル数)

PV=nRT=nNA(RNA)T=N(RNA)TP V=n R T=n N_{A}\left(\frac{R}{N_{A}}\right) T=N\left(\frac{R}{N_{A}}\right) T

NAN_A 1モルあたりの分子数   N 分子の総数

k=RNA=8.31 J/(molK)6.022×1023 atoms /mol=1.38×1023 J/Kk=\frac{R}{N_{A}}=\frac{8.31 \mathrm{~J} /(\mathrm{mol} \cdot \mathrm{K})}{6.022 \times 10^{23} \text { atoms } / \mathrm{mol}}=1.38 \times 10^{-23} \mathrm{~J} / \mathrm{K} k : ボルツマン定数

PV=NkT.P V=N k T .