Season 04 · EP20 디지털 오디오란 — ADC와 Sampling Rate 썸네일
← 튜토리얼Season 04 · EP20 · DSP 원리

디지털 오디오란 — ADC와 Sampling Rate

ADC 2단계(Sampling/Quantization), Sample Rate와 Bit Depth의 의미, CD가 44.1kHz/16bit를 채택한 역사적 배경, 48k/96k/192k의 용도를 정리합니다.

난이도: 중급 예상 시간:

이 에피소드에서 배우는 것

  • 아날로그/디지털 신호의 본질적 차이
  • ADC의 두 단계: Sampling과 Quantization
  • Sample Rate와 Bit Depth가 각각 무엇을 결정하는지
  • CD가 44.1kHz를 채택한 역사적 배경과 48k/96k/192k의 용도

사전 지식

  • EP14: 진동과 파형
  • EP15: 기본 파형 톺아보기
  • EP17: Envelope - 소리에 생명 불어넣기

DSP에서 시간이란 무엇인가

Max에서 소리를 다루기 시작하면 반드시 마주치는 질문이 있다. “디지털에서 시간은 어떻게 표현되는가?” 아날로그 세계에서 소리는 공기의 연속적인 압력 변화, 즉 연속적인 파형이다. 하지만 컴퓨터는 연속적인 값을 다룰 수 없다. 컴퓨터가 이해할 수 있는 것은 이산적인(discrete) 숫자뿐이다.

DSP(Digital Signal Processing)에서 시간의 기본 단위는 Sample이다. 1초에 44100개의 샘플을 기록하면 그것이 44.1kHz Sample Rate이다. 즉, 디지털 오디오에서 “1초”란 44100개(또는 48000개, 96000개)의 숫자가 나열된 것이다. 이 단순한 사실이 이번 시즌 전체를 관통하는 핵심이다.

ADC: 아날로그에서 디지털로

ADC(Analog-to-Digital Converter)는 마이크가 포착한 연속적인 전기 신호를 이산적인 숫자 배열로 변환하는 장치이다. 오디오 인터페이스 안에 들어 있는 ADC 칩이 이 작업을 수행한다. ADC 과정은 크게 두 단계로 나뉜다.

Sampling 과정 — 연속적인 파형(점선)을 일정 간격으로 찍어 이산 진폭값(stem)으로 변환한다

1단계: Sampling (표본화)

연속적인 파형을 일정한 시간 간격으로 “찍어서” 값을 추출하는 과정이다. 초당 몇 번 찍느냐가 Sample Rate이다. 44.1kHz라면 1초에 44100번, 즉 약 22.7마이크로초(μs)마다 한 번씩 파형의 순간적인 진폭 값을 읽어낸다.

이것을 비유하자면, 영화 필름과 같다. 영화는 1초에 24프레임을 촬영하여 연속적인 움직임을 이산적인 정지 이미지의 연속으로 변환한다. 오디오 Sampling도 같은 원리이다. 충분히 자주 찍으면 원본 신호를 정확하게 재현할 수 있다. “충분히”가 정확히 얼마인지는 다음 에피소드에서 Nyquist-Shannon 정리와 함께 다룬다.

2단계: Quantization (양자화)

샘플링으로 읽어낸 각 순간의 진폭 값을 유한한 정밀도의 숫자로 반올림하는 과정이다. 아날로그 신호의 진폭은 무한히 세밀한 값을 가질 수 있지만, 디지털에서는 정해진 개수의 단계(step) 중 가장 가까운 값으로 근사해야 한다. 이 단계의 정밀도를 결정하는 것이 Bit Depth이다.

Sample Rate: 시간 축의 해상도

Sample Rate(SR)은 1초에 몇 개의 샘플을 취하는가를 나타낸다.

Sample Rate초당 샘플 수주요 용도
22.05kHz22,050옛날 게임, 저품질 웹 오디오
44.1kHz44,100CD, 음악 스트리밍, 일반 음악 제작
48kHz48,000영상 제작, 방송, 게임
88.2kHz88,200고해상도 음악 (44.1의 정수배)
96kHz96,000고해상도 음악, 전문 레코딩
192kHz192,000아카이빙, 마스터링 원본

44.1kHz와 48kHz가 가장 널리 쓰인다. 음악 제작은 전통적으로 44.1kHz, 영상/방송은 48kHz를 표준으로 사용한다. 이 차이는 역사적 이유에서 비롯되었다.

왜 CD는 44.1kHz인가

1980년대 초 CD 규격을 정할 때, 디지털 오디오 데이터를 저장할 매체가 필요했다. 당시 유일하게 대량 생산 가능한 고밀도 저장 매체는 비디오 테이프였다. Sony와 Philips는 기존 비디오 녹화 장비(NTSC/PAL 방식)를 활용하여 디지털 오디오를 저장하는 방식을 설계했다.

NTSC 방식(미국, 일본)은 초당 30프레임(정확히는 29.97), 한 프레임에 490개의 유효 라인, 한 라인에 3개의 샘플을 기록할 수 있었다. 30 × 490 × 3 = 44,100. PAL 방식(유럽)은 초당 25프레임, 한 프레임에 588개의 유효 라인, 한 라인에 3개의 샘플. 25 × 588 × 3 = 44,100. 두 방식 모두 정확히 44,100이 나온다. 이것이 44.1kHz가 CD 표준이 된 이유이다.

48kHz는 이와 별개로 AES/EBU 디지털 오디오 표준에서 채택되었으며, 주로 전문 방송 장비와 영상 제작에서 사용되었다. 영상의 프레임 레이트(24fps, 25fps, 30fps)와 깔끔하게 나누어 떨어지는 장점이 있다.

Bit Depth: 진폭 축의 해상도

Bit Depth는 각 샘플의 진폭 값을 몇 비트의 숫자로 기록하는가를 결정한다.

  • 8bit: 2^8 = 256 단계. 옛날 게임 사운드의 거친 질감이 이것이다.
  • 16bit: 2^16 = 65,536 단계. CD 표준. 이론적 다이나믹 레인지 약 96dB.
  • 24bit: 2^24 = 16,777,216 단계. 전문 레코딩 표준. 이론적 다이나믹 레인지 약 144dB.
  • 32bit float: MSP가 내부적으로 사용하는 형식. 부동소수점이므로 사실상 오버플로우 걱정 없이 연산 가능.

Bit Depth가 높을수록 Quantization 오차(양자화 잡음)가 줄어든다. 양자화 잡음은 원래 진폭 값과 반올림된 디지털 값 사이의 차이에서 발생하는 노이즈이다. 16bit에서는 가장 작은 소리 근처에서 이 잡음이 들릴 수 있지만, 24bit에서는 사실상 무시할 수 있는 수준이다.

다이나믹 레인지와의 관계는 간단하다. 1비트당 약 6dB의 다이나믹 레인지를 얻는다. 16bit × 6dB = 96dB. 인간의 청각 다이나믹 레인지가 약 120dB이므로 16bit(96dB)는 음악 재생에는 충분하지만, 레코딩 시에는 여유 공간(headroom)을 확보하기 위해 24bit를 사용한다.

DAC: 디지털에서 아날로그로

반대 과정도 있다. DAC(Digital-to-Analog Converter)는 숫자 배열을 다시 연속적인 전기 신호로 변환한다. 스피커는 아날로그 신호로 구동되므로 최종 출력 단계에서 반드시 DAC를 거친다. Max에서 [ezdac~] 오브젝트의 “dac”이 바로 이것이다.

DAC 과정에서는 이산적인 샘플들 사이를 부드럽게 연결하는 보간(interpolation) 과정이 일어난다. 이 보간 과정이 완벽하려면 원본 샘플링이 충분한 빈도로 이루어져야 한다. 이것이 다음 에피소드에서 다룰 Nyquist-Shannon 정리의 핵심이다.

Max에서의 Sample Rate 확인

Max에서 현재 오디오 설정의 Sample Rate를 확인하려면 Options > Audio Status 창을 열면 된다. Sample Rate, I/O Vector Size, Signal Vector Size 등의 핵심 설정을 확인하고 변경할 수 있다. [dspstate~] 오브젝트를 사용하면 패치 내에서 프로그래밍적으로 현재 SR을 읽어올 수도 있다.

핵심 오브젝트 정리

오브젝트설명
[ezdac~]DAC 출력. 디지털 신호를 오디오 인터페이스로 보냄
[ezadc~]ADC 입력. 오디오 인터페이스에서 디지털 신호를 받음
[dspstate~]현재 DSP 설정(SR, Vector Size 등) 조회

직접 해보기

  1. Audio Status 탐험: Max의 Options > Audio Status를 열고 Sample Rate를 44100에서 48000으로 바꿔본다. [cycle~ 440]의 출력이 달라지는지 [scope~]로 관찰한다. (힌트: 소리 자체는 같아야 한다. SR이 바뀌어도 440Hz는 440Hz이다.)
  2. Bit Depth 체험: [cycle~ 440]의 출력을 [*~ 128][round~][/~ 128]으로 연결하여 인위적으로 비트 수를 줄여본다. 128단계(약 7bit)로 양자화했을 때 소리가 어떻게 거칠어지는지 들어본다. 단계 수를 8, 16, 32로 바꾸며 비교한다.
  3. dspstate~ 활용: [dspstate~]를 패치에 놓고 bang을 보내 현재 SR, Vector Size를 출력해본다. Audio Status에서 값을 바꿀 때 연동되어 바뀌는지 확인한다.

다음 에피소드 예고

다음 에피소드에서는 Nyquist-Shannon 정리와 Aliasing을 다룬다. 왜 SR의 절반(Nyquist 주파수)이 표현 가능한 최대 주파수의 한계인지, Aliasing은 어떻게 발생하고 왜 antialiasing 처리가 필요한지를 시각적·청각적으로 검증한다.

자주 묻는 질문

  • Sample Rate를 높이면 음질이 좋아지나요?

    조건부로 그렇습니다. Sample Rate를 높이면 더 높은 주파수까지 표현할 수 있고(Nyquist 정리: 표현 가능 최고 주파수 = SR/2), Aliasing 위험이 줄어들며, 처리 과정에서 발생하는 누적 오차도 작아집니다. 하지만 인간의 가청 한계가 약 20kHz이므로 44.1kHz(Nyquist 22.05kHz)면 재생 자체에는 충분합니다. 96kHz/192kHz는 주로 마스터링·아카이빙·오버샘플링이 필요한 정밀 처리에 쓰입니다. 파일 크기와 CPU 부하가 SR에 비례해 증가하므로, '더 높은 게 무조건 좋다'가 아니라 용도에 맞게 선택하는 것이 핵심입니다.

  • 왜 CD는 44.1kHz라는 묘한 숫자를 쓰나요?

    1980년대 초 CD 규격을 정할 때 디지털 오디오 데이터를 저장할 매체가 필요했는데 당시 유일하게 대량 생산 가능한 고밀도 저장 매체가 비디오 테이프였기 때문입니다. Sony와 Philips가 기존 비디오 녹화 장비를 활용해 디지털 오디오를 저장하는 방식을 설계했고, NTSC(미국·일본) 방식은 30fps × 490 유효 라인 × 3 샘플/라인 = 44,100, PAL(유럽) 방식은 25fps × 588 라인 × 3 = 44,100으로 양쪽 모두 정확히 44,100이 나왔습니다. 한편 48kHz는 AES/EBU 디지털 오디오 표준에서 채택되어 영상의 프레임 레이트(24/25/30fps)와 깔끔히 나누어떨어지는 장점이 있어 영상·방송에서 표준이 되었습니다.

  • 16bit와 24bit는 실제로 얼마나 차이 나나요?

    다이나믹 레인지에서 차이가 큽니다. 1비트당 약 6dB의 다이나믹 레인지를 얻으므로 16bit는 약 96dB(2^16 = 65,536단계), 24bit는 약 144dB(2^24 = 16,777,216단계)입니다. 인간 청각의 다이나믹 레인지가 약 120dB이므로 16bit(96dB)는 음악 재생에는 충분하지만 가장 작은 소리 근처에서 양자화 잡음이 들릴 수 있습니다. 24bit는 사실상 무시 가능한 잡음 수준이라 레코딩 시 여유 공간(headroom)을 확보하기 위해 표준으로 사용됩니다. 32bit float는 부동소수점이라 사실상 오버플로우 걱정 없이 연산할 수 있어 MSP 같은 DSP 엔진의 내부 형식으로 쓰입니다.

  • 44.1kHz와 48kHz 중 어떤 걸 써야 하나요?

    최종 매체에 맞춰 결정하면 됩니다. 음악 제작(스트리밍·CD·바이닐 마스터)이라면 44.1kHz가 표준이고, 영상 작업(방송·게임·영화)이라면 48kHz가 표준입니다. 두 SR 사이 변환은 Sample Rate Conversion(SRC)이 필요한데 이 과정에서 미세한 품질 손실이 생기므로 처음부터 목표 SR로 작업하는 것이 좋습니다. 영상에 음악을 입히는 작업이라면 48kHz로 통일하고, 순수 음악 작업은 44.1kHz로 가는 것이 일반적인 워크플로우입니다.

공식 문서 참조

YouTube

채널에서 더 많은 Max/MSP 예제를 이어서 보세요

튜토리얼의 흐름을 끊지 않고, 실제 영상 데모와 채널 콘텐츠를 연속해서 확인할 수 있습니다.

카톡 문의