ここでは音声編集時に良く使われる基本的な用語などにつきご説明します。初心者向けの基本情報ですので、音声に詳しい方は必要に応じてこのページは読み飛ばしていただいて問題ありません。

音声

WavePadをお使いいただくうえで必ず必要になるのが「音声」です。音とは波のような形で非常に高速に移動する空気の振動で、振動するもの(例えば人間の声帯やギターの弦、スピーカーなど)により作られ、耳やマイクによって検知されます。マイクが検出した振動は交流電圧に変換され、コンピュータのサウンドカードがこの電圧をWavePadで使用できるデータに変換します。

周波数

音声を分析する方法の1つとして、振動が空気中を移動する際の振動の速度を測るというものがあります。1秒間に振動する回数のことを音声の「周波数」と呼び、ヘルツ(Hz)やキロヘルツ(kHz)の単位で測定されます。

ほとんどの場合、音は「特定の周波数で振動する1本の波型」という単純なものではなく、「異なる速度や音量で振動する複数の波型」という複雑な形態で発せられます。WavePadを使うと、こうした「音」の仕組みを実際に目で見て分析することができます。詳しくは、周波数分析(FFTおよびTFFT)のページをご覧ください。

人間の耳は約20Hz(毎秒20回の振動)から20,000Hz(毎秒2万回の振動)の音声を聴き取ることができると言われていますが、一般的に聴き取れるのは15,000Hzと言われており、20,000Hzまで聴き取ることができるのは少数です。人間の声の周波数は約300Hz~3,000Hzです。

ラウドネス、音量、増幅、レベル、ゲイン

ラウドネス(音の大きさ)、音量、増幅、レベルは全て同じような意味を持ちます。音量が多いほど、音声を作るのにより多くのパワーが必要になり、大きな音が出ます。

音声の音量を調整する際(例えばWavePadで「増幅」エフェクトを使う場合)、「ゲイン」という値で増加または減少レベルを表します。この値は割合(%)、または「デシベル(dB)」で表します。

人間の耳は低音から高音まで驚くほど広い範囲の音を聴くことができます。 人間の耳はまた、聴き取った音の高低(パワー)差をそのままの形で理解するのではなく、対数的な方法で理解します。 こうした聴き取り方をわかりやすく表すため、音声の世界では「デシベル(dB)」という単位を使っています。 例えば、 音量を6デシベル下げるということは、 増幅を半分に下げ、パワーを4分の1下げるということです。また逆に、音量を6デシベル上げるということは、 増幅を2倍にし、パワーを4分の1上げるということになります。20デシベルの減少は10分の1の増幅(または100分の1のパワー)を意味します。 人間の耳が聴き取ることができる最も小さな音量の変化は3デシベル程度です。

音声録音とコンピュータ

コンピュータに音声を保存し再生するために、マイクを通して入力された音声信号がサウンドカードによって一連の数字に変換されます。マイクの表面が様々な方面から押された際の圧力を数値化していると思っていただければわかりやすいかと思います。音声を数字に置き換えるこうした作業を「サンプリング」と呼びます。

サンプルレート

サンプルレートは、1秒間に振幅が数字に変換される回数です。例えば、CD用の音質で録音した場合、毎秒44100回の記録が行われ、それぞれが各時点での増幅を表します。

サンプリングされた音声の最大周波数はサンプルレートのちょうど半分で表すことができますが、実際にはそれより少し低く、例えば44100のサンプルレートで録音された音声の周波数は20000Hz程度となります。

サンプルレートと音質をわかりやすく説明すると以下の通りです:

48000、88200、96000、または192000などの高いサンプルレートが使われることもありますが、システムに余計なストレスを加えるだけで、実際に聞き取れる音質にはあまり変化がないと言われています。

メモ: サンプルレートを変換する度に音質が少し下がるので、音声を使った作業を行う際は常に、最終的に使うサンプルレートを最初からお使いください。例えば、CDを作成する場合には、44100のサンプルレートを、また電話用には8000を使用してください。

ステレオ/モノラルチャンネル

複数の音声「チャンネル」を同時に録音することが可能です。最も一般的なものは、「ステレオ」録音と呼ばれるもので、これは、右と左の2つのチャンネルを録音することで、人間の耳にも部屋の右と左の両方から音が聞こえてくるようにする手法です。1つのチャンネルで録音することは、「モノラル」録音と呼ばれます。

メモ: 話し声を録音する場合はモノラルモードで、複数の楽器を使った演奏を録音する場合はステレオモードで録音してください。

8/16/24/32ビット

音声ファイルを扱う際に、「8ビット」や「16ビット」などの用語を目にしたことがあるかと思います。サンプルレートにも使われるこの「ビット」という数値は、ファイルに保存されている音声の音質や画像の解像度を表します。ビット数が大きいほど高画質・高音質になります。WavePadでは最適な音質を保つために32ビットを使用していますが、ファイルの保存には16ビットで十分です。

音声ファイル圧縮とコーデック

高音質の音声の問題の一つは、ファイルのサイズが非常に大きくなってしまう場合があるということです。ファイルが大きくなりすぎるのを防ぐためには、ファイルを「圧縮」するという方法があります。音声ファイルの圧縮を実行するために使われるシステムを「コーデック」と呼びます。

コーデックにはMPEG Layer-3/MP3やOgg Vorbis(いずれも音楽に適しています)、GSM(話し声に適しています)など様々なものがあります。ほとんどのコーデックは音楽または話し声のいずれかの保存と言った特定の作業用にデザインされています。

WavePadの「ファイル」メニューから「名前を付けて保存」を使って保存を行う場合、特定の圧縮コーデックを選択することができます。ほとんどの圧縮コーデックは不可逆圧縮と呼ばれる「データにある程度の損失が出ることを許容する」タイプなため、圧縮を行うたびに音質が低下しますのでご注意ください。音質を不必要に低下させないためには、必要になるまで圧縮を行わないことが大切です。例えば、作業途中でファイルを保存する場合は、44100Hz、16ビットPCMのWaveフォーマットで圧縮せずに保存することをお勧めします。

音声ファイル圧縮は音声のダイナミックレンジ圧縮とは異なります。ファイル圧縮はファイルの大きさを小さくするもので、ダイナミックレンジ圧縮は音量を小さくするものです。ダイナミックレンジ圧縮に関する詳細はエフェクト-圧縮のページでご覧いただけます。

編集とエフェクト

音声の「編集」とは音声を挿入したり削除したりする作業のことです。「エフェクト」は音声に何らかの変化を加えることです(例:エコーを加えるなど)。

詳しくはWavePadの「編集」メニューと「エフェクト」メニューをそれぞれご覧ください。各エフェクトについては別途エフェクトの項目で詳しく説明します。