Convertendo profundidade em audio em C#

Este post é uma tradução do post original anterior, Converting Audio Bit Depths in C#, em inglês

Sinais de áudio digitais podem ser armazenados em muitos tipos de formatos diferentes. Por exemplo, um sinal de áudio poderia ser armazenado como um sinal PCM de 16-bits dentro de um arquivo WAVE ou codificado em um formato com perdas como o MP3. Mas em todos os casos, todos sinais digitais são representados como uma sequência de valores, denominadas amostras, as quais são resultado da mensuração de uma determinada característica do som em função do tempo, para que possam ser manipuladas digitalmente.

Amostras (ou samples) formam um sinal discreto (digital) tipicamente originado de um sinal contínuo (analógico, como as ondas sonoras), obtido através de algum tipo de procedimento ou algorítmo de conversão (de amostragem). Assim existem, portanto, muitas maneiras de se representar uma amostra, como com bytes de 8-bits, inteiros de 32-bits ou números de ponto flutuante (floats) de 32-bits. E, por vezes, a conversão entre estes vários tipos de representações são um requerimento inicial em diversas aplicações.

Convertendo entre diferentes representações de amostras de áudio em C#

Para converter entre diferentes representações de amostras, além de modificar o tipo de dado (sua profundidade em bits) ainda é preciso adequar nossas amostras em uma nova escala. Por exemplo, para converter de um float de 32-bits para um unsigned byte de 8-bits, nós temos que transportar a amostra original de seu intervalo de [-1;1] para seu novo intervalo de [0;255].

Para realizar este processo, a classe a seguir contém um único (exaustivamente sobrecarregado) método que permite converter, por exemplo, amostras de 16-bit para 8-bit, 16-bit para float, float para 16-bit, entre outros. De fato, são possíveis conversões entre quaisquer um dos seguintes tipos: unsigned 8-bit bytes, signed 16-bit integers, signed 32-bit integers e 32-bit floating point single precision numbers. Espero que o código seguinte seja útil a alguem que esteja interessado!

Considerações

Note, porém, que conversões raramente são perfeitas. Isto é verdade para quase tudo, especialmente para sinais digitais. Converter de uma codifiação para outra pode introduzir erros de conversão nos dados. Para ajudar nesta questão, foi inventada a técnica conhecida como dithering. Dithering é o mesmo que propositalmente adicionar ruído num sinal.

Ruído? Sim, ruído. Ruído não é sempre uma coisa ruim. Basta dar uma olhada nos exemplos de imagens na Wikipedia e você logo entenderá isto. Infelizmente, esta classe ainda não suporta dithering, poderá suportar no futuro caso surja necessidade.

Até mais!

Converting audio bit depths in C#

Para a versão em português deste post, clique aqui.

Digital audio signals can be stored in a myriad of different formats. For example, digital audio could be stored as a raw 16-bit PCM signal buried inside a WAVE file or as an encoded lossy format such as MP3. But invariably most digital signals are represented by a sequence of values, called samples, which are the measurement of a choosen sound characteristic over time, so they can be manipulated digitally.

Samples are a discrete-time (digital) signal tipically originated from a continous (analog, such as sound waves) signal through some kind of conversion procedure or algorithm. There is, however, many ways to represent a sample, such as a 8-bit byte, a 32-bit integer or a 32-bit float. And sometimes converting between those different representations (performing some kind of resampling) is an requirement in many applications.

Converting between different sample bit depths in C#

To convert between different sample representations, besides changing the data type we also have to rescale our samples. To convert from 32-bit float to 8-bit unsigned byte, for example, we have to rescale the original sample from its [-1;1] interval to a unsigned, [0;255] interval. The class below has a single (heavily overloaded) method suitable to convert, for example, 16-bit to 8-bit, 16-bit to float, float to 16-bit, and so on. In fact, it can convert in between unsigned 8-bit bytes, signed 16-bit integers, signed 32-bit integers and 32-bit floating point single precision numbers. I hope someone finds it useful!

Other thoughts

Please note, however, that conversion isn’t always perfect. This is true for almost everything, specially for digital signals. Converting from one encoding to another may introduce conversion errors in the data. To help with this, God invented a technique known as dithering. Dithering is the same as pourposely introducing noise in a signal.

Noise? Yes, noise. Noise isn’t always bad. Just take a look at the image examples in Wikipedia and you will understand that. Unfortunately, this class doesn’t support dithering (yet), but may support in the future, if there is need.

Capturing Sound From The Microphone Using SlimDX

sdx_icon_black_bigger-5B5-5D

SlimDX SlimDX is an open source library which allows .NET 2.0+ applications (including C#, VB.NET, IronPython, and F#) to use Microsoft’s DirectX APIs, as well as several related Microsoft multimedia APIs.

SlimDX is a direct replacement (albeit not exactly API compatible) for the now-defunct Microsoft’s Managed DirectX (MDX) wrappers.

 

However, not everything is perfect. The main issue with SlimDX is the current lack of documentation. Sure they do have a lot of examples, but unfortunately, only a few of them deal with DirectSound. And most of them assumes you already have experience with standard DirectSound (and DirectX itself) to understand them.

So to help completely newcomers to the DirectX world, here is a extremely simple example on how to read data from the microphone using SlimDX just to get you started.

Code

Tipically you would run this code in a separate thread so it doesn’t block the main application. I hope someone finds it useful! If you have questions please leave a comment.