Metodologia para avaliação subjetiva de componentes de áudio

Christian Gonçalves Herrera

UFMG – Programa de Pós Graduação em Engenharia Elétrica


Belo Horizonte, Minas Gerais, Brasil



Neste trabalho é discutida a necessidade da execução de testes auditivos subjetivos para a avaliação de componentes de áudio. A abordagem do tema sob um ponto de vista científico é defendida e considerada de vital importância na obtenção de resultados confiáveis e significantes. Ao final, um exemplo ilustra o caso típico onde existem discrepâncias entre a avaliação objetiva e a avaliação subjetiva.


INTRODUÇÃO

A aplicação final da maioria dos sistemas de áudio é a audição de um programa (e.g.: voz, música), o que consiste numa experiência altamente subjetiva. Muito embora o projeto destes sistemas lance mão de técnicas de engenharia essencialmente objetivas, para a avaliação do produto final sempre se faz necessário um procedimento que leve em consideração os aspectos subjetivos envolvidos na audição.

A validade dos resultados obtidos numa avaliação subjetiva de componentes de áudio depende de quatro fatores:

  1. as condições do ambiente onde os testes são realizados;
  2. o tipo do programa a ser executado pelos equipamentos em análise;
  3. as condições individuais dos ouvintes participantes do teste;
  4. a qualidade dos eventuais componentes utilizados como referência.
A legitimidade do teste só é garantida quando se exerce o máximo controle sobre estes fatores.

O nível de interesse da comunidade do áudio neste tipo de avaliação, e consequentemente a abordagem seguida, apresenta três perfis típicos:
  1. os revisores de produtos e algumas revistas especializadas, que freqüentemente se munem de metodologias questionáveis do ponto de vista científico para defender a sua audição privilegiada e perceber as qualidades sonoras que os levam a tecer críticas com muitas vezes pouca fundamentação sobre um determinado produto;
  2. o mercado consumidor, que busca por métodos padronizados de avaliação para orientar sua decisão na compra de equipamentos que conformam suas necessidades;
  3. a comunidade científica, que acredita na correlação entre as características audíveis e os parâmetros objetivos, e trabalha na busca de metodologias que considerem os limites da audição humana e o estado da arte nas técnicas de medição.

O objetivo deste artigo é discutir as metodologias científicas desenvolvidas nos últimos vinte anos para avaliação subjetiva de componentes de áudio. São abordados procedimentos a serem tomados para maximizar o controle sobre os diversos fatores que vêm a influenciar a percepção dos ouvintes. Ao final, um exemplo de teste é apresentado onde é avaliado o codificador de áudio digital para compressão com perdas denominado MPEG Layer 3 (MP3).


AVALIAÇÕES SUBJETIVAS

Existem muitas razões que justificam a necessidade e a utilidade dos testes subjetivos para avaliação de componentes de áudio. A principal delas refere-se ao fato de que nem todas as características audíveis podem ser objetivamente medidas e correlacionadas com o que é ouvido, com as atuais ferramentas disponíveis. Este fato não implica de forma alguma que os resultados de medições objetivas sejam irrelevantes ao caracterizar um componente. Ao contrário, há muita informação a ser extraída destas medições, principalmente se forem realizadas de maneira mais completa e adequada do que vem sendo feito.

De fato podem ser questionáveis os motivos que levam um pesquisador a investigar diferenças audíveis tão aparentemente insignificantes entre componentes que fatalmente não seriam percebidas em situações reais. Contudo, existe o argumento de que a cadeia de equipamentos pelos quais trafega o sinal de áudio pode ser tão complexa que o acúmulo de imperfeições ao longo dos diversos equipamentos degrada o sinal a ponto de tornar inaceitável o resultado final. Também existe a teoria que o homem é capaz de detectar qualquer diferença audível entre dois sinais, se lhe for dado o tempo suficiente [1].

Embora cada indivíduo possua sua própria opinião e preferência, esta opinião só terá sentido para alguém se contiver elementos claros de objetividade, consistência e repetitibilidade. Tais elementos só podem ser conseguidos através da prevenção de variações indesejadas de parâmetros que venham a influenciar o resultado, e da utilização de referências absolutas sempre que possível de modo que a exatidão possa ser verificada objetivamente, e não apenas adivinhada.

Alguns requisitos para garantir a validade dos resultados de avaliações subjetivas devem ser seguidos:
  1. atenção na interface entre dois equipamentos. O adequado casamento de impedância evita sobrecargas e, consequentemente, alterações na resposta em freqüência de um sistema. Sempre que possível a entrada do equipamento em teste (EET) deve ser excitada por uma fonte de baixa impedância de saída (buffer);
  2. diferenças lineares mensuráveis devem ser eliminadas antes que qualquer conclusão seja tomada a respeito de distorções originadas por não linearidades. Estas diferenças referem-se principalmente à deficiências na resposta em freqüência do EET, e que podem ser prontamente corrigidas através de filtragens adequadas (equalização). Também são fontes de diferenças lineares a resposta de fase, a polaridade e, finalmente, o ganho do EET. Experimentos descritos em [2] revelam que diferenças de apenas 0,2 dB entre oitavas adjacentes podem ser percebidas pelo aparelho auditivo humano. Por outro lado, diferenças de mais de 1 dB podem ser facilmente produzidas na saída de amplificadores de potência, devido à grande variação da impedância dos alto falantes com a freqüência. Embora estas diferenças sejam efetivamente audíveis, elas não se referem a artefatos gerados a partir de comportamento não linear do EET;
  3. focalizar o teste na detecção de similaridade ou diferença entre dois equipamentos. Este procedimento deve ser seguido nos casos em que uma referência absoluta não esteja disponível ou viável de ser utilizada no teste. Quanto melhor o teste, mais simples é a natureza do julgamento que o ouvinte terá que fazer. Um exemplo típico de um teste com uma referência absoluta presente é o caso do teste de caixas acústicas: a comparação é feita entre a voz do locutor ao vivo na sala de teste e a reprodução da mesma voz gravada numa câmara anecóica. Existem algumas gravações chamadas “gravações audiófilas” que tentam vender a idéia de que podem ser utilizadas como referências. Isto não é aceitável, pois todo processo de gravação sofre limitações (e.g.: microfonação, condicionamento dos sinais captados) que prejudicam a integridade da fonte sonora;
  4. execução de teste cegos, ou preferencialmente, duplo cegos. Um teste cego é aquele onde o ouvinte não sabe qual componente está sendo avaliado no momento da audição, enquanto que um teste duplo cego é aquele que nem o ouvinte nem a pessoa que está conduzindo o teste tem acesso à identidade do componente. Neste caso, um gabarito com as respostas deve ser gerado por um agente inexpressivo, como por exemplo um microcomputador.

CONDIÇÕES ACÚSTICAS DO AMBIENTE

Se o objetivo é eliminar ao máximo quaisquer fontes de interferência num teste auditivo, é bastante intuitivo se pensar em realizar os testes usando fones de ouvido. Desta maneira, as condições acústicas (e.g.: tempo de reverberação, ondas estacionárias) de uma sala de audição são evitadas. Esta facilidade não pode ser implementada quando o componente a ser avaliado é uma caixa acústica, ou quando se deseja avaliar o componente simulando condições normais de operação.

Sendo assim, alguns requisitos a respeito das condições acústicas do ambiente onde acontece o teste devem ser levadas em consideração [3]:
  1. tamanho e geometria: devem ser usadas salas com área superior a 20 m2, com pé direito superior a 2,1 m. A geometria deve apresentar certa simetria longitudinal, porém devem ser evitadas paredes paralelas, pois propiciam o aparecimento de ondas estacionárias;
  2. reflexões: o tempo de reverberação típico (RT60) compatível com salas de audição domésticas ou salas de controle em estúdios de gravação é de 0,45 ± 0,15 s. Reflexões que caracterizem ecos devem ser eliminadas;
  3. ruído de fundo: o ruído de fundo na sala não deve exceder 35 dBA ou 50 dBC, nem tampouco deve conter tons periódicos dominantes (e.g.: ruídos de 60 Hz de reatores de lâmpadas fluorescentes);
  4. posicionamento das caixas acústicas: a proximidade a regiões limites da sala (paredes, teto, piso) altera a carga acústica vista pela caixa, levando a variações na radiação de baixas freqüências, principalmente. Também as reflexões primárias de amplitude significativa no período de até 3 ms após o som direto atingir o ouvinte podem enfatizar as freqüências médias, trazendo uma coloração indevida ao programa executado. Em avaliações de imagem sonora de sistemas multicanais as caixas devem fazer um ângulo de, no mínimo, 40º com o ouvinte no vértice do ângulo;
  5. posicionamento dos ouvintes: uma distância de, no mínimo, 1 metro de qualquer parede deve ser mantida para evitar colorações e/ou distorções de imagem sonora. A distância do ouvinte à caixa acústica deve ser coerente ao tipo da caixa (campo próximo, campo médio, etc.)

CARACTERÍSTICAS DOS PROGRAMAS EXECUTADOS

Deve ser dada preferência a programas armazenados em mídias digitais, dada a sua maior capacidade de manter a integridade dos dados durante a sua vida útil, além da possibilidade de serem feitas cópias precisas do material gravado.

Obviamente, as gravações utilizadas devem ter sua procedência garantida no que diz respeito às técnicas de microfonação e condicionamento dos sinais captados. Qualquer tipo de processamento (e.g.: equalização, compressão dinâmica) desabilita uma gravação por remeter o ouvinte a uma referência inexistente no mundo real.

Gravações de sons familiares, como a voz humana ou instrumentos musicais populares, devem ser preferidos. O conteúdo do espectro de freqüências do conjunto de gravações deve cobrir toda a faixa audível humana.

Tons de teste, ou sinais técnicos, são de grande utilidade (e.g.: tons senoidais, ruído rosa). No entanto, o fenômeno de mascaramento do sistema auditivo pode tornar audíveis distorções em tons de teste que não seriam audíveis em sinais musicais.

Determinados estilos musicais são estratégicos para identificação de parâmetros subjetivos. Sons percussivos são ideais para avaliação da capacidade de resposta a transientes; rock’n’roll serve bem na avaliação da resposta em freqüência do sistema; música sinfônica pode ser interessante devido às grandes variações de dinâmica normalmente exploradas.

O nível de pressão sonora (SPL) do programa executado deve ser compatível ao SPL das fontes sonoras originais. Uma orquestra sinfônica, por exemplo, pode chegar aos 95 dBA. Todos os componentes avaliados devem ser previamente calibrados de maneira a não apresentarem diferenças de intensidade maiores que ± 0,5 dB entre si.


CONDIÇÕES DOS OUVINTES

A experiência mostra que as habilidades dos ouvintes em perceber diferenças sônicas, em se concentrar devidamente no teste, ou de reagir de maneira consistente a diversas repetições de um mesmo estímulo sonoro, varia consideravelmente [4]. Os principais fatores que levam a esta variação de comportamento são as condições psico-fisiológicas do ouvinte, bem como a sua experiência prévia.

A correta seleção e treinamento de indivíduos para a realização de avaliações subjetivas em componentes de áudio proporciona maior confiabilidade ao teste, uma vez que fatores como a repetitibilidade e a significância dos resultados são mantidos sob maior controle. O grau de consistência das repostas é mensurado a partir do desvio padrão da taxa de acertos para um conjunto de avaliações.

Limiar da Audição

De acordo com a ISO 7092 [5], uma pessoa otologicamente normal é “aquela em condições normais de saúde, que no momento do teste não apresenta excesso de cera no canal auditivo, sem nenhuma patologia auditiva diagnosticada e que não apresenta histórico de exposição indevida a ruídos”.

Caso seja considerado aceitável um desvio no limiar de audição de até 15 dB entre 250 e 8000 Hz, menos de 10% da população masculina otologicamente normal com idade de 20 anos será excluída.

Toole [6] realizou experimentos para analisar a influência causada pela magnitude do desvio do limiar de audição na variação da taxa de acertos de diversos ouvintes para experimentos repetidos. Foi detectado que para freqüências acima de 1 kHz a correlação entre o desvio padrão da taxa de acertos e o desvio do limiar de audição é pequena, enquanto que para freqüências abaixo de 1 kHz a correlação é alta. Em outras palavras, isto mostra que um ouvinte em más condições otológicas tem menor capacidade de manter coerência entre repetidas avaliações subjetivas. Entretanto, o grupo de ouvintes que Toole utilizou como amostra apresentava características como idade e histórico de exposição a ruídos que os impediam de serem classificados como otologicamente normais, segundo a ISO 7092.

Já no experimento conduzido por Bech [4], um grupo de 15 ouvintes otologicamente normais não apresentou correlação significante entre os dois parâmetros citados, o que leva a concluir que a escolha de ouvintes com condições adequadas de saúde otológica garante a habilidade destes em repetir de maneira consistente as taxas de acerto nas avaliações subjetivas.

Experiência Prévia

É bastante intuitivo e lógico acreditar que um grupo de ouvintes com comprovada experiência em tarefas de avaliação auditiva apresente taxas de acerto mais homogêneas que um grupo de ouvintes inexperientes.

Esta experiência inclui familiaridade com instrumentos musicais e presença em concertos, experiência com análise crítica de sons reproduzidos artificialmente ou executados ao vivo, e a aptidão geral em detectar diferenças audíveis em sons gravados.

Hansen [7] publicou resultados onde esta tendência se fez mostrar, e discute o esforço necessário em selecionar participantes com graus de experiência auditiva conhecidos.

A diferença no desvio padrão da taxa de acertos entre dois ou mais grupos com diferentes perfis de experiência revela que, dada uma magnitude de intervalo de confiança esperada, o número de ouvintes necessários para um determinado grupo deve ser ajustado.

O treinamento de ouvintes é um procedimento cujos resultados psicoacústicos são bem conhecidos. Após várias repetições de um mesmo estímulo, certas capacidades auditivas de um ouvinte podem ser alteradas, como por exemplo o limiar absoluto da audição. O objetivo de um programa de treinamento num grupo de ouvintes é garantir que os diferentes aspectos do desempenho auditivo destes alcance um nível assintótico, resultando na máxima eficiência de tempo, precisão e custos para uma avaliação.


MÉTODO A/B/X

O tipo de teste mais recomendado na literatura é o teste duplo cego A/B/X [8]. Este teste (Figura 1) tem como objetivo promover a comparação direta entre dois componentes de áudio (A e B). Em certos casos, o EET é ligado ao canal B e o canal A é curtocircuitado, servindo como referência. Assim, qualquer diferença é atribuída às distorções geradas pelo EET. O ouvinte tem à sua disposição um controle de comandos munido de uma chave seletora de três posições. As posições A e B conectam, logicamente, o componente A ou B à cadeia do áudio. A posição X dispara um circuito gerador de sinais aleatórios responsável por escolher entre conectar o canal A ou B. Ninguém tem acesso à escolha efetuada pelo dispositivo; um relatório, ou gabarito, do teste é gerado para averiguação posterior e determinação da taxa de acertos.



Figura 1 - diagrama esquemático do dispositivo para a realização do teste A/B/X

Alguns procedimentos operacionais são recomendados [8] para a maximização da resolução alcançada com o teste:
  1. justaposição instantânea dos sinais comparados: vários aspectos qualitativos do som permanecem na memória do ouvinte por curtos intervalos de tempo;
  2. questões de natureza comparativa: descrições qualitativas devem ser consideradas de acordo com a experiência do ouvinte;
  3. tempo ilimitado: situações de pressão por prazos podem inibir a sensibilidade do ouvinte a certos parâmetros audíveis;
  4. decisão forçada: o ouvinte sabe que sempre existe uma resposta certa, A ou B, o que o encoraja a explorar toda a sua capacidade auditiva em responder corretamente;
  5. teste controlado pelo ouvinte: se desejado, o teste pode ser realizado individualmente, o que possibilita a adequação dos procedimentos (tempo de exposição ou chaveamento) às preferências do ouvinte;

EXEMPLO PRÁTICO

Para ilustrar a aplicação da metodologia discutida, um teste subjetivo foi realizado com o objetivo de detectar diferenças entre as codificações digitais de sinais de áudio PCM e MP3. A PCM (Pulse Code Modulation) é uma codificação sem perdas utilizada nas tradicionais mídias digitais de áudio, principalmente nos CDs (Compact Disc). Sua taxa de amostragem é de 44100 amostras por segundo e a sua resolução é de 16 bits, quantizados uniformemente. O MP3 é uma codificação com perdas que foi proposta para possibilitar uma compressão no tamanho do arquivo de áudio digital para a transmissão em meios com largura de banda limitada (INTERNET).

No teste aqui apresentado, foram comparadas as codificações PCM e MP3 utilizando dois programas: o primeiro contendo uma gravação de voz masculina e o segundo contendo um trecho de uma peça musical executada por um conjunto de instrumentos de corda. Ambos os programas têm duração de quinze segundos. Duas taxas de compressão diferentes (128 e 96 kbps) para a codificação MP3 foram testadas, o que resultou num total de quatro testes comparativos. Para cada teste, os ouvintes eram expostos aos sinais originais, seguido de três audições do tipo X, onde foi questionado a procedência do sinal ouvido (A ou B).

O grupo de ouvintes foi composto por treze alunos e professores de pós graduação com idades entre 26 e 47 anos. Nenhuma avaliação física foi realizada nestes ouvintes para determinar suas condições otológicas. Tampouco foi exigido experiência prévia, nem realizados treinamentos auditivos.

Um formulário para a anotação das respostas foi distribuído contendo todas as instruções para a realização do teste (Anexo A).

O resultado com as taxas de acerto para os quatro testes é apresentada na Tabela 1. Pode-se concluir que a codificação MP3 com taxa de 128 kbps ou maior é estatisticamente improvável de ser diferenciada da codificação PCM, para ouvintes com condições otológicas adversas. Entretanto, somente uma análise da significância dos resultados poderia fornecer informações mais precisas sobre a sua validade.


CONCLUSÃO

É possível realizar testes subjetivos para avaliação de componentes de áudio de maneira científica. As metodologias aqui apresentadas têm como objetivo conformar procedimentos com alto grau de controle para que resultados confiáveis e significantes sejam gerados.

A observância a fatores como condições do ambiente, condições dos ouvintes participantes e o método de avaliação são decisivos. Situações de teste com boas condições baseadas nestes quesitos são viáveis de ser implementadas à baixo custo.


REFERÊNCIAS
Para saber mais, clique nos títulos


[1] D. M. Green and J. A. Swets, Signal Detection Theory and Psychophysics (Wiley, New York, 1966).

[2] S. P. Lipshitz and J. Vanderkooy, “The Great Debate: Subjective Evaluation,” J. Audio Eng. Soc, vol. 29, pp. 482-491 (1981 July/Aug).

[3] AES 20-1996, “AES Recommended Practice for Professional Audio – Subjective Evaluation of Loudspeakers,” Audio Engineering Society, 1996.

[4] Søren Bech, “Selection and Training of Subjects for Listening Tests of Sound-Reproducing Equipment,” J. Audio Eng. Soc, vol. 40, pp. 590-610 (1992 July/Aug).

[5] ISO 7029-1984, “Threshold of Hearing Air Conduction as a Function of Sex and Age for Otologically Normal Persons,” Internactional Organization for Standardization, Geneva, Switzerland (1984).

[6] F. Toole, “Subjective Measurements of Loudspeakers: Sound Quality and Listener Performance,” J. Audio Eng. Soc, vol. 33, pp. 2-32 (1985 Jan/Feb).

[7] V. Hansen, “Establishing a Panel of Listeners at Bang and Olufsen: a Report,” in S. Bech and O. J. Pedersen (Eds.), Symp. On Perception of Reproduced Sound (Gammel Avernæs, Denmark, 1987), Ingeniørhøjskolen, Århus Teknikum, Århus, Denmark.

[8] David Clark, “High-Resolution Subjective Testing Using a Double-Blind Comparator,” J. Audio Eng. Soc, vol. 30, pp. 330-338 (1982 May).

[9] Pan, Davis; Multimedia, IEEE , Volume: 2 Issue: 2, Summer 1995, Page(s): 60 –74



Tabela 1: Resultado das Avaliações Subjetivas
Teste Taxa de acerto
-----------------------------------------------------
1. Voz PCM x Voz MP3 128 kbps 48,7%

2. Voz PCM x Voz MP3 96 kbps 64,1%

3. Música PCM x Música MP3 128 kbps 53,8%

4. Música PCM x Música MP3 96 kbps 71,8%



ANEXO A



Publicado inicialmente na antiga Audio List (formato DOC) em 20/03/2004 e versão HMTL em 14/03/2005, com 1590 acessos desde essa última data. Publicado na nova Audio List em 29/01/2006.