MP3

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

Formato de áudio digital

MP3 (formalmente MPEG-1 Audio Layer III ou MPEG-2 Audio Layer III) é um formato de codificação para áudio digital desenvolvido amplamente pela Fraunhofer Society na Alemanha sob a liderança de Karlheinz Brandenburg, com o apoio de outros cientistas digitais nos Estados Unidos e em outros lugares. Originalmente definido como o terceiro formato de áudio do padrão MPEG-1, foi mantido e ampliado - definindo taxas de bits adicionais e suporte para mais canais de áudio - como o terceiro formato de áudio do padrão MPEG-2 subsequente. Uma terceira versão, conhecida como MPEG 2.5 — estendida para melhor suportar taxas de bits mais baixas — é comumente implementada, mas não é um padrão reconhecido.

MP3 (ou mp3) como formato de arquivo geralmente designa arquivos contendo um fluxo elementar de dados codificados em MPEG-1 Audio ou MPEG-2 Audio, sem outras complexidades de o padrão MP3.

Com relação à compactação de áudio (o aspecto do padrão mais aparente para os usuários finais e pelo qual é mais conhecido), o MP3 usa compactação de dados com perdas para codificar dados usando aproximações inexatas e descarte parcial de dados. Isso permite uma grande redução no tamanho dos arquivos quando comparado ao áudio não compactado. A combinação de tamanho pequeno e fidelidade aceitável levou a um boom na distribuição de música pela Internet em meados da década de 1990, com o MP3 servindo como uma tecnologia capacitadora em uma época em que a largura de banda e o armazenamento ainda eram escassos. O formato MP3 logo se tornou associado a controvérsias envolvendo violação de direitos autorais, pirataria de música e os serviços de extração/compartilhamento de arquivos MP3.com e Napster, entre outros. Com o advento dos reprodutores de mídia portáteis, uma categoria de produto que também inclui smartphones, o suporte a MP3 permanece quase universal.

A compressão MP3 funciona reduzindo (ou aproximando) a precisão de certos componentes do som que são considerados (pela análise psicoacústica) como estando além das capacidades auditivas da maioria dos humanos. Este método é comumente referido como codificação perceptual ou como modelagem psicoacústica. As informações de áudio restantes são gravadas de maneira eficiente em termos de espaço, usando os algoritmos MDCT e FFT. Comparada ao áudio digital com qualidade de CD, a compactação MP3 geralmente pode atingir uma redução de tamanho de 75 a 95%. Por exemplo, um MP3 codificado em uma taxa de bits constante de 128 kbit/s resultaria em um arquivo com aproximadamente 9% do tamanho do áudio do CD original. No início dos anos 2000, os players de CD adotaram cada vez mais o suporte para a reprodução de arquivos MP3 em CDs de dados.

O Moving Picture Experts Group (MPEG) projetou o MP3 como parte de seus padrões MPEG-1 e, posteriormente, MPEG-2. MPEG-1 Audio (MPEG-1 Part 3), que incluía MPEG-1 Audio Layer I, II e III, foi aprovado como um rascunho do comitê para um padrão ISO/IEC em 1991, finalizado em 1992 e publicado em 1993 como ISO /IEC 11172-3:1993. Uma extensão de áudio MPEG-2 (MPEG-2 Parte 3) com taxas de amostragem e bits mais baixas foi publicada em 1995 como ISO/IEC 13818-3:1995. Requer apenas modificações mínimas nos decodificadores MPEG-1 existentes (reconhecimento do bit MPEG-2 no cabeçalho e adição das novas taxas de amostragem e bits mais baixas).

História

Fundo

O algoritmo de compressão de dados de áudio com perda de MP3 tira vantagem de uma limitação de percepção da audição humana chamada mascaramento auditivo. Em 1894, o físico americano Alfred M. Mayer relatou que um tom pode se tornar inaudível por outro tom de frequência mais baixa. Em 1959, Richard Ehmer descreveu um conjunto completo de curvas auditivas referentes a esse fenômeno. Entre 1967 e 1974, Eberhard Zwicker trabalhou nas áreas de ajuste e mascaramento de bandas de frequência críticas, que por sua vez se basearam na pesquisa fundamental na área de Harvey Fletcher e seus colaboradores no Bell Labs.

A codificação perceptiva foi usada pela primeira vez para compressão de codificação de fala com codificação preditiva linear (LPC), que tem origem no trabalho de Fumitada Itakura (Nagoya University) e Shuzo Saito (Nippon Telegraph and Telephone) em 1966. Em 1978, Bishnu S Atal e Manfred R. Schroeder, da Bell Labs, propuseram um codec de fala LPC, chamado codificação preditiva adaptativa, que usava um algoritmo de codificação psicoacústica que explorava as propriedades de mascaramento do ouvido humano. A otimização adicional por Schroeder e Atal com J.L. Hall foi posteriormente relatada em um artigo de 1979. Nesse mesmo ano, um codec de mascaramento psicoacústico também foi proposto por M. A. Krasner, que publicou e produziu hardware para fala (não utilizável como compressão de bits de música), mas a publicação de seus resultados em um relativamente obscuro Lincoln Laboratory Technical Report não influenciou imediatamente o mainstream do desenvolvimento de codecs psicoacústicos.

A transformada discreta de cosseno (DCT), um tipo de codificação de transformação para compressão com perdas, proposta por Nasir Ahmed em 1972, foi desenvolvida por Ahmed com T. Natarajan e K. R. Rao em 1973; eles publicaram seus resultados em 1974. Isso levou ao desenvolvimento da transformada discreta de cosseno modificada (MDCT), proposta por J. P. Princen, A. W. Johnson e A. B. Bradley em 1987, seguindo trabalhos anteriores de Princen e Bradley em 1986. O MDCT mais tarde tornou-se um parte central do algoritmo MP3.

Ernst Terhardt e outros colaboradores construíram um algoritmo que descreve o mascaramento auditivo com alta precisão em 1982. Este trabalho foi adicionado a uma variedade de relatórios de autores que remontam a Fletcher e ao trabalho que inicialmente determinou proporções críticas e larguras de banda críticas.

Em 1985, Atal e Schroeder apresentaram predição linear excitada por código (CELP), um algoritmo de codificação de fala perceptual baseado em LPC com mascaramento auditivo que alcançou uma taxa de compressão de dados significativa para a época. O Journal on Selected Areas in Communications do IEEE relatou uma ampla variedade de algoritmos de compressão de áudio (principalmente perceptivos) em 1988. O "Codificação de Voz para Comunicações" A edição publicada em fevereiro de 1988 relatou uma ampla gama de tecnologias de compressão de bits de áudio estabelecidas e funcionais, algumas delas usando mascaramento auditivo como parte de seu design fundamental e várias mostrando implementações de hardware em tempo real.

Desenvolvimento

A gênese da tecnologia MP3 é totalmente descrita em um artigo do professor Hans Musmann, que presidiu o grupo ISO MPEG Audio por vários anos. Em dezembro de 1988, o MPEG pediu um padrão de codificação de áudio. Em junho de 1989, 14 algoritmos de codificação de áudio foram submetidos. Devido a certas semelhanças entre essas propostas de codificação, elas foram agrupadas em quatro grupos de desenvolvimento. O primeiro grupo foi o ASPEC, da Fraunhofer Gesellschaft, AT&T, France Telecom, Deutsche e Thomson-Brandt. O segundo grupo foi o MUSICAM, da Matsushita, CCETT, ITT e Philips. O terceiro grupo foi o ATAC (ATRAC Coding), da Fujitsu, JVC, NEC e Sony. E o quarto grupo foi o SB-ADPCM, pela NTT e BTRL.

Os antecessores imediatos do MP3 foram "Codificação ideal no domínio da frequência" (OCF) e Codificação de Transformação Perceptiva (PXFM). Esses dois codecs, juntamente com as contribuições de comutação de blocos da Thomson-Brandt, foram fundidos em um codec chamado ASPEC, que foi submetido ao MPEG e venceu a competição de qualidade, mas foi erroneamente rejeitado por ser muito complexo de implementar. A primeira implementação prática de um codificador de percepção de áudio (OCF) em hardware (o hardware de Krasner era muito pesado e lento para uso prático), foi uma implementação de um codificador de transformação psicoacústica baseado em chips Motorola 56000 DSP.

Outro predecessor do formato e tecnologia MP3 pode ser encontrado no codec perceptivo MUSICAM baseado em um banco de filtros de 32 sub-bandas de aritmética inteira, dirigido por um modelo psicoacústico. Foi projetado principalmente para Digital Audio Broadcasting (rádio digital) e TV digital, e seus princípios básicos foram divulgados à comunidade científica pela CCETT (França) e IRT (Alemanha) em Atlanta durante uma conferência IEEE-ICASSP em 1991, depois de ter trabalhado na MUSICAM com Matsushita e Philips desde 1989.

Este codec incorporado a um sistema de transmissão usando modulação COFDM foi demonstrado no ar e em campo com a Radio Canada e CRC Canada durante o show NAB (Las Vegas) em 1991. A implementação da parte de áudio deste sistema de transmissão foi baseada em um codificador de dois chips (um para a transformada de subbanda, um para o modelo psicoacústico projetado pela equipe de G. Stoll (IRT Alemanha), mais tarde conhecido como modelo psicoacústico I) e um decodificador em tempo real usando um chip Motorola 56001 DSP rodando um software de aritmética inteira projetado por Y.F. Equipe Dehery (CCETT, França). A simplicidade do decodificador correspondente junto com a alta qualidade de áudio deste codec usando pela primeira vez uma frequência de amostragem de 48 kHz, um formato de entrada de 20 bits/sample (o mais alto padrão de amostragem disponível em 1991, compatível com o AES/EBU profissional digital padrão de estúdio de entrada) foram os principais motivos para adotar posteriormente as características do MUSICAM como os recursos básicos para um codec avançado de compressão de música digital.

Durante o desenvolvimento do software de codificação MUSICAM, a equipe de Stoll e Dehery fez uso minucioso de um conjunto de material de avaliação de áudio de alta qualidade selecionado por um grupo de profissionais de áudio da European Broadcasting Union e posteriormente usado como um referência para a avaliação de codecs de compressão de música. A técnica de codificação de subbanda mostrou-se eficiente, não apenas para a codificação perceptiva dos materiais sonoros de alta qualidade, mas especialmente para a codificação de materiais sonoros percussivos críticos (bateria, triângulo,...), devido ao efeito de mascaramento temporal específico do banco de filtros de sub-banda MUSICAM (sendo esta vantagem uma característica específica das técnicas de codificação de transformação curta).

Como estudante de doutorado na Universidade Alemã de Erlangen-Nuremberg, Karlheinz Brandenburg começou a trabalhar na compressão de música digital no início dos anos 80, focando em como as pessoas percebem a música. Ele concluiu seu trabalho de doutorado em 1989. MP3 é descendente direto de OCF e PXFM, representando o resultado da colaboração de Brandenburg - trabalhando como pesquisador de pós-doutorado no AT&T-Bell Labs com James D. Johnston ("JJ&# 34;) do AT&T-Bell Labs — com o Fraunhofer Institute for Integrated Circuits, Erlangen (onde trabalhou com Bernhard Grill e quatro outros pesquisadores – "The Original Six"), com contribuições relativamente menores do Ramo MP2 de codificadores de sub-banda psicoacústica. Em 1990, Brandenburg tornou-se professor assistente em Erlangen-Nuremberg. Enquanto estava lá, ele continuou a trabalhar na compressão de música com cientistas do Instituto Heinrich Herz da Fraunhofer Society. Em 1993, ele se juntou à equipe do Fraunhofer HHI. A música "Tom's Diner" de Suzanne Vega foi a primeira música usada por Karlheinz Brandenburg para desenvolver o formato MP3. Brandenburg adotou a música para fins de teste, ouvindo-a repetidamente cada vez que refinava o esquema, certificando-se de que não afetasse negativamente a sutileza da voz de Vega. Conseqüentemente, ele apelidou Vega de "Mãe do MP3".

Padronização

Em 1991, havia duas propostas disponíveis que foram avaliadas para um padrão de áudio MPEG: MUSICAM (Masking pattern adapted Universal S ubband Iintegrado Coding And Multiplexing) e ASPEC (Adaptive Eespectral Perceptual Entropia Coding). A técnica MUSICAM, proposta pela Philips (Holanda), CCETT (França), Institute for Broadcast Technology (Alemanha) e Matsushita (Japão), foi escolhida devido à sua simplicidade e robustez a erros, bem como ao seu alto nível de eficiência computacional. eficiência. O formato MUSICAM, baseado na codificação de sub-banda, tornou-se a base para o formato de compressão MPEG Audio, incorporando, por exemplo, sua estrutura de quadros, formato de cabeçalho, taxas de amostragem, etc.

Embora grande parte da tecnologia e ideias da MUSICAM tenham sido incorporadas à definição de MPEG Audio Layer I e Layer II, o banco de filtros sozinho e a estrutura de dados baseada em 1152 amostras de enquadramento (formato de arquivo e fluxo orientado a bytes) da MUSICAM permaneceram no Formato Layer III (MP3), como parte do banco de filtros híbridos computacionalmente ineficiente. Sob a presidência do Professor Musmann da Leibniz University Hannover, a edição do padrão foi delegada a Leon van de Kerkhof (Holanda), Gerhard Stoll (Alemanha) e Yves-François Dehery (França), que trabalharam na Camada I e na Camada II. ASPEC foi uma proposta conjunta da AT&T Bell Laboratories, Thomson Consumer Electronics, Fraunhofer Society e CNET. Ele forneceu a maior eficiência de codificação.

Um grupo de trabalho composto por van de Kerkhof, Stoll, Leonardo Chiariglione (CSELT VP for Media), Yves-François Dehery, Karlheinz Brandenburg (Alemanha) e James D. Johnston (Estados Unidos) pegou ideias da ASPEC, integrou o filtro bank da Layer II, adicionaram algumas de suas próprias ideias, como a codificação estéreo conjunta da MUSICAM e criaram o formato MP3, que foi projetado para alcançar a mesma qualidade a 128 kbit/s que o MP2 a 192 kbit/s.

Os algoritmos para MPEG-1 Audio Layer I, II e III foram aprovados em 1991 e finalizados em 1992 como parte do MPEG-1, o primeiro conjunto de padrões do MPEG, que resultou no padrão internacional ISO/IEC 11172-3 (também conhecido como Áudio MPEG-1 ou MPEG-1 Parte 3), publicado em 1993. Arquivos ou fluxos de dados em conformidade com este padrão devem lidar com amostras taxas de 48k, 44100 e 32k e continuam a ser suportadas pelos atuais MP3 players e decodificadores. Assim, a primeira geração de MP3 definiu $14 \times 3 = 42$ interpretações de estruturas de dados de quadro de MP3 e layouts de tamanho.

Mais trabalhos em áudio MPEG foram finalizados em 1994 como parte do segundo conjunto de padrões MPEG, MPEG-2, mais formalmente conhecido como padrão internacional ISO/IEC 13818-3 (também conhecido como MPEG-2 Parte 3 ou compatível com versões anteriores MPEG-2 Audio ou MPEG-2 Audio BC), publicado originalmente em 1995. MPEG-2 Parte 3 (ISO /IEC 13818-3) definiu 42 taxas de bits adicionais e taxas de amostragem para MPEG-1 Audio Layer I, II e III. As novas taxas de amostragem são exatamente a metade daquelas originalmente definidas no áudio MPEG-1. Essa redução na taxa de amostragem serve para cortar a fidelidade de frequência disponível pela metade, ao mesmo tempo em que reduz a taxa de bits em 50%. O MPEG-2 Parte 3 também aprimorou o áudio do MPEG-1, permitindo a codificação de programas de áudio com mais de dois canais, até 5.1 multicanal. Um MP3 codificado com MPEG-2 resulta em metade da largura de banda de reprodução do MPEG-1 apropriado para piano e canto.

Uma terceira geração de "MP3" os fluxos de dados de estilo (arquivos) estenderam as ideias e a implementação do MPEG-2, mas foi denominado áudio MPEG-2.5, pois o MPEG-3 já tinha um significado diferente. Esta extensão foi desenvolvida no Fraunhofer IIS, os detentores de patentes registradas do MP3, reduzindo o campo de sincronismo do quadro no cabeçalho do MP3 de 12 para 11 bits. Como na transição de MPEG-1 para MPEG-2, o MPEG-2.5 adiciona taxas de amostragem adicionais exatamente a metade daquelas disponíveis usando MPEG-2. Assim, ele amplia o escopo do MP3 para incluir fala humana e outras aplicações, mas requer apenas 25% da largura de banda (reprodução de frequência) possível usando taxas de amostragem MPEG-1. Embora não seja um padrão reconhecido pela ISO, o MPEG-2.5 é amplamente suportado por reprodutores de áudio digital chineses e de marca, bem como codificadores MP3 baseados em software de computador (LAME), decodificadores (FFmpeg) e reprodutores (MPC) adicionando $3 \times 8 = 24$ tipos de quadros MP3 adicionais. Cada geração de MP3 suporta, portanto, 3 taxas de amostragem exatamente a metade da geração anterior para um total de 9 variedades de arquivos no formato MP3. A tabela de comparação da taxa de amostragem entre MPEG-1, 2 e 2.5 é fornecida posteriormente neste artigo. O MPEG-2.5 é suportado pelo LAME (desde 2000), Media Player Classic (MPC), iTunes e FFmpeg.

O MPEG-2.5 não foi desenvolvido pela MPEG (veja acima) e nunca foi aprovado como padrão internacional. O MPEG-2.5 é, portanto, uma extensão não oficial ou proprietária do formato MP3. No entanto, é onipresente e especialmente vantajoso para aplicações de fala humana de baixa taxa de bits.

Versões MPEG Audio Layer III
Versão	Norma Internacional	Primeira edição data de lançamento público	Data de lançamento pública da última edição
Camadas de áudio MPEG-1 III	ISO/IEC 11172-3 (MPEG-1 Parte 3)	1993
MPEG-2 camada de áudio III	ISO/IEC 13818-3 (MPEG-2 Parte 3)	1995	1998
MPEG-2.5 Audio Layer III	não padrão, proprietário	2000	2008

O padrão ISO ISO/IEC 11172-3 (a.k.a. MPEG-1 Audio) definiu três formatos: o MPEG-1 Audio Layer I, Layer II e Layer III. O padrão ISO ISO/IEC 13818-3 (a.k.a. MPEG-2 Audio) definiu a versão estendida do áudio MPEG-1: MPEG-2 Audio Layer I, Layer II e Layer III. MPEG-2 Audio (MPEG-2 Parte 3) não deve ser confundido com MPEG-2 AAC (MPEG-2 Parte 7 – ISO/IEC 13818-7).

A eficiência de compressão dos codificadores é normalmente definida pela taxa de bits, porque a taxa de compressão depende da profundidade de bits e da taxa de amostragem do sinal de entrada. No entanto, as taxas de compressão são frequentemente publicadas. Eles podem usar os parâmetros do Compact Disc (CD) como referências (44,1 kHz, 2 canais a 16 bits por canal ou 2 × 16 bits) ou, às vezes, os parâmetros SP da fita de áudio digital (DAT) (48 kHz, 2 × 16 bits). As taxas de compressão com esta última referência são maiores, o que demonstra o problema com o uso do termo taxa de compressão para codificadores com perdas.

Karlheinz Brandenburg usou uma gravação em CD da música de Suzanne Vega, "Tom's Diner" para avaliar e refinar o algoritmo de compressão de MP3. Essa música foi escolhida por sua natureza quase monofônica e amplo conteúdo espectral, tornando mais fácil ouvir imperfeições no formato de compressão durante as reproduções. Esta faixa em particular tem uma propriedade interessante em que os dois canais são quase, mas não completamente, os mesmos, levando a um caso em que a depressão do nível de máscara binaural causa desmascaramento espacial de artefatos de ruído, a menos que o codificador reconheça adequadamente a situação e aplique correções semelhantes àquelas detalhada no modelo psicoacústico MPEG-2 AAC. Alguns trechos de áudio mais críticos (glockenspiel, triângulo, acordeão, etc.) foram retirados do CD de referência EBU V3/SQAM e foram usados por engenheiros de som profissionais para avaliar a qualidade subjetiva dos formatos de áudio MPEG. LAME é o codificador de MP3 mais avançado. O LAME inclui uma codificação de taxa de bits variável VBR que usa um parâmetro de qualidade em vez de uma meta de taxa de bits. Versões posteriores (2008+) suportam uma meta de qualidade n.nnn que seleciona automaticamente as taxas de amostragem MPEG-2 ou MPEG-2.5 conforme apropriado para gravações de fala humana que precisam apenas de resolução de largura de banda de 5512 Hz.

Abrindo o capital

Uma implementação de software de simulação de referência, escrita na linguagem C e mais tarde conhecida como ISO 11172-5, foi desenvolvida (em 1991–1996) pelos membros do comitê ISO MPEG Audio para produzir arquivos de áudio MPEG compatíveis com bits (Camada 1, Camada 2, Camada 3). Foi aprovado como um rascunho do relatório técnico ISO/IEC em março de 1994 e impresso como documento CD 11172-5 em abril de 1994. Foi aprovado como um rascunho do relatório técnico (DTR/DIS) em novembro de 1994, finalizado em 1996 e publicado como padrão internacional ISO/IEC TR 11172-5:1998 em 1998. O software de referência em linguagem C foi posteriormente publicado como um padrão ISO disponível gratuitamente. Trabalhando em tempo não real em vários sistemas operacionais, foi capaz de demonstrar a primeira decodificação de hardware em tempo real (baseada em DSP) de áudio compactado. Algumas outras implementações em tempo real de codificadores e decodificadores de áudio MPEG estavam disponíveis para fins de transmissão digital (rádio DAB, televisão DVB) para receptores de consumidores e decodificadores.

Em 7 de julho de 1994, a Fraunhofer Society lançou o primeiro software codificador de MP3, chamado l3enc. A extensão de arquivo .mp3 foi escolhida pela equipe do Fraunhofer em 14 de julho de 1995 (anteriormente, os arquivos eram denominados .bit). Com o primeiro software em tempo real MP3 player WinPlay3 (lançado em 9 de setembro de 1995), muitas pessoas foram capazes de codificar e reproduzir arquivos MP3 em seus PCs. Por causa dos discos rígidos relativamente pequenos da época (≈500–1000 MB), a compactação com perdas era essencial para armazenar vários álbuns' valor da música em um computador doméstico como gravações completas (em oposição à notação MIDI ou arquivos de rastreamento que combinavam a notação com gravações curtas de instrumentos tocando notas únicas).

Implementação de exemplo de Fraunhofer

Um hacker chamado SoloH descobriu o código-fonte do "dist10" Implementação de referência MPEG logo após o lançamento nos servidores da Universidade de Erlangen. Ele desenvolveu uma versão de maior qualidade e a divulgou na internet. Este código iniciou a difundida cópia de CD e distribuição de música digital como MP3 pela internet.

Distribuição pela Internet

Na segunda metade da década de 1990, os arquivos MP3 começaram a se espalhar na Internet, muitas vezes por meio de redes clandestinas de música pirata. A primeira experiência conhecida de distribuição na Internet foi organizada no início dos anos 1990 pelo Internet Underground Music Archive, mais conhecido pelo acrônimo IUMA. Depois de alguns experimentos usando arquivos de áudio não compactados, este arquivo começou a fornecer na Internet nativa mundial de baixa velocidade alguns arquivos de áudio MPEG compactados usando o formato MP2 (Layer II) e, posteriormente, arquivos MP3 usados quando o padrão foi totalmente concluído. A popularidade dos MP3s começou a crescer rapidamente com o advento do reprodutor de áudio Winamp da Nullsoft, lançado em 1997. Em 1998, o primeiro reprodutor de áudio digital portátil de estado sólido MPMan, desenvolvido pela SaeHan Information Systems, com sede em Seul, Coréia do Sul, foi lançado e o Rio PMP300 foi vendido posteriormente em 1998, apesar dos esforços de supressão legal da RIAA.

Em novembro de 1997, o site mp3.com oferecia gratuitamente milhares de MP3s criados por artistas independentes. O tamanho pequeno dos arquivos MP3 permitiu o compartilhamento generalizado de arquivos ponto a ponto de músicas extraídas de CDs, o que antes seria quase impossível. A primeira grande rede de compartilhamento de arquivos peer-to-peer, Napster, foi lançada em 1999. A facilidade de criar e compartilhar MP3s resultou em ampla violação de direitos autorais. As principais gravadoras argumentaram que esse compartilhamento gratuito de música reduzia as vendas e o chamavam de "pirataria de música". Eles reagiram entrando com ações judiciais contra o Napster, que acabou sendo fechado e posteriormente vendido, e contra usuários individuais que se envolveram no compartilhamento de arquivos.

O compartilhamento não autorizado de arquivos MP3 continua nas redes peer-to-peer de última geração. Alguns serviços autorizados, como Beatport, Bleep, Juno Records, eMusic, Zune Marketplace, Walmart.com, Rhapsody, a reencarnação aprovada pela indústria fonográfica do Napster e Amazon.com vendem música sem restrições no formato MP3.

Design

Estrutura do arquivo

Diagrama da estrutura de um arquivo MP3 (versão MPEG 2.5 não suportada, daí 12 em vez de 11 bits para MP3 Sync Word).

Um arquivo MP3 é composto de quadros MP3, que consistem em um cabeçalho e um bloco de dados. Essa sequência de quadros é chamada de fluxo elementar. Devido ao "reservatório de bits", os quadros não são itens independentes e geralmente não podem ser extraídos em limites de quadros arbitrários. Os blocos de dados MP3 contêm as informações de áudio (comprimidas) em termos de frequências e amplitudes. O diagrama mostra que o cabeçalho MP3 consiste em uma palavra de sincronização, que é usada para identificar o início de um quadro válido. Isso é seguido por um bit indicando que este é o padrão MPEG e dois bits que indicam que a camada 3 é usada; daí MPEG-1 Audio Layer 3 ou MP3. Depois disso, os valores serão diferentes, dependendo do arquivo MP3. ISO/IEC 11172-3 define o intervalo de valores para cada seção do cabeçalho junto com a especificação do cabeçalho. A maioria dos arquivos MP3 hoje contém metadados ID3, que precedem ou seguem os quadros MP3, conforme observado no diagrama. O fluxo de dados pode conter uma soma de verificação opcional.

O estéreo conjunto é feito apenas quadro a quadro.

Codificação e decodificação

O algoritmo de codificação de MP3 geralmente é dividido em quatro partes. A parte 1 divide o sinal de áudio em partes menores, chamadas de quadros, e um filtro modificado de transformação discreta de cosseno (MDCT) é executado na saída. A Parte 2 passa a amostra para uma transformada rápida de Fourier (FFT) de 1024 pontos, então o modelo psicoacústico é aplicado e outro filtro MDCT é executado na saída. A Parte 3 quantifica e codifica cada amostra, conhecida como alocação de ruído, que se ajusta para atender aos requisitos de taxa de bits e mascaramento de som. A parte 4 formata o bitstream, chamado de quadro de áudio, que é composto de 4 partes, o cabeçalho, a verificação de erros, os dados de áudio e os dados auxiliares.

O padrão MPEG-1 não inclui uma especificação precisa para um codificador de MP3, mas fornece exemplos de modelos psicoacústicos, loop de taxa e similares na parte não normativa do padrão original. O MPEG-2 dobra o número de taxas de amostragem suportadas e o MPEG-2.5 adiciona mais 3. Quando isso foi escrito, as implementações sugeridas eram bastante datadas. Os implementadores do padrão deveriam desenvolver seus próprios algoritmos adequados para remover partes das informações da entrada de áudio. Como resultado, muitos codificadores de MP3 diferentes se tornaram disponíveis, cada um produzindo arquivos de qualidade diferente. As comparações estavam amplamente disponíveis, por isso era fácil para um possível usuário de um codificador pesquisar a melhor escolha. Alguns codificadores que eram proficientes na codificação em taxas de bits mais altas (como LAME) não eram necessariamente tão bons em taxas de bits mais baixas. Com o tempo, o LAME evoluiu no site SourceForge até se tornar o codificador CBR MP3 de fato. Mais tarde, um modo ABR foi adicionado. O trabalho progrediu na taxa de bits variável real usando uma meta de qualidade entre 0 e 10. Eventualmente, números (como -V 9.600) poderiam gerar codificação de voz de baixa taxa de bits de excelente qualidade a apenas 41 kbit/s usando as extensões MPEG-2.5.

Durante a codificação, 576 amostras no domínio do tempo são obtidas e transformadas em 576 amostras no domínio da frequência. Se houver um transiente, 192 amostras serão coletadas em vez de 576. Isso é feito para limitar a propagação temporal do ruído de quantização que acompanha o transiente (consulte psicoacústica). A resolução de frequência é limitada pelo pequeno tamanho da janela de bloco longo, o que diminui a eficiência da codificação. A resolução de tempo pode ser muito baixa para sinais altamente transitórios e pode causar manchas nos sons percussivos.

Devido à estrutura em árvore do banco de filtros, os problemas de pré-eco são agravados, pois a resposta de impulso combinada dos dois bancos de filtros não fornece e não pode fornecer uma solução ótima em resolução de tempo/frequência. Além disso, a combinação dos dois bancos de filtros' cria problemas de aliasing que devem ser tratados parcialmente pela "compensação de aliasing" estágio; no entanto, isso cria um excesso de energia a ser codificada no domínio da frequência, diminuindo assim a eficiência da codificação.

A decodificação, por outro lado, é cuidadosamente definida no padrão. A maioria dos decodificadores é "compatível com bitstream", o que significa que a saída descompactada que eles produzem de um determinado arquivo MP3 será a mesma, dentro de um grau especificado de tolerância de arredondamento, que a saída especificada matematicamente no ISO/IEC documento de alto padrão (ISO/IEC 11172-3). Portanto, a comparação de decodificadores geralmente é baseada em quão eficientes computacionalmente eles são (ou seja, quanta memória ou tempo de CPU eles usam no processo de decodificação). Com o tempo, essa preocupação se tornou menos problemática, pois as taxas de clock da CPU passaram de MHz para GHz. O atraso geral do codificador/decodificador não está definido, o que significa que não há provisão oficial para reprodução contínua. No entanto, alguns codificadores, como o LAME, podem anexar metadados adicionais que permitirão aos jogadores que possam lidar com isso oferecer uma reprodução perfeita.

Qualidade

Ao executar a codificação de áudio com perdas, como criar um fluxo de dados MP3, há uma compensação entre a quantidade de dados gerados e a qualidade do som dos resultados. A pessoa que gera um MP3 seleciona uma taxa de bits, que especifica quantos kilobits por segundo de áudio são desejados. Quanto maior a taxa de bits, maior será o fluxo de dados MP3 e, geralmente, mais próximo soará da gravação original. Com uma taxa de bits muito baixa, artefatos de compressão (ou seja, sons que não estavam presentes na gravação original) podem ser audíveis na reprodução. Alguns áudios são difíceis de compactar por causa de sua aleatoriedade e ataques precisos. Quando esse tipo de áudio é compactado, geralmente são ouvidos artefatos como toque ou pré-eco. Uma amostra de aplausos ou um instrumento triangular com uma taxa de bits relativamente baixa fornecem bons exemplos de artefatos de compressão. A maioria dos testes subjetivos de codecs perceptivos tende a evitar o uso desses tipos de materiais sonoros, no entanto, os artefatos gerados por sons percussivos são quase imperceptíveis devido ao recurso de mascaramento temporal específico do banco de filtros de 32 sub-bandas da Camada II no qual o formato é baseado.

Além da taxa de bits de um trecho de áudio codificado, a qualidade do som codificado em MP3 também depende da qualidade do algoritmo do codificador, bem como da complexidade do sinal que está sendo codificado. Como o padrão MP3 permite um pouco de liberdade com algoritmos de codificação, diferentes codificadores apresentam qualidade bastante diferente, mesmo com taxas de bits idênticas. Por exemplo, em um teste de audição pública com dois codificadores de MP3 antigos configurados em cerca de 128 kbit/s, um obteve 3,66 em uma escala de 1 a 5, enquanto o outro obteve apenas 2,22. A qualidade depende da escolha do codificador e dos parâmetros de codificação.

Essa observação causou uma revolução na codificação de áudio. No início, a taxa de bits era a principal e única consideração. Na época, os arquivos MP3 eram do tipo mais simples: eles usavam a mesma taxa de bits para o arquivo inteiro: esse processo é conhecido como codificação Constant Bit Rate (CBR). O uso de uma taxa de bits constante torna a codificação mais simples e consome menos CPU. No entanto, também é possível otimizar o tamanho do arquivo criando arquivos em que a taxa de bits muda em todo o arquivo. Estes são conhecidos como taxa de bits variável. O reservatório de bits e a codificação VBR eram, na verdade, parte do padrão MPEG-1 original. O conceito por trás deles é que, em qualquer peça de áudio, algumas seções são mais fáceis de comprimir, como silêncio ou música contendo apenas alguns tons, enquanto outras serão mais difíceis de comprimir. Assim, a qualidade geral do arquivo pode ser aumentada usando uma taxa de bits mais baixa para as passagens menos complexas e uma taxa mais alta para as partes mais complexas. Com alguns codificadores de MP3 avançados, é possível especificar uma determinada qualidade e o codificador ajustará a taxa de bits de acordo. Os usuários que desejam uma "configuração de qualidade" que é transparente para seus ouvidos pode usar esse valor ao codificar toda a sua música e, de modo geral, não precisa se preocupar em realizar testes de audição pessoal em cada peça musical para determinar a taxa de bits correta.

A qualidade percebida pode ser influenciada pelo ambiente de audição (ruído ambiente), atenção do ouvinte e treinamento do ouvinte e, na maioria dos casos, pelo equipamento de áudio do ouvinte (como placas de som, alto-falantes e fones de ouvido). Além disso, qualidade suficiente pode ser alcançada por uma configuração de qualidade inferior para palestras e aplicações de fala humana e reduz o tempo e a complexidade da codificação. Um teste aplicado a novos alunos pelo professor de música da Universidade de Stanford, Jonathan Berger, mostrou que a preferência dos alunos por músicas com qualidade de MP3 aumenta a cada ano. Berger disse que os alunos parecem preferir o 'chiado' sons que os MP3s trazem para a música.

Um estudo aprofundado da qualidade de áudio MP3, o projeto do artista sonoro e compositor Ryan Maguire, "The Ghost in the MP3" isola os sons perdidos durante a compressão de MP3. Em 2015, lançou a faixa "moDernisT" (um anagrama de "Tom's Diner"), composta exclusivamente a partir dos sons apagados durante a compressão em MP3 da música "Tom's Diner", faixa originalmente utilizada em a formulação do padrão MP3. Um relato detalhado das técnicas usadas para isolar os sons apagados durante a compressão do MP3, juntamente com a motivação conceitual para o projeto, foi publicado em 2014 Proceedings of the International Computer Music Conference.

Taxa de bits

A taxa de bits é o produto da taxa de amostragem e o número de bits por amostra usados para codificar a música. O áudio do CD é de 44100 amostras por segundo. O número de bits por amostra também depende do número de canais de áudio. CD é estéreo e 16 bits por canal. Portanto, multiplicar 44100 por 32 resulta em 1411200 - a taxa de bits do áudio digital de CD não compactado. O MP3 foi projetado para codificar esses dados de 1411 kbit/s a 320 kbit/s ou menos. Como passagens menos complexas são detectadas por algoritmos de MP3, taxas de bits mais baixas podem ser empregadas. Ao usar MPEG-2 em vez de MPEG-1, o MP3 suporta apenas taxas de amostragem mais baixas (16.000, 22.050 ou 24.000 amostras por segundo) e oferece opções de taxa de bits tão baixas quanto 8 kbit/s, mas não superiores a 160 kbit/s. Ao diminuir a taxa de amostragem, o MPEG-2 camada III remove todas as frequências acima da metade da nova taxa de amostragem que podem estar presentes na fonte de áudio.

Conforme mostrado nestas duas tabelas, 14 taxas de bits selecionadas são permitidas no padrão MPEG-1 Audio Layer III: 32, 40, 48, 56, 64, 80, 96, 112, 128, 160, 192, 224, 256 e 320 kbit/s, juntamente com as 3 frequências de amostragem mais altas disponíveis de 32, 44,1 e 48 kHz. MPEG-2 Audio Layer III também permite 14 taxas de bits um pouco diferentes (e principalmente mais baixas) de 8, 16, 24, 32, 40, 48, 56, 64, 80, 96, 112, 128, 144, 160 kbit/s com frequências de amostragem de 16, 22,05 e 24 kHz, que são exatamente a metade do MPEG-1. Os quadros MPEG-2.5 Audio Layer III são limitados a apenas 8 taxas de bits de 8, 16, 24, 32, 40, 48, 56 e 64 kbit/s com 3 frequências de amostragem ainda mais baixas de 8, 11,025 e 12 kHz. Em sistemas anteriores que suportam apenas o padrão MPEG-1 Audio Layer III, os arquivos MP3 com uma taxa de bits abaixo de 32 kbit/s podem ser reproduzidos em velocidade e intensidade.

Os sistemas anteriores também careciam de controles de reprodução de avanço e retrocesso rápidos em MP3.

Os quadros MPEG-1 contêm mais detalhes no modo de 320 kbit/s, a configuração de taxa de bits mais alta permitida, com silêncio e tons simples ainda exigindo 32 kbit/s. Os quadros MPEG-2 podem capturar reproduções de som de até 12 kHz necessárias até 160 kbit/s. Arquivos MP3 feitos com MPEG-2 não têm largura de banda de 20 kHz devido ao teorema de amostragem de Nyquist-Shannon. A reprodução de frequência é sempre estritamente menor que a metade da frequência de amostragem, e filtros imperfeitos requerem uma margem maior de erro (nível de ruído versus nitidez do filtro), portanto, uma taxa de amostragem de 8 kHz limita a frequência máxima a 4 kHz, enquanto uma amostragem de 48 kHz A taxa limita um MP3 a uma reprodução de som máxima de 24 kHz. O MPEG-2 usa metade e o MPEG-2.5 apenas um quarto das taxas de amostragem do MPEG-1.

Para o campo geral de reprodução de fala humana, uma largura de banda de 5512 Hz é suficiente para produzir excelentes resultados (para voz) usando a taxa de amostragem de 11025 e a codificação VBR do arquivo WAV 44100 (padrão). Os falantes de inglês têm em média 41–42 kbit/s com configuração -V 9.6, mas isso pode variar com a quantidade de silêncio gravado ou a taxa de entrega (wpm). A reamostragem para 12000 (largura de banda de 6K) é selecionada pelo parâmetro LAME -V 9.4. Da mesma forma, -V 9.2 seleciona uma taxa de amostragem de 16.000 e uma filtragem passa-baixa de 8K resultante. Para obter mais informações, consulte Nyquist – Shannon. Versões mais antigas de LAME e FFmpeg suportam apenas argumentos inteiros para o parâmetro de seleção de qualidade de taxa de bits variável. O parâmetro de qualidade n.nnn (-V) está documentado em lame.sourceforge.net, mas só é suportado no LAME com o novo seletor de qualidade de taxa de bits variável VBR—não a taxa de bits média (ABR).

Uma taxa de amostragem de 44,1 kHz é comumente usada para reprodução de música, porque também é usada para áudio de CD, a principal fonte usada para criar arquivos MP3. Uma grande variedade de taxas de bits é usada na Internet. Uma taxa de bits de 128 kbit/s é comumente usada, em uma taxa de compressão de 11:1, oferecendo qualidade de áudio adequada em um espaço relativamente pequeno. À medida que a disponibilidade de largura de banda da Internet e os tamanhos dos discos rígidos aumentam, taxas de bits mais altas de até 320 kbit/s são difundidas. O áudio não compactado armazenado em um CD de áudio tem uma taxa de bits de 1.411,2 kbit/s, (16 bits/amostra × 44100 amostras/segundo × 2 canais / 1.000 bits/kilobit), portanto, as taxas de bits 128, 160 e 192 kbit/s representam taxas de compressão de aproximadamente 11:1, 9:1 e 7:1, respectivamente.

Taxas de bits fora do padrão de até 640 kbit/s podem ser alcançadas com o codificador LAME e a opção de formato livre, embora poucos MP3 players possam reproduzir esses arquivos. De acordo com o padrão ISO, os decodificadores são necessários apenas para decodificar streams de até 320 kbit/s. Os primeiros codificadores MPEG Layer III usavam o que agora é chamado de Constant Bit Rate (CBR). O software só foi capaz de usar uma taxa de bits uniforme em todos os quadros em um arquivo MP3. Posteriormente, codificadores de MP3 mais sofisticados foram capazes de usar o reservatório de bits para atingir uma taxa de bits média, selecionando a taxa de codificação para cada quadro com base na complexidade do som naquela parte da gravação.

Um codificador de MP3 mais sofisticado pode produzir áudio de taxa de bits variável. O áudio MPEG pode usar a comutação de taxa de bits por quadro, mas apenas os decodificadores da camada III devem suportá-la. VBR é usado quando o objetivo é atingir um nível fixo de qualidade. O tamanho final do arquivo de uma codificação VBR é menos previsível do que com taxa de bits constante. Taxa de bits média é um tipo de VBR implementado como um compromisso entre os dois: a taxa de bits pode variar para uma qualidade mais consistente, mas é controlada para permanecer próxima a um valor médio escolhido pelo usuário, para tamanhos de arquivo previsíveis. Embora um decodificador de MP3 deva suportar VBR para ser compatível com os padrões, historicamente alguns decodificadores têm bugs com a decodificação VBR, particularmente antes dos codificadores VBR se tornarem difundidos. O codificador LAME MP3 mais evoluído suporta a geração de VBR, ABR e até mesmo os formatos CBR MP3 mais antigos.

O áudio da camada III também pode usar um "reservatório de bits", a capacidade de um quadro parcialmente completo de reter parte dos dados de áudio do próximo quadro, permitindo alterações temporárias na taxa de bits efetiva, mesmo em um fluxo de taxa de bits constante. O manuseio interno do reservatório de bits aumenta o atraso de codificação. Não há fator de escala na banda 21 (sfb21) para frequências acima de aproximadamente 16 kHz, forçando o codificador a escolher entre uma representação menos precisa na banda 21 ou armazenamento menos eficiente em todas as bandas abaixo da banda 21, o que resulta em taxa de bits desperdiçada na codificação VBR.

Dados auxiliares

O campo de dados auxiliares pode ser usado para armazenar dados definidos pelo usuário. Os dados auxiliares são opcionais e o número de bits disponíveis não é fornecido explicitamente. Os dados auxiliares estão localizados após os bits do código Huffman e variam para onde o main_data_begin do próximo quadro aponta. O codificador mp3PRO usou dados auxiliares para codificar informações extras que poderiam melhorar a qualidade do áudio quando decodificadas com seu próprio algoritmo.

Metadados

Uma "etiqueta" em um arquivo de áudio é uma seção do arquivo que contém metadados, como título, artista, álbum, número da faixa ou outras informações sobre o conteúdo do arquivo. Os padrões MP3 não definem formatos de tags para arquivos MP3, nem há um formato de contêiner padrão que suporte metadados e elimine a necessidade de tags. No entanto, existem vários padrões de facto para formatos de tags. A partir de 2010, os mais difundidos são ID3v1 e ID3v2, e o mais recentemente introduzido APEv2. Essas tags são normalmente incorporadas no início ou no final dos arquivos MP3, separadas dos dados reais do quadro MP3. Os decodificadores de MP3 extraem informações das tags ou apenas as tratam como dados inúteis que não são MP3.

O software de reprodução e edição geralmente contém a funcionalidade de edição de tags, mas também existem aplicativos editores de tags dedicados a essa finalidade. Além dos metadados pertencentes ao conteúdo de áudio, as tags também podem ser usadas para DRM. ReplayGain é um padrão para medir e armazenar o volume de um arquivo MP3 (normalização de áudio) em sua tag de metadados, permitindo que um player compatível com ReplayGain ajuste automaticamente o volume geral de reprodução de cada arquivo. O MP3Gain pode ser usado para modificar arquivos de forma reversível com base nas medições do ReplayGain, de modo que a reprodução ajustada possa ser obtida em players sem o recurso ReplayGain.

Licenciamento, propriedade e legislação

A tecnologia básica de decodificação e codificação de MP3 é livre de patentes na União Européia, todas as patentes expiraram em 2012, o mais tardar. Nos Estados Unidos, a tecnologia tornou-se substancialmente livre de patentes em 16 de abril de 2017 (veja abaixo). As patentes de MP3 expiraram nos EUA entre 2007 e 2017. No passado, muitas organizações reivindicaram a propriedade de patentes relacionadas à decodificação ou codificação de MP3. Essas reivindicações levaram a uma série de ameaças legais e ações de várias fontes. Como resultado, a incerteza sobre quais patentes devem ter sido licenciadas para criar produtos MP3 sem infringir patentes em países que permitem patentes de software foi uma característica comum dos estágios iniciais de adoção da tecnologia.

O padrão MPEG-1 inicial quase completo (partes 1, 2 e 3) foi disponibilizado ao público em 6 de dezembro de 1991 como ISO CD 11172. Na maioria dos países, as patentes não podem ser depositadas depois que o estado da técnica foi tornado público, e as patentes expiram 20 anos após a data do depósito inicial, que pode ser até 12 meses depois para depósitos em outros países. Como resultado, as patentes necessárias para implementar o MP3 expiraram na maioria dos países em dezembro de 2012, 21 anos após a publicação do ISO CD 11172.

Uma exceção são os Estados Unidos, onde as patentes em vigor, mas registradas antes de 8 de junho de 1995, expiram após 17 anos a partir da data de emissão ou 20 anos a partir da data de prioridade. Um longo processo de processamento de patentes pode resultar na emissão de uma patente muito mais tarde do que o normalmente esperado (consulte patentes submarinas). As várias patentes relacionadas ao MP3 expiraram em datas que variam de 2007 a 2017 nos Estados Unidos. Patentes para qualquer coisa divulgada na ISO CD 11172 registradas um ano ou mais após sua publicação são questionáveis. Se apenas as patentes de MP3 conhecidas registradas em dezembro de 1992 forem consideradas, a decodificação de MP3 está livre de patentes nos EUA desde 22 de setembro de 2015, quando U.S. A patente 5.812.672, que foi registrada no PCT em outubro de 1992, expirou. Se a patente mais antiga mencionada nas referências mencionadas for tomada como medida, a tecnologia MP3 tornou-se livre de patentes nos Estados Unidos em 16 de abril de 2017, quando U.S. A patente 6.009.399, mantida e administrada pela Technicolor, expirou. Como resultado, muitos projetos de software livre e de código aberto, como o sistema operacional Fedora, decidiram começar a fornecer suporte a MP3 por padrão, e os usuários não precisarão mais instalar pacotes não oficiais mantidos por repositórios de software de terceiros para MP3. reprodução ou codificação.

A Technicolor (anteriormente chamada de Thomson Consumer Electronics) afirmou controlar o licenciamento de MP3 das patentes da camada 3 em muitos países, incluindo Estados Unidos, Japão, Canadá e países da UE. A Technicolor vinha aplicando ativamente essas patentes. As receitas de licenças de MP3 da administração da Technicolor geraram cerca de € 100 milhões para a Fraunhofer Society em 2005. Em setembro de 1998, o Fraunhofer Institute enviou uma carta a vários desenvolvedores de software MP3 afirmando que uma licença era necessária para "distribuir e/ou vender decodificadores e/ou codificadores". A carta afirmava que os produtos não licenciados “infringem os direitos de patente da Fraunhofer and Thomson”. Para fazer, vender ou distribuir produtos usando o padrão [MPEG Layer-3] e, portanto, nossas patentes, você precisa obter uma licença sob essas patentes de nós." Isso levou a uma situação em que o projeto do codificador LAME MP3 não podia oferecer a seus usuários binários oficiais que pudessem ser executados em seus computadores. A posição do projeto era que, como código-fonte, LAME era simplesmente uma descrição de como um codificador de MP3 poderia ser implementado. Extraoficialmente, binários compilados estavam disponíveis em outras fontes.

A Sisvel S.p.A., uma empresa sediada em Luxemburgo, administra licenças de patentes aplicáveis ao MPEG Audio. Eles, junto com sua subsidiária nos Estados Unidos Audio MPEG, Inc. já processaram a Thomson por violação de patente na tecnologia MP3, mas essas disputas foram resolvidas em novembro de 2005 com a Sisvel concedendo à Thomson uma licença para suas patentes. A Motorola seguiu logo depois e assinou com a Sisvel para licenciar patentes relacionadas ao MP3 em dezembro de 2005. Com exceção de três patentes, as patentes dos EUA administradas pela Sisvel expiraram em 2015. As três exceções são: U.S. Patente 5.878.080, expirada em fevereiro de 2017; EUA Patente 5.850.456, expirada em fevereiro de 2017; e EUA Patente 5.960.037, expirou em 9 de abril de 2017.

Em setembro de 2006, autoridades alemãs apreenderam MP3 players do estande da SanDisk na feira IFA em Berlim depois que uma empresa italiana de patentes ganhou uma liminar em nome da Sisvel contra a SanDisk em uma disputa sobre direitos de licenciamento. A liminar foi posteriormente revertida por um juiz de Berlim, mas essa revogação foi bloqueada no mesmo dia por outro juiz do mesmo tribunal, "trazendo a Patente Velho Oeste para a Alemanha" nas palavras de um comentarista. Em fevereiro de 2007, a Texas MP3 Technologies processou a Apple, Samsung Electronics e Sandisk no tribunal federal do leste do Texas, alegando violação de uma patente de tocador de MP3 portátil que a Texas MP3 disse ter sido atribuída. Apple, Samsung e Sandisk resolveram as reclamações contra eles em janeiro de 2009.

A Alcatel-Lucent reivindicou várias patentes de codificação e compactação de MP3, supostamente herdadas da AT&T-Bell Labs, em seu próprio litígio. Em novembro de 2006, perante as empresas? fusão, a Alcatel processou a Microsoft por supostamente infringir sete patentes. Em 23 de fevereiro de 2007, um júri de San Diego concedeu à Alcatel-Lucent US$ 1,52 bilhão em danos por violação de dois deles. O tribunal posteriormente revogou a sentença, no entanto, concluindo que uma patente não havia sido infringida e que a outra não era propriedade da Alcatel-Lucent; era copropriedade da AT&T e Fraunhofer, que o licenciou para a Microsoft, decidiu o juiz. Esse julgamento de defesa foi mantido em apelação em 2008. Veja Alcatel-Lucent v. Microsoft para mais informações.

Tecnologias alternativas

Comparação entre MP3 e Vorbis

O primeiro é o arquivo WAV não comprimido. O segundo é um arquivo Vorbis codificado em 48kbit/s, e o terceiro é um MP3 codificado em 48kbit/s usando LAME.

Problemas com o arquivo? Veja ajuda na mídia.

Existem outros formatos com perdas. Entre eles, o Advanced Audio Coding (AAC) é o mais utilizado e foi projetado para ser o sucessor do MP3. Também existem outros formatos com perdas, como mp3PRO e MP2. Eles são membros da mesma família tecnológica do MP3 e dependem de modelos psicoacústicos e algoritmos MDCT mais ou menos semelhantes. Enquanto o MP3 usa uma abordagem de codificação híbrida que é parte MDCT e parte FFT, o AAC é puramente MDCT, melhorando significativamente a eficiência da compactação. Muitas das patentes básicas subjacentes a esses formatos são mantidas pela Fraunhofer Society, Alcatel-Lucent, Thomson Consumer Electronics, Bell, Dolby, LG Electronics, NEC, NTT Docomo, Panasonic, Sony Corporation, ETRI, JVC Kenwood, Philips, Microsoft e NTT.

Quando o mercado de players de áudio digital estava decolando, o MP3 foi amplamente adotado como padrão, daí o nome popular de "MP3 player". A Sony foi uma exceção e usou seu próprio codec ATRAC retirado de seu formato MiniDisc, que a Sony afirmou ser melhor. Após as críticas e as vendas do Walkman abaixo do esperado, em 2004 a Sony introduziu pela primeira vez o suporte nativo para MP3 em seus players Walkman.

Também existem formatos de compressão abertos como Opus e Vorbis que estão disponíveis gratuitamente e sem nenhuma restrição de patente conhecida. Alguns dos formatos de compressão de áudio mais recentes, como AAC, WMA Pro e Vorbis, estão livres de algumas limitações inerentes ao formato MP3 que não podem ser superadas por nenhum codificador de MP3.

Além dos métodos de compactação com perdas, os formatos sem perdas são uma alternativa significativa ao MP3 porque fornecem conteúdo de áudio inalterado, embora com um tamanho de arquivo maior em comparação com a compactação com perdas. Os formatos sem perdas incluem FLAC (Free Lossless Audio Codec), Apple Lossless e muitos outros.

Contenido relacionado

Más resultados...