O mundo está em lenta, porém constante evolução: muitas vezes sem se dar conta, vamos abandonando coisas que fazíamos no passado para adaptar-se aos novos tempos. Como comprar caixinhas de filmes em rolo, na banca da esquina, para colocar na máquina fotográfica. Seja no celular com câmera ou na própria câmera digital, não nos preocupamos mais com isso. Mas, nessa época, no auge da fotografia analógica, era comum sabermos pedir um ou outro tipo de filme dizendo por exemplo "filme de ASA 100", ou então "filme de ASA 400". Havia ainda outra especificação, muito popular na Alemanha, a DIN - com valores tão semelhantes quanto as escalas de temperatura Celsius e Farenheit... Buscando uma padronização internacional, a ISO (International Organization for Standardization), padronizou as medidas ASA (American Standards Association) e DIN (Deutsches Institut für Normung) : hoje essas mesmas caixinhas exibem inscrições como ISO 100 ou ISO 400.

As especificações nos rótulos de filme foram padronizadas, mas o mundo apresentou novos desafios: os computadores, cada vez mais presentes no nosso dia a dia, trouxeram a digitalização para a sala de visitas ou de TV: o velho videocassete deu lugar ao DVD player. Imagens estáticas e depois vídeos invadiram o celular. No entanto, para se chegar aqui, novas padronizações tornaram-se ao longo do tempo necessárias.

Uma delas, mais antiga, dizia respeito às imagens fotográficas digitais. O mesmo ISO das caixinhas de filmes (criador também de dezenas de outros padrões) uniu-se em 1986 ao CCITT (Comité Consultatif International Téléphonique et Télégraphique) para criar o grupo Joint Photographic Experts Group, cujos trabalhos resultariam em 1994 no padrão JPEG de compressão para imagens digitais estáticas.

A compressão é necessária no mundo digital para reduzir o alto volume gerado pelas informações numéricas resultantes dos processos de digitalização de áudio e vídeo. Nesse processo, milhares de amostras são obtidas de cada trecho da imagem ou som, sendo a seguir convertidas em seqüências de números representando os valores de brilho / cor / sonoridade das amostras. É necessário então dispor de um meio de armazenamento capaz de guardar todos esses números. Como normalmente estes meios não comportam tanto volume de informação, entra em cena o processo de compressão.

E não é só isso: a compressão apresenta vantagens também na transmissão de vídeo, permitindo enviar um sinal com melhor qualidade, comprimido, ocupando o mesmo espaço de um sinal de menor qualidade, não-comprimido.

No padrão JPEG a imagem é dividida em quadrados de 8x8 pixels e através de complexos cálculos matemáticos é determinada uma cor 'média' para estes blocos de 64 pixels. Com isso ocorre perda de detalhes na compressão. Processos em que isto ocorre são conhecidos como 'lossy' (compressão com perda). Existem processos onde não ocorrem perdas ('lossless'), utilizados por exemplo no padrão GIF (Graphic InterFace, desenvolvido pela Compuserve) de compressão de imagens fotográficas. No entanto padrões como o GIF são apropriados para gráficos e não imagens fotográficas, porque o conjunto de cores tratados por eles (256 cores) é muito menor do que o utilizado em padrões como o JPEG.

Em janeiro de 1988 foi formado pelo ISO juntamente com o IEC (International Electrotechnical Commission) um grupo de trabalho denominado Motion Picture Experts Group, gerando uma sigla que se tornaria muito conhecida: MPEG. O grupo, formado para criar padrões internacionais de compressão de áudio e vídeo, criou então os algoritmos MPEG-1, MPEG-2 e MPEG-4 utilizados até hoje.

O uso de algoritmos MPEGs envolve sempre duas fases: a de compressão, onde imagem e/ou áudio são comprimidos gerando um conteúdo com tamanho total menor, pronto para ser por exemplo gravado em um disco óptico e a fase de recuperação desse conteúdo, também chamada de expansão, onde a imagem e/ou áudio originais são reconstituídos. A compressão é efetuada por um software denominado compressor e a expansão por um software denominado expansor. Esses nomes tem sinônimos mais conhecidos, respectivamente encoder e decoder. E o conjunto dos 2 forma a palavra codec, abreviação de coder (encoder) + decoder.

Os padrões MPEG trouxeram uma nova filosofia em sistemas de codificação, onde o processo de encoder é muito mais trabalhoso e complexo do que o inverso, de decoder. Como a decodificação é simples e rápida, facilita a proliferação de circuitos eletrônicos que realizam esse processo com eficiência, barateando os players, situação ideal para distribuição de conteúdo. Este fato também permite que novos encoders surjam com o passar do tempo, utilizando diferentes abordagens nos processos de compressão. Tem-se assim encoders que produzem imagens melhores do que outros, além dos mesmos serem geralmente parametrizados, ou seja, a qualidade da compressão (maior ou menor) pode ser ajustada. Do outro lado (decoders), tem-se um circuito padronizado capaz de reproduzir qualquer um desses tipos de dados comprimidos.

O MPEG-1 foi desenvolvido para gravar imagens de vídeo em um CD comum de áudio, mas boa parte das técnicas de compressão utilizadas neste algoritmo foram aproveitadas mais tarde nos algoritmos MPEG-2 e MPEG-4. Por sua vez, muitos princípios de codificação empregados no MPEG-1 foram derivados do algoritmo já existente à época para codificação de imagens estáticas, o citado JPEG.

Enquanto o MPEG-1 trabalha com somente 2 canais de áudio, o MPEG-2 extende esse limite, possibilitando aplicações como filmes com som surround 5.1. O MPEG-2, ao contrário do MPEG-1, permite a codificação de imagens de vídeo entrelaçadas (campos alternados par / ímpar), padrão utilizado atualmente nos sistemas de TV.

Pesquisas para padronizar compressão com qualidade variável (através de parâmetros), que se tornariam o padrão MPEG-3, já estavam prontas na época em que o MPEG-2 estava sendo finalizado. Assim, foram incorporadas ao próprio MPEG-2, de certa forma "matando" o MPEG-3. O popular mp3 empregado em músicas nada tem a ver com "MPEG-3" : mp3 é uma parte do MPEG-1 (MPEG-1 Audio Layer 3) destinada a tratar compressão de áudio, existindo ainda dois níveis (Layer 2 e Layer 1), correspondendo aos mp2 e mp1, onde respectivamente cada vez tem-se menos compressão e mais qualidade no resultado final - e também mais dados armazenados.

O MPEG-4 emprega mecanismos ainda mais sofisticados no encoder do que o MPEG-2. A escalabilidade, ajuste na qualidade final obtida, para mais ou para menos, obtendo-se um espaço total ocupado menor ou maior respectivamente, foi amplamente aumentada no MPEG-4. Isso permitiu seu uso em equipamentos os mais diversos, desde telefones celulares a transmissões em alguns sistemas de TV de alta definição (HDTV). E em 2001 a entidade MPEG passou a trabalhar em conjunto com a ITU (International Telecommunications Union) para desenvolver ainda mais o MPEG-4, criando o grupo o grupo JVT - Joint Video Team. O JVT criou então o Advanced Video Coding, conhecido como AVC, H.264 ou ainda MPEG-4 Part 10. Da mesma forma que o MPEG-4 em relação ao MPEG-2, o H.264 não produz uma imagem melhor visualmente, mas sim uma imagem gerada com uma quantidade menor de dados, ou seja, com muito menos informação armazenada.

A compressão com algoritmos do tipo MPEG é sempre do tipo lossy, o que, como vimos, significa compressão com perdas. Na realidade o que ocorre é que a imagem restituída pelo decoder não é exatamente idêntica em qualidade à imagem original antes de ser comprimida pelo encoder: sua qualidade é menor. O quanto menor ela é influi no resultado final observado a partir da reprodução do vídeo em um player. Apesar do fator perda, se o original tiver uma qualidade muito alta, mesmo com as perdas decorrentes da compressão o resultado final será muito bom. É isso o que ocorre com os DVDs de filmes alugados nas videolocadoras: são gravados em MPEG-2, a partir de películas cinematográficas trabalhadas em laboratórios especiais, que melhoram ainda mais a qualidade do processo, chegando muitas vezes a atuar em ajustes precisos quadro a quadro. A compressão de uma imagem de vídeo é tanto mais eficiente quanto menos "ruído" tiver o original, ou seja, quanto mais limpa for a imagem, sem defeitos como granulações causadas por exposição incorreta por exemplo, melhor.

Por outro lado, se o original não tiver qualidade suficiente, o resultado final, ainda que gravado em MPEG-2 em um DVD, ficará ruim porque, como visto, o processo de compressão sempre diminui a qualidade inicial da imagem.

Dois métodos diferentes de se comprimir imagens são utilizados no MPEG-2. O principal é o multi-frame, um tipo de compressão na qual cada quadro da imagem é comparado com o anterior e as modificações detectadas são anotadas passando a constituir a informação a ser armazenada (ao invés do quadro todo). O outro é o intra-frame, onde cada quadro é comprimido individualmente, sem comparação com os demais. O método intra-frame isoladamente é utilizado por exemplo nos formatos de vídeo da família DV. No caso do MPEG-2, os quadros sucessivos da imagem são trabalhados em conjuntos denominados GOP (Group Of Pictures). O primeiro quadro do conjunto é comprimido utilizando o método intra-frame e a seguir, os seguintes tem somente as diferenças em relação a este primeiro quadro anotadas. A partir de determinado ponto um novo conjunto é formado, da mesma forma, e assim por diante. A seguir, os quadros que armazenam somente as diferenças em relação ao primeiro são comparados e somente as diferenças entre eles são armazenadas. Assim, consegue-se uma diminuição considerável de espaço.

A tecnologia envolvida para fazer isso tudo é bem complexa. Em primeiro lugar, porque a compressão e descompressão de um quadro individualmente envolve o armazenamento temporário em memória de um conjunto de quadros anteriores e posteriores. Depois, porque os quadros são agrupados e armazenados em conjuntos, para os quais aplicam-se regras diferentes a cada elemento (quadro) do conjunto, alguns servindo somente para referência, outros para armazenar somente determinados parâmetros da imagem, etc.. E por fim, porque o movimento dos elementos dentro da imagem é calculado através de vetores analisados ao longo de todo o conjunto de quadros.

Uma determinada imagem pode ser mais "simples" ou mais "complexa" em termos de compressão: a imagem de uma estátua sobre o fundo azul do céu é mais fácil de ser comprimida do que sobre o fundo cheio de detalhes de uma floresta. A uniformidade do céu permite o armazenamento de poucos dados para que o mesmo possa ser reproduzido, como se houvesse um "carimbo" de pixels azuis que pudesse ser utilizado ao longo da maior parte do céu. O mesmo já não é possível para reproduzir os detalhes e nuances particulares de cada folha das árvores no segundo exemplo, cujas informações tem que ser individualmente armazenadas.

Enquanto os formatos que empregam compressão intra-frame são gravados em fita com taxas fixas de fluxo de informação (bit-rate), o mesmo não ocorre nos formatos que utilizam compressão multi-frame. Estes formatos foram desenvolvidos originalmente para uso em discos ópticos, como DVDs, um tipo de mídia que pode ser gravada com diferentes taxas de bit-rate, resultando em imagens com qualidades diferentes.

Novas mídias substituirão o DVD, assim como novos processos de compressão serão criados. É a evolução constante da tecnologia, que não dispensa, no entanto, a padronização internacional, principalmente em um mundo tornado cada vez menor com a derrubada de fronteiras e a globalização.