Os sinais de som e imagem são gravados de diferentes formas ao longo da fita de vídeo, dispostos em trilhas na maioria das vezes diferentes uma das outras, tanto em sua forma como na disposição ao longo da área disponível para gravação.

Na fita de vídeo VHS a trilha da imagem é gravada de forma descontinuada, ao contrário das trilhas de uma fita cassete comum de som. Isto porque as informações de imagem são muito mais volumosas do que as de som, e a fita precisaria correr a uma velocidade enorme pela cabeça de leitura/gravação se a trilha fosse contínua. Isso é o que de fato ocorria no primeiro gravador de áudio/vídeo construído na década de 50: a fita era tracionada a uma velocidade de 5,08 m/seg. Para solucionar o problema, que acarretava tempos muito curtos de gravação por fita, optou-se por fazer com que a cabeça de gravação/leitura, que antes era estacionária (como nas fitas de áudio) passasse a girar em um cilindro em contato com a fita. Como este cilindro era disposto de forma inclinada em relação ao comprimento da fita, a trilha gravada deixava de ser contínua, passando a ser um conjunto de segmentos ligeiramente inclinados, algo parecido como hachuriar um retângulo. O desenho abaixo esquematiza as trilhas de som em uma fita cassete comum (esquerda) e as de imagem em uma fita de vídeo (direita):

Embora houvessem quebras na continuidade da trilha (passou a ser um conjunto de segmentos), o mecanismo, se bem ajustado e calibrado, conseguiria "emendar" corretamente as mesmas no momento da leitura. E, com isso, a velocidade de deslocamento da fita poderia ser bastante reduzida, aumentando o tempo de gravação. O primeiro gravador a funcionar deste modo foi o Quad, desenvolvido pela Ampex em 1956. O nome "Quad" derivava do fato de terem sido colocadas não uma e sim 4 cabeças nas bordas do cilindro. Posteriormente, na década de 60, o processo foi simplificado, em uma técnica denominada helical scan, passando a utilizar somente 2 cabeças, diametralmente opostas nas bordas do cilindro, com a fita passando a envolver boa parte da cabeça. O formato VHS foi criado utilizando essa técnica, com velocidade de deslocamento da fita de 33,35 mm/seg. no modo SP (Standard Play) mantida até hoje. No entanto o formato VHS permite também outras velocidades menores, como a LP (Long Play), com 16,7 mm/seg e a EP (Extended Play), com 11,4 mm/seg. O desenho abaixo mostra o cilindro inclinado com uma das cabeças (a outra está atrás) e em azul, na fita, os segmentos inclinados gravados / lidos por ela (as trilhas de imagem):

O desenho seguinte, abaixo, mostra o conjunto visto de cima e como a fita é envolvida na superfície do cilindro das cabeças. A presença das duas cabeças garante que uma delas esteja sempre em contato com a fita. O desenho mostra essas duas cabeças opostas no cilindro e a indicação do percurso da fita / sentido de rotação do cilindro (no desenho não aparece a inclinação do cilindro, por ser uma vista superior):

Além da fita ter que envolver boa parte do cilindro das cabeças, este tem diâmetro de cerca de 1/3 do comprimento do cassete, ou seja, é grande. Por este motivo, ao contrário das fitas cassete comuns de som, em um VCR a fita tem que sair para fora do cartucho para poder ser esticada ao redor do cilindro. Esta tarefa é executada por pequenos pinos e roletes-guia, que se movem para puxar a fita para fora do mesmo e posicioná-la corretamente, o que explica o tempo de alguns segundos entre a introdução da fita no aparelho e o início da reprodução / gravação. Entre estes roletes e pinos, um deles, giratório, encarrega-se de tracionar a fita, ao pressioná-la contra um pequeno cilindro de borracha.

No formato VHS, que até hoje utiliza este processo, a cada rotação completa do cilindro das cabeças são gravadas 2 trilhas inclinadas, cada qual contendo um campo completo do sinal de vídeo (cada cabeça grava um campo). No padrão NTSC e no padrão PAL-M (60 ciclos) o cilindro gira 30 vezes por segundo, gravando assim 30 quadros (60 campos) por segundo, ou, em outras palavras, sua velocidade de rotação é 1.800 rpm (rotações por minuto). Nos padrões PAL de 50 ciclos, onde são gravados 25 quadros por segundo, a velocidade de rotação é 1.500 rpm.

O sinal de som, gravado em sincronismo com o de imagem na fita, por conter muito menos informação não necessitava todo esse processo para poder ser gravado corretamente. Assim, no formato VHS foi criada inicialmente para o som uma trilha longitudinal, disposta em uma das bordas da fita, ao lado das trilhas inclinadas de vídeo. A princípio mono, com o passar do tempo passou a ser estéreo, sofrendo ligeiro estreitamento para que pudesse ser acrescentada outra trilha, paralela à mesma (canais esquerdo e direito). Porém, vários anos mais tarde, outro problema surgiu, com o advento da gravação de alta fidelidade (Hi-Fi): essas trilhas longitudinais eram trilhas de baixa-fidelidade (Lo-Fi), devido à baixa velocidade de deslocamento da fita em relação à cabeça estacionária de áudio (na velocidade maior, SP, a frequência máxima do som dessas trilhas é de 9.000 Hz, cerca da metade da obtida com um bom gravador cassete de som e na velocidade menor, EP, somente 5.000 Hz, similar à obtida em telefonia). Para solucionar o problema, o som Hi-Fi passou a ser gravado juntamente com o de vídeo, nas mesmas trilhas: 2 cabeças de áudio foram acrescentadas ao cilindro das cabeças de vídeo. Mas, como gravar dois sinais na mesma trilha sem que um deles interferisse no outro? Através de um processo denominado depth multiplexing

Imaginando-se uma calha de água de chuva de telhado, pode-se enchê-la com areia colorida (verde por exemplo) até a metade, e depois completar o enchimento até a borda com areia vermelha. Se a calha é a fita de vídeo, ampliada milhares de vezes, os grãos de areia são as partículas magnéticas da fita. A cabeça de áudio passa pela fita e magnetiza com tal intensidade as partículas que consegue atingir a camada verde e a vermelha. A seguir, vem a cabeça de vídeo, com intensidade menor para remagnetizar somente a camada superficial vermelha. Assim, tem-se dois sinais gravados, som e imagem, na mesma trilha, mas em profundidades diferentes ("depth"): na fita propriamente dita, o áudio é gravado a 4 microns da superfície e o vídeo a 0,7 microns (1 micron = 1 mm / 1000) . Essa trilha de som é lida em velocidade bem maior do que a longitudinal devido ao movimento das cabeças, daí o som ter qualidade próxima a do som de CD (Hi-Fi, onde a frequência varia de 20 a 20000 (Hertz, abreviado como hz (vibrações por seg)). E são, na verdade duas trilhas, ou seja, este som também é estéreo.

Existem no entanto outras diferenças entre essas trilhas de som: se apagarmos a trilha de som Hi-Fi, a trilha de imagem também é apagada (para desmagnetizar a "areia" verde tem-se que passar pela vermelha). É por isso que não é possível fazer-se audio-dub (substituição do som preservando a imagem) nessas trilhas. Em VHS, isso é possível somente nas trilhas de baixa fidelidade, que podem ser substituídas sem afetar a imagem. Durante a gravação, normalmente os dois tipos de trilhas são gravados.

O desenho abaixo esquematiza a disposição das trilhas de imagem e som na fita VHS:

Existe ainda outra trilha na fita: a Control Track. A cada volta completa do cilindro das cabeças giratórias um pulso é gravado nessa trilha. Na realidade esses pulsos servem para orientar o mecanismo no sincronismo da gravação/leitura das trilhas inclinadas de imagem, para que iniciem a leitura/gravação no ponto exato da fita. Existe uma cabeça estacionária de leitura e gravação somente para esta trilha, e é essa informação que aciona o contador luminoso do painel do vídeo do VCR (horas, minutos, segundos).

A largura de cada trilha inclinada no formato VHS varia de acordo com alguns fatores. Equipamentos profissionais gravam essas trilhas com 0,058mm de largura, no modo SP. No mesmo modo SP no entanto, os equipamentos do segmento consumidor / semi-profissional gravam as mesmas trilhas com 0,040mm de largura. Ainda, no primeiro caso, a maior largura das trilhas acarreta ligeira sobreposição das mesmas (0,002mm), enquanto que no segundo caso existe um espacejamento das mesmas (0,02mm). A maior largura das trilhas nos equipamentos profissionais faz com que aumente a tolerância a pequenos erros de deslocamento fita-cabeças durante a leitura. Esta característica, entre outras, faz com que fitas gravadas por estes equipamentos sejam bem reproduzidas mesmo em equipamentos com alguns desajustes, e explica porque as de modo geral as fitas disponíveis em locadoras apresentam boa reprodução na maioria dos VCRs. O desenho abaixo ilustra a diferença nas trilhas gravadas pelos dois tipos de equipamentos:

Outro fator que influencia a disposição e dimensão (largura) das trilhas é a velocidade de deslocamento da fita. Esta situação, que aplica-se somente aos VCRs do segmento consumidor / semi-profissional faz com que, quanto menor a velocidade da fita, mais próximas as trilhas fiquem umas das outras e mais estreitas elas sejam. Assim, enquanto que para esse tipo de equipamento a largura de cada trilha é de 0,040mm no modo SP, passa a ser de 0,030mm no modo LP e 0,020mm no modo EP. Nos modos LP / EP também passa a ocorrer sobreposição das mesmas, 0,01mm nos dois casos. Trilhas mais estreitas armazenam menos informação, acarretando imagem ruim. E a sobreposição, ao contrário do que ocorre nos equipamentos profissionais, onde é uma "sobra", aqui faz com que qualquer imprecisão no deslocamento fita-cabeça cause distúrbios na imagem. O desenho abaixo ilustra a disposição e tamanho das trilhas nos 3 modos de gravação:

Com o passar dos anos, outras variações do formato VHS foram surgindo, como o SVHS, VHS-C e SVHS-C. Porém para todos eles a disposição das trilhas na fita é a mesma.

No entanto, em outros formatos esta disposição muda.

Na fita de 8 mm as trilhas de imagem também são compostas por segmentos inclinados, como na VHS. A velocidade de rotação do cilindro é a mesma da do formato VHS, 1500 / 1800 rpm, e a velocidade de deslocamento da fita 14,4 mm/seg.. A largura de cada trilha inclinada é de 20,5 microns. No entanto, não existe nenhuma trilha longitudinal neste formato: o áudio é gravado juntamente com o vídeo, em um processo parecido com o utilizado no VHS, aqui denominado AFM (Audio Frequency Modulation). Apesar de ser um som Hi-Fi, geralmente não é estéreo: a maioria dos equipamentos grava apenas uma única trilha. Assim, também que não é possível fazer-se audio-dub nessa trilha, sem prejudicar a imagem. E junto com a informação de vídeo também é gravada a informação de controle do mecanismo das cabeças (papel desempenhado pela Control track no VHS).

O desenho abaixo esquematiza a disposição das trilhas de imagem e som na fita 8mm:

Embora as características de rotação do cilindro, dimensão das trilhas inclinadas e deslocamento da fita sejam as mesmas do formato 8mm, na fita Hi8 surgem algumas diferenças, com o aparecimento de duas novas trilhas: uma delas, destinada ao som, a PCM (Pulse Code Modulation). Como está localizada na sequência, logo após a trilha de imagem, a cabeça percorre a fita em velocidade alta: é uma trilha Hi-Fi (20Hz a 15.000Hz), aliás, duas, porque é estéreo. Neste caso é possível fazer-se audio-dub sem perturbar o sinal de imagem. No entanto, poucas câmeras - geralmente as mais sofisticadas - aproveitam o sinal de som PCM. E também nem todas as câmeras utilizam a outra trilha própria do formato Hi8: a trilha de Timecode.

O desenho abaixo esquematiza a disposição das trilhas de imagem e som na fita Hi-8:

As fitas do formato DV também mantém o processo de gravação de segmentos inclinados, porém com outros tipos de trilhas e disposição. No entanto, como a quantidade de informação a ser gravada é muito maior, a velocidade de rotação do cilindro das cabeças também é bem maior do que os 1.500 / 1.800 rpm dos formatos VHS/8mm: 9.000 rpm. A velocidade de deslocamento da fita é de 18,9 mm/seg. e a largura de cada trilha inclinada é 10 microns. Apesar da alta velocidade de rotação da cabeça a fita não se desloca muito mais rapidamente do que uma fita de 8mm por exemplo, porque aqui as trilhas somente tem que gravar informações digitais (zeros e uns) e não um range imenso de variação de voltagens, como no sistema analógico, por isso elas podem ser mais estreitas. E aqui estas trilhas dividem-se em quatro setores: áudio e vídeo separadas, Subcode e ITI. Separando estes setores, minúsculos espaços com informações para sincronismo do mecanismo todo, fazendo o papel da trilha de Tracking no formato VHS.

O áudio neste formato (PCM (Pulse Code Modulation)) possui duas opções de utilização: um par de trilhas estéreo de 16 bits de resolução sonora ou então dois pares de trilhas estéreo de 12 bits de resolução cada. Ao ser efetuada uma determinada amostra do som em um determinado instante, obtém-se um valor ' x ' para a frequência desse som. Em um instante seguinte, obtém-se um valor ' y '. Quanto mais valores diferentes forem possíveis de serem armazenados, melhor a qualidade sonora. Utilizando-se 16 bits para armazenamento, podem-se ter até 65.536 valores diferentes de frequências (é o maior número que é possível armazenar no sistema decimal quando converte-se para este sistema os 16 bits do sistema binário). Para efeito de comparação, a resolução de 16 bits é considerada semelhante á qualidade do som de um CD (o que também acontece com as trilhas Hi-Fi do VHS e do Hi8). Utilizando-se 12 bits tem-se 4.096 valores possíveis. Por outro lado a opção de se gravar dois pares ao invés de um permite a opção de audio-dub. Como há menos informação a ser armazenada, sobra espaço físico para a utilização de 2 trilhas ao invés de uma.

Para a opção 16 bits, a taxa de sampleamento utilizada pode ser de 48 KHz, 44 KHz ou 32 KHz (48.000 amostras por segundo, 44.000 ou 32.000). Quanto mais amostras são feitas por segundo, mais fiel e preciso é o som gravado em relação ao original. Nem todas as câmeras oferecem essas 3 opções. Para efeito de comparação, a taxa de sampleamento utilizada em um gravador DAT (Digital Audio Tape) é de 48 KHz e em CDs comuns, de 44,1 KHz.

Para a opção 12 bits, a taxa de sampleamento é sempre 32KHz.

A trilha Subcode armazena dados do Timecode, a data, hora, numeração da trilha e informações sobre o modo foto (still), entre outros.

A trilha ITI (Insert and Track Information) armazena informações para orientar o circuito eletrônico de leitura / gravação, registrando que tipo de informação está gravado em que trecho de cada trilha. As informações de insert consistem em um mapa mostrando onde a imagem e o som estão gravados, para permitir a inserção de novos sinais corretamente na fita. Ao contrário do sinal de imagem, o sinal destas trilhas auxiliares não é comprimido.

O desenho abaixo esquematiza a disposição das trilhas de imagem e som na fita DV:

O padrão do formato DV é utilizado nas fitas DV tamanho standard, assim como nas fitas Mini-DV e também nas do formato Digital-8. Há no entanto uma restrição com relação às trilhas de som: as câmeras Digital8 não gravam trilhas de 16 bits, somente a versão de 2 pares de 12 bits. E uma outra em relação à operação de audio-dub, não possibilitada por estas câmeras.