Para falar de megapixels, primeiro precisamos definir o que é um pixel. Em fotografia, o "pixel" é o menor círculo de confusão que o sistema (câmera mais lente) consegue produzir.
Este artigo sobre profundidade de campo fala mais sobre o assunto. Para resumir o assunto, nenhuma câmera ou lente é perfeita. Por mais perfeito que seja o foco, um ponto infinitamente pequeno de luz nunca será fotografado como um ponto, mas sim como um pequeno círculo... Às vezes nem tão pequeno, e às vezes mais parecendo um borrão que um círculo, mas vamos deixar estas complicações de lado.
Se considerássemos que 1 círculo de confusão = 1 pixel digital, a estimativa de megapixels seria muito baixa. Porém seria uma estimativa pessimista. Precisamos considerar o conceito de MTF, que é a diferença máxima de contraste entre dois pixels adjacentes. Pixels digitais possuem MTF de 100%, enquanto na fotografia um MTF de apenas 50% é considerado nitidez suficiente.
A animação abaixo mostra círculos de confusão de diferentes tamanhos, e sua "tradução" para pixels pelo sensor da câmera, conforme o ponto em que os círculos incidem sobre o sensor:
O MTF varia conforme os círculos de confusão caem no meio do pixel digital ou na borda, então vamos considerar o MTF médio. Na média, um círculo de confusão com 1,5 pixel digital de diâmetro produz um MTF em torno de 50%.
De posse desta relação, podemos estimar que 1 círculo de confusão = 1,5 pixels digitais. Com base nela, podemos estimar os megapixels "reais" de um sistema câmera-sensor-lente.
Por exemplo, um sistema que resolva 2000 linhas com nitidez na horizontal e 1500 linhas na vertical possui 6,75 megapixels efetivos: 2000×1500×1,5×1,5. Para atingir este patamar, que parece baixo mas na verdade é muito bom, o sensor da câmera deve possuir uma resolução bruta bem maior: 20 megapixels ou mais.
De um ponto de vista científico, faz muito mais sentido falar em linhas de resolução e MTF do que em megapixels, só que megapixel é uma unidade de medida que está "na boca do povo". É como dizer que um terreno é equivalente a 50 campos de futebol. O tamanho de um campo de futebol nem mesmo é fixo, mas é uma unidade de área que a pessoa comum entende prontamente.
O outro motivo de expressar nitidez em megapixels efetivos é que o destino final de quase toda imagem costuma ser a tela de um computador. Uma minoria das imagens é impressa. Como as telas são feitas de pixels, expressar as imagens na mesma unidade de medida faz sentido.
Uma tela Full HD possui 2 megapixels, então uma imagem precisa ter no mínimo essa resolução perceptual para parecer nítida em Full HD. (Na verdade, como uma tela pode reproduzir pixels com MTF de 100%, a nitidez melhora assintoticamente se a imagem possui resolução perceptual ainda maior.)
É oportuno lembrar que a noção de "megapixels perceptuais" foi popularizada pela empresa DxOLabs, que mantém um excelente site com testes de lentes e câmeras. No entanto, a definição deles é um segredo de negócio; a definição de megapixel perceptual deste artigo é inteiramente baseada em nossa própria pesquisa.
Dito tudo isso, como você pode estimar a resolução perceptual do equipamento que você tem? Câmeras, lentes, a mesma lente em diferentes aberturas, calibragem de foco — cada componente tem impacto enorme na resolução efetiva.
Um método empírico, mas muito simples e funcional, é o seguinte:
Se houver apenas um pixel cinza entre preto e branco, isto é MTF de 50%. Dois pixels cinzas, 33%. Três pixels cinzas: 25%. Quatro: 20%. Cinco: 17%. Em algumas situações podemos encontrar MTF's intermediários, quando há dois pixels cinzas, mas um deles é quase branco ou quase preto, então o contraste é necessariamente maior que 33%, mas menor que 50%.
Como você está tirando fotos na resolução nativa do sensor da câmera, é quase impossível o MTF ser melhor que 50%, e tipicamente será bem pior. No meu equipamento (Nikon D3200), apenas uma lente encosta em 50%: a famosa 35mm 1.8G DX, e isso ao custo de outras desvantagens. Essa lente consegue tal nitidez mesmo na maior abertura, o que também é raro. As demais lentes variam o MTF entre 16% a 40%.
De posse de uma estimativa do MTF, podemos estimar os megapixels perceptuais, fazendo a seguinte conta:
MPe = MP ÷ 0,52 × MTF2
A lógica da conta acima é a seguinte: dividimos os megapixels brutos (MP) pelo MTF de 0,5 (considerado "nítido o suficiente"), e multiplicamos pelo MTF encontrado. Como megapixel é uma medida de área, precisamos elevar os MTFs ao quadrado para compatibilizar as unidades.
Por exemplo, minha lente 50mm alcança um MTF de 40% no melhor caso, então a resolução perceptual dessa lente, na minha câmera (que tem 24,4MP brutos), é:
MPe = 24,2 ÷ 0,52 × 0,42
MPe = 96,8 × 0,16
MPe = 15,5 megapixels efetivos
O melhor caso desta lente é a abertura f/8. O MTF cai para 16% em f/1.8 e 33% em f/16, o que corresponde a resoluções perceptuais de 2.5MP e 10.6MP, respectivamente. O fraco desempenho na maior abertura não quer dizer que essa lente seja ruim. Numa câmera full-frame a resolução seria 5.5MP por conta da diferença de tamanho entre sensor full-frame e DX. O problema real aqui é usar uma lente full-frame, otimizada para full-frame, numa câmera DX. Meu zoom DX, que é considerada uma lente para amadores, tem MTF bem melhor na abertura máxima, porque é uma lente otimizada para DX.
Qual é a resolução efetiva aceitável? A meu ver, uma imagem com 6MP efetivos já pode ser considerada boa. Obter uma imagem com esta nitidez não é fácil: exige técnica, bom equipamento e algum conhecimento dos fatores que prejudicam a nitidez (foco, ISO, abertura ideal para a lente em uso, etc.). O tamanho padrão das imagens que eu exporto para o álbum é justamente 6MP.
Mas resoluções iniciais maiores são sempre bem-vindas, porque permitem "cropping". Além do mais, uma imagem de 6MP criada pela redução de um original de 15MP é mais nítida que se tivesse 6MP originalmente, porque a primeira terá MTF acima de 50%. (O MTF de uma imagem reduzida pode aproximar-se, mas não ultrapassar, 80%.)
Nem sempre a maior resolução possível é a ideal; no caso da lente 50mm mencionada antes, a maior abertura ainda pode ser útil para retratos, onde o excesso de nitidez é considerado prejudicial pois revela pequenas imperfeições da pele. O caráter "onírico" que a lente exibe em grande abertura também é considerado atraente em algumas situações.
O outro complicador é que todos esses números variam conforme o tipo de imagem fotografada, a distância do objeto, a cor do objeto, etc. Com a mesma lente do teste acima, o MTF observado tendeu a 50% em f/8 (24MP, máxima resolução da câmera) e 33% em f/1.8 (10.6MP efetivos), ao fotografar um edifício distante. Janelas de edifícios são objetos de alto contraste e também são boas para testar nitidez. É possível que o pós-processamento da imagem funcionou melhor com objetos coloridos (o edifício era verde com esquadrias brancas; verde e branco são cores diferentes, enquanto preto e branco são tons de uma mesma cor: o cinza).
Levar em conta esse tipo de diferença de desempenho, conforme o tipo de imagem, provavelmente é o que constitui o "molho secreto" da DxOMark em sua avaliação de megapixels perceptuais.
A relação entre MTF e megapixels tem a ver com o chamado limite de Nyquist, que afeta todos os meios digitais. Para representar um sinal de freqüência f, é preciso no mínimo 2f amostras, ou pixels.
Por exemplo, para representar um padrão "zebrado" — linhas brancas e pretas alternadas — é preciso pelo menos um pixel por linha. Um preto, um branco, um preto, um branco... É meio óbvio, certo? Para representar 60 pares de linhas (um par é uma linha preta mais uma linha branca), precisamos de 120 pixels, no mínimo, para representar este zebrado na forma digital.
Esse limite é absoluto, não há escapatória. Se tentar representar um sinal de freqüência maior, e.g. 90 linhas, com os mesmos 120 pixels, o resultado final será um falso sinal de 30 linhas. É o temido batimento, mais conhecido na fotografia como "aliasing" ou "moiré", onde a imagem mostra padrões falsos. Alimentar os pixels com um sinal mais fino que o limite de Nyquist não só é inútil, como estraga a imagem.
O limite de Nyquist é teórico, e presume uma decodificação perfeita que por definição não pode ser implementada. Se o decodificador digital-analógico (no caso de uma imagem seria uma tela ou uma impressora) não é perfeito, os efeitos de moiré começam a acontecer em freqüências muito mais baixas que o limite de Nyquist. Ainda dentro do exemplo acima, os 120 pixels teriam dificuldades de representar qualquer coisa acima de 30 ou 40 pares de linhas.
O limite de Nyquist, enquanto teoria, garante um MTF de 100% até a freqüência de corte, e 0% acima dela. Está claro que podemos representar 60 linhas com 120 pixels e MTF de 100%, basta que os pixels tenham cores alternadas, mas 40 linhas em 120 pixels já não é tão "preto-no-branco", literalmente. O MTF teria de ser necessariamente menor que 100%. Uma solução para evitar o moiré é justamente um filtro passa-baixas, que reduz o MTF proporcionalmente à freqüência.
Até 2012 ou 2013 todo sensor tinha um filtro OLPF, que roubava parte da nitidez mas evitava o moiré. O filtro OLPF ideal reduziria o MTF até 50% para a freqüência de corte e 0% para qualquer freqüencia acima, mas isto é fisicamente impossível. Todo filtro OLPF rouba um pouco de nitidez, pois precisa deprimir mais o MTF nas vizinhanças da freqüência de corte a fim de evitar mais completamente o moiré.
A tendência atual é abolir o filtro OLPF. Primeiro, porque as próprias lentes têm resolução limitada frente aos sensores modernos, então elas já fazem o papel de filtro anti-moiré. Filtrar duas vezes prejudica a imagem; se o filtro OLPF limita a resolução efetiva a 20MP e a lente também é 20MP, a resolução combinada será de apenas 14MP. Segundo, porque consertar o moiré por software é viável.