Profundidade de campo versus tamanho do sensor

Apesar de todo o avanço tecnológico e da facilidade ao acesso à informação hoje em dia, um assunto da fotografia ainda é dominado por folclores e mitos: a tal da profundidade de campo.

Todo fotógrafo sabe o que é profundidade de campo, mas por completeza vou dar minha definição: é a faixa de distâncias em que a cena parece nítida. Note o "parece". A nitidez máxima pertence à distância focada, mas a profundidade de campo é uma "faixa de tolerância". Objetos fora desta faixa (mais próximos ou mais distantes) estarão definitivamente fora de foco na fotografia.

A profundidade de campo é influenciada por diversos fatores: comprimento focal e abertura da lente, tamanho do sensor ou do filme, e é claro pela distância dos objetos que se deseja fotografar com nitidez.

Fatores fora do controle do fotógrafo como: resolução da lente, resolução real do sensor, tamanho da ampliação da fotografia impressa, resolução do papel de ampliação também influenciam na profundidade de campo. Mesmo fatores subjetivos como acuidade visual do observador e características da cena também entram na jogada, portanto todos os cálculos de profundidade de campo que existem são meras estimativas.

Vamos começar falando do maior folclore da profundidade de campo, que provavelmente levou você a achar esta página: a relação da profundidade de campo com o tamanho do sensor.

Tamanho do sensor influencia na profundidade de campo?

Sim!

Considerando uma mesma lente (e.g. 50mm) montada em duas câmeras com sensores diferentes (e.g. "full frame" e APS-C) a profundidade de campo será, em geral, menor para o sensor menor. Surpreso?

Então, se você encaixar uma lente 50mm numa Nikon D800 (sensor full-frame), e depois encaixar a mesma lente numa D7100 (sensor APS-C), a profundidade de campo será um pouco menor na D7100.

Apesar das marcações de profundidade de campo nas lentes sugerirem que o profundidade de campo é uma propriedade ligada unicamente ao comprimento focal, o tamanho do sensor também influencia na profundidade de campo. O que significa que marcações de profundidade de campo na lente e aquelas tabelinhas universais de profundidade de campo estão todas erradas para câmeras digitais que não sejam "full frame".

A profundidade de campo tem relação com o tamanho dos pixels do sensor. Os megapixels de quase todas as câmeras do mercado estão na mesma ordem de grandeza (entre 10 e 30MP). O tamanho de cada pixel é aproximadamente proporcional ao tamanho do sensor. Portanto, sensores menores têm pixels menores, e sua tolerância a imagens fora do foco é menor. Menos tolerância, menos profundidade de campo.

Repetindo: as tabelinhas de profundidade de campo que existem por aí são calculadas para filme 35mm. Mesmo para máquinas full-frame elas têm de ser revisadas, para levar em conta o tamanho do pixel. Aqui está uma tabela feita no Google Docs para você experimentar com diversos tamanhos de sensor.

Mas de onde vem esta lenda que a profundidade de campo não muda, ou aumenta, conforme o sensor diminui?! Ela se origina de outros fatos.

Primeiro: um mesmo comprimento focal proporciona ângulos de visão bem diferentes conforme o tamanho do sensor. Uma lente 50mm é "normal" para full-frame, mas é uma "lente de retrato" para APS-C. É é praticamente uma luneta para uma câmera de celular.

Então, o que os fotógrafos comparam é a profundidade de campo para lentes de mesma ampliação em sensores diferentes. Por exemplo, uma lente 50mm em full-frame versus 35mm em APS-C, e 10mm numa câmera compacta. Estas lentes tão diferentes proporcionam o mesmo ângulo de visão e a mesma perspectiva da cena.

Segundo: a resolução do sistema como um todo (sensor + lente + software de processamento) é sempre menor que a resolução bruta do sensor. É comum a lente apresentar resolução muito menor que o sensor, e neste caso é natural a profundidade de campo depende exclusivamente da lente. Isto alimenta o mito da profundidade de campo depender exclusivamente do comprimento focal.

O que acontece então com a profundidade de campo em cada combinação de sensor e lente? É o que vamos descobrir.

Comprimento focal versus profundidade de campo

Como quase todo fotógrafo sabe, a profundidade de campo diminui conforme o comprimento focal aumenta. O que falta esclarecer é: em que proporção?

Se fosse uma proporção linear (dobro do comprimento focal = metade da profundidade de campo), a profundidade de campo seria mais parecida entre todas as câmeras, independente do tamanho do sensor, porque sensores menores pedem lentes com comprimento focal também menor, e uma coisa compensaria a outra.

Mas não é uma relação linear. A profundidade de campo varia quadraticamente com o comprimento focal.

Aqui encontramos a explicação real para o folclore "sensores menores têm profundidade de campo maior". Para um sensor "full frame", a lente "normal" é 50mm. Para um sensor de câmera compacta, a lente normal seria de 10mm. Uma lente 5x mais curta representa 25x a mais de profundidade de campo; este ganho é parcialmente compensado pela redução em 5x do tamanho do sensor, que reduz em 5x a profundidade de campo, assumindo que a resolução em megapixels seja constante. O resultado líquido (25 dividido por 5) é um ganho de 5x na profundidade de campo para a câmera compacta.

Então, para um mesmo ângulo de visão, o sensor menor apresenta maior profundidade de campo, devido ao efeito quadrático do comprimento focal.

Por conta disso, câmeras de TV, mesmo as profissionais, usam sensores pequenos: para alcançar grande profundidade de campo facilmente. A alternativa seria usar lentes de abertura muito menor, o que exigiria iluminação mais forte. Além do mais, sensores menores são mais baratos. Dupla vantagem.

Já na fotografia (e no cinema) uma profundidade de campo pequena ou "rasa" é valorizada para fins artísticos, e quanto maior o formato do filme ou do sensor, melhor. Como formatos maiores são exponencialmente mais caros (as câmeras digitais full-frame já são caríssimas), o método mais "barato" de se conseguir uma profundidade de campo rasa é usando lentes de grande comprimento focal, graças à variação quadrática.

Se não podemos trocar a câmera, nem queremos usar comprimento focal muito grande, como tornar o profundidade de campo mais raso?

Profundidade de campo e abertura ("número f")

A profundidade de campo é linearmente proporcional ao "número f". Quanto maior este número, mais fechada está a lente, e mais profundidade de campo vamos obter.

Figura 1: Foto com abertura f/1.8, lente 50mm, sensor APS-C

Figura 2: Foto com abertura f/5.6, lente 50mm, sensor APS-C

Figura 3: Foto com abertura f/16, lente 50mm, sensor APS-C.

Na outra direção, podemos tornar a profundidade de campo mais rasa usando lentes de abertura maior, e portanto "número f" menor. O sonho de consumo de todo fotógrafo é uma lente f/1.4, f/1.2 ou quiçá f/1.0!

Um pequeno probleminha das lentes de grande abertura é o preço, que cresce exponencialmente. Uma lente f/1.4 custa três vezes mais que uma f/1.8, e uma lente f/1.2 custa o dobro da f/1.4. De fato uma lente f/1.2 terá uma profundidade de campo um pouco mais rasa que a f/1.8, mas talvez não o suficiente para justificar uma lente 8x mais cara.

É interessante notar o seguinte: quando se trata de luminosidade, "número f" é uma medida quadrática. A abertura f/1.0 admite quatro vezes mais luz que f/2.0. Isso porque a admissão de luz depende da área da abertura da lente, mas o "número f" é uma medida de diâmetro, proporcional ao comprimento focal.

A profundidade de campo é inversamente proporcional ao diâmetro da abertura. Como o "número f" expressa diâmetro, neste caso a relação é linear.

Profundidade de campo e abertura absoluta (pupila)

Na verdade, a profundidade de campo é inversamente proporcional ao diâmetro absoluto da abertura, que vamos chamar de pupila.

Por exemplo, uma lente 200mm f/5.6 tem uma pupila de 36mm (200 dividido por 5.6). Já uma lente de 10mm f/5.6 tem uma pupila de menos de 2mm. A luminosidade das duas é a mesma, mas é óbvio que a segunda terá uma profundidade de campo incrivelmente maior.

Isto explica o "efeito quadrático" do comprimento focal na profundidade de campo. Na verdade eu menti para você: o efeito do comprimento focal sobre a profundidade de campo é meramente linear desde que a pupila permaneça a mesma. Por exemplo, uma lente 50mm f/2 tem apenas o dobro de profundidade de campo que uma lente 100mm f/4, porque ambas têm a mesma pupila: 25mm (100 dividido por 4, e 50 dividido por 2).

Mas ninguém pensa nesses termos. Sempre comparamos lentes com a mesma luminosidade, por exemplo 50mm f/2 e 100mm f/2. A primeira terá o quádruplo de profundidade de campo da segunda, porque ela tem a) metade do comprimento focal, e b) metade da pupila.

Círculo de confusão

A definição teórica de profundidade de campo é fundada no conceito de "círculo de confusão". Numa imagem em foco, cada ponto da cena é projetado como um ponto no sensor. Já na imagem fora de foco, cada ponto é projetado como um círculo, e pontos adjacentes vão confundir-se, pois seus círculos vão misturar-se na foto.

Se as lentes fossem perfeitas e os sensores tivessem resolução infinita, apenas os pontos perfeitamente em foco sairiam nítidos. Se a lente estivesse focada em 5 metros, um objeto a 5001mm de distância já demonstraria alguma perda de nitidez. Não existiria profundidade de campo tal como a conhecemos!

Porém, todo sistema ótico tem diversas limitações de nitidez. De modo que mesmo os pontos da cena em foco perfeito não vão ser projetados no sensor como pontos, e sim como pequenos círculos. A resolução do sensor também é limitada, o "ponto" do sensor é do tamanho de um pixel.

Assim, até certa medida, os pontos desfocados da imagem ainda parecem nítidos na fotografia, porque os círculos de confusão são disfarçados pelas limitações do sistema câmera+lente.

Todos os fatores objetivos que influenciam a profundidade de campo estão relacionados ao círculo de confusão:

Dada a mesma quantidade de megapixels, um sensor menor tem profundidade de campo menor porque seus pixels são menores, e toleram círculos de confusão menores;
Uma lente de comprimento focal maior tem profundidade de campo menor porque ela amplia o tamanho dos círculos de confusão, assim como amplia a imagem;
Uma lente de abertura maior tem profundidade de campo menor porque o círculo de confusão é proporcional ao tamanho da pupila.

Se definirmos o círculo de confusão aceitável como sendo o tamanho do pixel do sensor, ou talvez 1.5 ou 2 pixels, temos uma definição perfeitamente objetiva, certo? Mas na prática esta definição não seria útil. A profundidade de campo calculada seria pequena demais; uma fotografia impressa mostraria muito mais objetos com foco perfeito do que o previsto.

Regra prática: sensor versus profundidade de campo

Na hora de escolher entre uma câmera full-frame, APS-C ou Four Thirds, emerge a questão: qual a profundidade de campo que vou obter em cada sensor? A regra prática é: fator de corte multiplicado pelo número f da abertura.

Por exemplo: em full-frame, uma lente 50mm f/4 proporciona uma profundidade de campo "x". No sistema Four Thirds precisamos de uma lente 25mm para obter o mesmo ângulo de visão (já que o fator de corte Four Thids é igual a 2). Para obter a mesma profundidade de campo "x", precisamos usar uma abertura f/2 para compensar.

Podemos pensar isso da forma inversa: para obter uma profundidade de campo bem rasa, com fundo bem desfocado, precisamos números f duas vezes menores em Four Thirds que em full-frame, e 50% menores em APS-C que full-frame — sempre considerando um mesmo ângulo de visão.

Isto é resultado direto do que foi explanado antes, mas não custa demonstrar de novo.

O círculo de confusão é proporcional à pupila de entrada, à ampliação do comprimento focal, e à ampliação do fator de corte (menor sensor, maior ampliação).

CoC ~= p . d . c

Como a pupila é o comprimento focal dividido pelo número f da abertura,

CoC ~= d . d . c / f

Considerando uma mesma ampliação, e portanto um mesmo ângulo de visão para diferentes fatores de corte (por exemplo, 50mm full-frame e 25mm Four Thirds são equivalentes em ângulo de visão), podemos simplificar a proporção, pois uma parte dela é constante:

a = ampliação constante
d . c = a (constante)

CoC(a) ~= d / f

Nós queremos descobrir a proporção entre círculo de confusão e fator de corte, então

d . c = a
c = a / d
CoC(a) ~= 1 / (c . f)

Ou seja, para um ângulo de visão constante, o círculo de confusão é inversamente proporcional ao fator de corte e ao número f da abertura. Como a profundidade de campo é o inverso do círculo de confusão, podemos dizer então que a profundidade de campo é diretamente proporcional ao número f e ao fator de corte.

Manter uma mesma profundidade de campo implica em manter o produto número f × fator de corte constante, então se o fator de corte aumenta, o número f tem de diminuir.

Este raciocínio demonstra o que dissemos no início do artigo: para um comprimento focal constante, o fator de corte diminui, e não aumenta, a profundidade de campo. Se não fosse assim, a diferença entre full-frame e outros formatos seria ainda mais dramática (a profundidade de f/2 em Four Thirds seria equivalente a f/8 em full-frame, e não f/4 conforme determinamos).

Subjetividade do círculo de confusão

Como já dito antes, todo sistema ótico tem inúmeras limitações que reduzem sua nitidez, que aumentam a tolerância aos círculos de confusão e portanto aumentam a profundidade de campo efetiva:

Cada pixel de um sensor capta apenas azul, vermelho ou verde. O processo de "desfazer o mosaico" reduz a resolução efetiva. Um sensor de 20MP entrega uma fotografia de 12MP, e isto ainda pode variar em função da cena fotografada.
As lentes não são perfeitas. Lentes tipo "kit zoom" têm resolução efetiva de 5 ou 6MP; lentes excelentes (e caras) oferecem 10-12MP. Segundo o site DxOMark, apenas quatro lentes da Nikon passam de 20MP. Lentes para formatos menores tendem a apresentar resolução ainda menor.
A nitidez de uma fotografia digital analisada na tela, com 100% de ampliação, não corresponde à nitidez de uma fotografia impressa. Imagens que parecem pouco nítidas na tela podem parecer perfeitas para uma pessoa observando a foto numa galeria. Uma foto impressa em revista ou jornal sofrerá perda de resolução em função da tecnologia de impressão.
Mesmo fotos exibidas em tela de computador (por exemplo num site) serão normalmente reduzidas em tamanho. A resolução de uma tela Full HD é de apenas 2MP.

Sendo assim, não adianta o fotógrafo perseguir um nível de nitidez que nunca será visto por ninguém.

Ou então: se a intenção do fotógrafo era desfocar parte de uma cena com fins artísticos, é bom que desfoque bastante, para não correr o risco dela parecer nítida para o usuário final!

Devido a estas incertezas, as fórmulas empíricas do tempo da onça ainda são utilizadas para estimar o "círculo de confusão aceitável". A mais conhecida é a "fórmula de Zeiss": dividir o comprimento diagonal (d) do filme ou sensor por 1730. Também encontram-se as variantes d/1000 e d/1500. Diferentes tabelas de profundidade de campo utilizam diferentes estimativas (e entre d/1000 e d/1730, temos uma diferença de quase o dobro!), e a maioria não leva em conta o tamanho do sensor.

Na tabela do Google Docs, utilizei uma fórmula diferente: largura horizontal do sensor dividida por 1300, que equivale a d/1500 (d/1562, para ser exato). Os valores batem com o site DoFMaster, mas cada tabela ou site que calcule profundidade de campo pode dar um resultado ligeiramente diferente.

Inicialmente eu tinha estimado a largura horizontal dividida por 1500, o que coloca a estimativa mais próxima à "fórmula de Zeiss"; mas fiz alguns testes empíricos no meu próprio equipamento e a divisão por 1300 encaixou melhor. Você pode e deve testar seu equipamento para ver se o círculo de confusão está estimado corretamente.

Confusão versus difração

Um complicador na estimativa do círculo de confusão é a famigerada difração, que diminui a nitidez para aberturas muito fechadas. A difração "incha" a profundidade de campo, diminuindo a nitidez geral e fazendo com que áreas levemente fora de foco pareçam tão boas como as áreas de foco perfeito.

Se você reparar com muito cuidado na Figura 2vai notar que o cupom da direita, em foco, está um pouco mais nítido que o da Figura 3 — embora o cupom da esquerda, fora de foco, apareça igualmente nítido na segunda imagem graças à profundidade de campo f/16.

É uma diferença aparentemente pequena, mas se o círculo de confusão fosse calculado com base na segunda imagem, seria algo como d/1000, o que subestimaria a nitidez do nosso sistema.

Círculo de confusão e megapixels efetivos

Se considerarmos que 1 círculo de confusão = 1 pixel, a estimativa que fizemos para o círculo de confusão (largura dividida por 1300) equivale a apenas 1,2 megapixels (1300x866). Decepcionante!!! Isso numa câmera que alega ter 24MP...

Porém esta estimativa é pessimista. Em primeiro lugar, os círculos de confusão poderiam ser arranjados num padrão hexagonal, como uma colméia. Círculos são muito mais parecidos com hexágonos do que com quadrados. De alguma forma, essa relação entre pixels e círculos não pode ser tão cartesiana assim...

Uma contestação mais fundada pode ser encontrada neste artigo, que trata de círculos de difração, mas o problema é bem parecido. Para definir a equivalência entre o tamanho do círculo de confusão e a resolução, precisamos também definir o nível de contraste aceitável entre dois pixels adjacentes, conhecido como MTF.

A animação abaixo mostra círculos de confusão de diferentes tamanhos, e sua "tradução" para pixels pelo sensor da câmera, conforme o ponto em que os círculos incidem sobre o sensor:

Figura 4: Círculos de confusão adjacentes e sua leitura como pixels

Imagine que uma imagem tem dois pontos distintos, com um espaçamento equivalente a dois pixels de largura entre eles. Podem ser duas linhas finas, ou duas estrelas no céu, etc. Cada ponto é projetado como um círculo de confusão sobre o sensor.

Dependendo do tamanho do círculo de confusão, e de onde ele cai, ele ilumina o pixel que deveria. E também ilumina alguns pixels adjacentes, que não deveria iluminar. Para contraste perfeito, cada círculo deveria iluminar apenas um pixel. Quando o círculo de confusão (CoC) é igual a meio pixel de diâmetro, os pixels são resolvidos com 100% de contraste na maior parte dos casos, mesmo quando os círculos estão um pouco fora do centro do pixel.

O pior caso é quando os círculos caem exatamente entre dois pixels; os pixels "resolvem" um borrão contínuo em vez de dois pontos, que não podem mais ser distinguidos na imagem final.

Tirando uma média de todos os casos possíveis, o MTF para círculos de confusão de meio pixel fica em torno de 85%. (Minha animação faz uma estimativa de 87%, mas ela é puramente empírica, é apenas uma boa primeira aproximação.)

Conforme o tamanho do círculo de confusão cresce, vemos que a chance dos pixels "borrarem" é cada vez maior. O MTF para círculos de 1,0 pixel fica em torno de 80%; para círculos de 1,5 pixel fica em torno de 50%; e para círculos de 2,0 pixels o MTF tende a 20%. Para círculos ainda maiores, o MTF tende a zero.

Em fotografia, a definição de "nítido" é MTF de 50% ou melhor. Segundo artigos da área, e também segundo nossa animação este MTF é atingido com um círculo de confusão de 1.5 pixel de diâmetro.

Agora vamos ver um exemplo prático:

Figura 5: Detalhe de parte nítida de uma foto

Na Figura 5 acima, a área em torno do número 50 parece pairar acima da fita, de tão nítida. O efeito é ainda melhor na foto original, sem o corte severo que fizemos acima. O contraste de cor também ajuda neste efeito.

Agora, uma ampliação bem maior do número 5 vermelho, evidenciando cada pixel:

Figura 6: Detalhe fortemente ampliado de parte nítida de uma foto

Na Figura 6 acima, você pode procurar bem, mas não vai encontrar dois pixels adjacentes com valor 100% diferente (que corresponderia a um MTF de 100%). Sempre há pelo menos um pixel intermediário (laranja) entre amarelo e vermelho — o que corresponde a um MTF de 50%.

Em ambas as figuras pode-se ver que as linhas pretas são tão finas que não houve MTF suficiente para criar pixels realmente pretos. Mas na foto sem ampliação, as linhas são enxergadas como pretas! Empiricamente, constatamos que um MTF de 50% é visualmente nítido.

Portanto, vamos reformular nossa estimativa de resolução considerando que cada círculo de confusão equivale a 1.5 pixels. A nova estimativa é de 2,75 megapixels, bem mais coerente.

Vamos arredondar para cima e considerar 3MP, considerando que áreas em foco perfeito em aberturas não afetadas pela difração possam ser um pouco mais nítidas do que a média.

Então sensores de alta resolução são inúteis?

Não!

Apesar da resolução estimada (3MP) acima ser 8x menor que a resolução do sensor da câmera (24MP), um sensor de alta resolução não é inútil. A comparação é entre laranjas e bananas — não se pode esperar uma foto perfeita e acabada com a mesma resolução nativa do sensor.

A primeira razão nós já citamos: o processo de "desfazer o mosaico" rouba resolução. Os 24MP diminuem para algo entre 12MP e 16MP já no começo da corrida. A diferença já caiu para 4x a 5x.

A segunda razão é que a comparação de megapixels é um pouco enganosa em se tratando de nitidez. O correto seria contar o número de pixels numa dimensão (largura ou altura). Uma imagem com 4x mais megapixels, tem círculos de confusão apenas 2x menores. Deste ponto de vista, uma imagem de 12MP é apenas duas vezes melhor que 3MP.

Finalmente, a razão técnica mais importante: os "círculos de confusão" criados por cada imperfeição ótica (foco imperfeito, lente, sensor, difração, algoritmo de mosaico, etc) se acumulam segundo uma soma RMS.

Por exemplo, imagine uma lente e um sensor com a mesma resolução: a difração da lente cria um "ponto" de 10µm no melhor foco, e o tamanho do pixel do sensor também é 10µm. O círculo de confusão efetivo do conjunto lente+sensor é de 14,1µm. Não chega a ser uma soma linear, mas é mais do que o senso comum espera (que dois dispositivos com a mesma resolução não deveriam interferir um com o outro).

Levando isto em conta, é vantagem ter um sensor com a maior resolução possível. Usando o mesmo exemplo acima, mas com pixels de 5µm, a soma RMS é igual a 11.2µm, ou seja, a resolução é limitada majoritariamente pela lente, e o usuário pode tentar melhorar isso trocando de lente.

É claro, sensores de resolução muito alta (com pixels muito pequenos) têm outros problemas, como menos sensibilidade e mais ruído. Mas isto é outro problema, é uma limitação da tecnologia e da Física. O ruído realmente limita a resolução máxima dos sensores atuais, e é possível que para alguns usos um sensor com menos de resolução alcance um balanço melhor entre nitidez e ruído, porém isto não significa que um sensor de 3MP vá tirar fotos melhores que um de 24MP.