Existem diversos mecanismos de autofoco, mas podemos fazer uma divisão grosseira em dois tipos: autofoco por fase e autofoco por contraste. Quase todos os sistemas de autofoco e até mesmo os sistemas de foco manual seguem os princípios básicos de um ou de outro.
Este é o sistema de autofoco empregado nas câmeras SLR/DSLR ("profissionais"). Os sistemas de foco manual por visor telemétrico (tipo Leica), imagem dividida (SLRs, Leica) e microprismas (SLRs) compartilham os mesmos fundamentos, ou seja, todos eles funcionam graças às mesmas propriedades.
O fundamento começa com a nossa câmera de furinho, onde todas as imagens estão sempre em foco. A nitidez da imagem é função apenas do tamanho do furinho: menor furinho, maior nitidez, até o limite da difração.
Se imaginarmos duas câmeras de furinho lado a lado, as duas vão produzir uma mesma imagem se estiverem "olhando" para uma mesma direção e o objeto estiver no "infinito", ou seja, a uma distância muito grande, comparada à distância das câmeras.
Porém, se o objeto estiver mais próximo, cada câmera de furinho fará uma fotografia ligeiramente diferente, pois os raios de luz não chegam mais em linha reta, mas sim em ângulo.
Se substituirmos o furinho por uma lente, e a lente estiver focada, temos o mesmo resultado da câmera de furinho, porém com mais nitidez e menor tempo de exposição da chapa fotográfica ou sensor (em vermelho).
Já uma lente desfocada não produz uma imagem nítida, e sim uma imagem borrada do objeto.
Na verdade, cada fragmento da lente produz uma imagem nítida, porém cada uma dessas imagens nítidas está um pouco deslocada, e o somatório geral é que é borrado.
Se quisermos recuperar a imagem nítida a partir da lente desfocada, podemos fazer uso novamente de um furinho, colocado atrás da lente. Podemos usar mais de um furinho, inclusive.
No diagrama acima, dois furinhos atrás da lente desfocada projetam dois objetos nítidos sobre o filme, que podem ou não estar sobrepostos (quanto mais desfocada a lente, mais separados vão estar).
Se a lente estiver corretamente focada, dois ou mais furinhos não vão dar origem a imagens separadas. A imagem projetada pelo objeto continuará sendo única, os furinhos estão apenas restringindo a quantidade de luz.
Este é o princípio básico do foco por fase: comparar imagens produzidas por partes diferentes da lente. Se as imagens estão deslocadas entre si, o foco está errado. Se as imagens se fundem, o foco está correto.
É assim que funciona o visor prismático ou de imagem dividida das SLRs, em particular as mais antigas: o vidro despolido do visor é entalhado de tal forma que cada microprisma, ou cada metade do visor dividido, só enxerga a imagem vinda de uma parte da lente.
O resto do vidro despolido "enxerga" a imagem da lente toda, e portanto exibe uma imagem desfocada quando fora de foco, lembrando que a imagem desfocada é resultado da sobreposição de infinitas imagens nítidas, porém deslocadas nos sentidos vertical e horizontal.
O visor telemétrico da Leica opera de forma análoga, porém nesse caso existe de fato uma segunda lente separada do visor, alguns centímetros à direita. A idéia é a mesma — fazer as imagens coincidirem para o foco estar perfeito — mas a precisão para foco manual é muito mais alta, pois a separação entre as duas lentes é muito maior que entre os lados esquerdo e direito de uma lente única.
A visão humana funciona, em parte, como um visor telemétrico, porque temos dois olhos, então nosso sistema visual "sabe" a que distância está cada objeto. (Como nós temos um bom cérebro, também sabemos deduzir distância com um olho só, com base nas sombras, na paralaxe de movimento, no tamanho relativo de objetos que nos são familiares, etc.)
Agora, vamos ver como o autofoco pode funcionar. O princípio é o que foi descrito até aqui: obter a imagem formada por cada lado da lente, usando furinhos ou prismas. O autofoco não analisa a imagem inteira; ele analisa uma "tira" ou "fita" unidimensional de cada imagem.
Se a lente está em foco, as tiras de imagem vistas pelos dois sensores serão iguais. Se está desfocada, as tiras serão diferentes. Porém, na verdade as tiras são versões deslocadas de uma mesma imagem maior.
Uma vez de posse das duas tiras, o computador da câmera vai analisá-las e encontrar a correlação entre elas, ou seja, em que parte elas coincidem, e qual o deslocamento necessário para achar essa coincidência.
Uma vez que o deslocamento, denominado fase, é determinado, basta mover o foco da lente na mesma proporção, e (idealmente) o foco estará perfeito logo na primeira tentativa. É isto que torna o autofoco por detecção de fase tão rápido: o algoritmo determina não só se a imagem está em foco ou não, mas também quanto falta para atingir o foco.
Para o autofoco funcionar, a imagem precisa ter texturas ou detalhes suficientes, para que as tiras de uma imagem desfocada realmente pareçam diferentes. Superfícies com texturas muito regulares também podem enganar o sistema pelo efeito moiré. A resolução do sensor de foco, sua sensibilidade, sua capacidade de enxergar cores ou apenas luminosidade, tudo isso vai determinar o sucesso do em discernir cenas "difíceis".
O autofoco mais simples costuma basear-se numa tira vertical da imagem. As câmeras DSLR têm vários pontos de autofoco e pelo menos um ponto é cruzado, ou seja, ele enxerga tiras horizontais e verticais, aumentando a chance de achar o foco em imagens com pouca textura.
O autofoco por contraste é o primo pobre. Seu algoritmo é o mais simples possível: mexer o foco da lente para lá e para cá, até que o contraste ou nitidez da imagem seja o máximo. É um processo de tentativa e erro, porque a câmera não sabe qual o contraste absoluto da cena que está sendo fotograda.
Também não é possível determinar a direção do foco olhando para uma imagem desfocada; o foco pode estar longe demais ou perto demais. A câmera tem de começar por uma direção, e invertê-la caso o contraste fique ainda pior.
A implementação mais simples do algoritmo é percorrer todos os pixels da imagem, mensurar a diferença de tom entre pixels adjacentes, e ir somando. A soma total dá uma medida do contraste, mas ela não significa nada por si só. É preciso alterar um pouco o foco e fazer a soma novamente. Se o valor ficar maior, a imagem (provavelmente) está mais nítida e o foco foi movido para o lado certo. Repete-se o processo até encontrar-se um valor máximo de contraste, que não pode mais ser melhorado.
O autofoco por contraste é equivalente ao foco manual baseado no vidro despolido da SLR, ou na tela de LCD de uma câmera. Um ser humano às vezes consegue dizer se o foco está "perto" ou "longe" com base em objetos conhecidos (por exemplo, uma flor em primeiro plano em contraste com um panorama distante).
Devido às limitações do autofoco por contraste, as câmeras (inclusive de celular) têm incorporado o autofoco por fase, normalmente usando as duas modalidades em conjunto: a fase para uma primeira aproximação e o contraste para o toque final. O autofoco por fase implementado no próprio sensor não é tão preciso quanto o implementado separadamente como nas SLRs, mas nem precisa ser, porque o autofoco por contraste é adequado para o autofoco "fino".
O autofoco por contraste, apesar de menos poderoso, tem suas vantagens sobre o sistema por fase. Primeiro, é muito mais barato de implementar. Não é preciso nenhum equipamento adicional além do próprio sensor. Segundo, ele funciona igualmente bem com lentes menos luminosas, um caso em que o autofoco por fase teria dificuldades.
Terceiro, o autofoco por contraste não é afetado por aberrações ópticas da lente. Como o sensor de autofoco por fase enxerga apenas uma "tira" da imagem, ele pode ser enganado por certos tipos de distorção. É um dos motivos pelos quais as câmeras DSLR podem apresentar foco descalibrado para uma lente e calibrado para outra, pois as aberrações são diferentes. Já o foco por contraste baseia-se diretamente na imagem vista pelo sensor; quando o algoritmo consegue achar o foco ideal, ele é garantidamente o melhor possível para a imagem final.
Outros mecanismos análogos ao radar, como ultrassom, laser etc. podem ser usados para medir a distância e por conseqüência podem ser a base de um sistema de autofoco, porém tais métodos não encontram muito uso hoje em dia. O ultrasom chegou a ser usado no início dos anos 1980.
A vantagem potencial de tais sistemas é funcionar mesmo quando o objeto não tem texturas ou detalhes, ou mesmo na escuridão completa.