人脸识别技术概述 • Abotw's Space

1. 为什么关注人脸识别？#

最近在做工程实训时，对 **Computer Vision (CV)**领域的人脸识别（Face Recognition, FR）产生了一些兴趣。

很多外行以为人脸识别就是一个端到端的黑盒，输入照片，输出名字。但实际上，工业界主流的流程通常包含四个紧密耦合的模块：

人脸识别的本质，是一个度量学习 (Metric Learning) 问题。

目标是训练一个神经网络 $f$ ，将输入的人脸图像 $x$ 映射到一个 $d$ 维的特征空间（通常是 128维、512维或 1024维）。

在这个高维空间里，需要满足两个条件：

判定两个人是否相似，通常计算两个特征向量 $u$ 和 $v$ 之间的欧几里得距离或余弦相似度：

$\text{Cosine Similarity}(u, v) = \frac{u \cdot v}{\|u\| \|v\|}$

如果相似度超过设定的阈值 (Threshold)，就认为是同一个人。

这部分的演进史非常精彩，完美体现了 AI 领域从“人工设计”到“数据驱动”的范式转移。

早期的算法非常依赖数学直觉。

2014年 Facebook 提出的 DeepFace 是转折点，它首次将卷积神经网络 (CNN) 引入人脸识别，达到了接近人类的准确率（97.35% on LFW）。

随后的发展主要集中在 Loss Function (损失函数) 的改进上，这是最烧脑但也最精妙的部分：

Softmax Loss: 最基础的分类损失，但在特征分离上不够强。
Triplet Loss (三元组损失): Google 在 FaceNet 中提出。每次输入三张图（Anchor, Positive, Negative），强行拉近 Anchor 和 Positive，推开 Negative。
- 难点: 数据挖掘（Mining）很难，训练收敛慢。
Center Loss: 像聚类一样，为每个类别学习一个中心，强迫特征向中心靠拢。
ArcFace / CosFace (SOTA): 目前最主流的方法。它们在角度空间（Angular Space）引入了 Margin（间隔），在超球面上把不同的人脸特征“挤”得更开。

划重点： 现在的 SOTA 模型（如 ArcFace）不再是在平面上区分人脸，而是把人脸映射到一个超球面上进行区分。

在实验室跑 Demo 和实际落地完全是两码事。工程落地主要面临以下挑战：

如果有人拿高清人脸照片去刷脸支付怎么办？

为了防御这种 Presentation Attack (PA)，需要活体检测：

作为学生党，如果想动手实践，不需要从零造轮子，有很多优秀的开源库：

数据集 (Datasets):

最后，作为技术人员，不能忽视技术背后的阴影。人脸数据是生物特征隐私，一旦泄露无法更改（不能像换密码一样换脸）。

在未来的开发中，GDPR 等法规的合规性以及端侧推理（数据不出设备）将是重要的技术方向。

人脸识别虽然已经很成熟，但在极低算力设备上的部署、对抗攻击的防御（Adversarial Attack）等方向依然有很多可做的研究。