行人重识别(Person re-identification),是指在已有的可能来源与非重叠摄像机视域的视频序列中识别出目标行人。
3.1 能不能用人脸识别做重识别?
理论上是可以的,但是有两个原因导致人脸识别较难应用:
首先,广泛存在后脑勺和侧脸的情况,做正脸的人脸识别难。
其次,摄像头拍摄的像素可能不高,尤其是远景摄像头里面人脸截出来很可能都没有32x32的像素。
所以人脸识别在实际的重识别应用中很可能有限。
3.2 有些人靠衣服的颜色就可以判断出来了,还需要行人重识别么?
衣服颜色确实是行人重识别 做出判断一个重要因素,但光靠颜色是不足的。
首先,摄像头之间是有色差,并且会有光照的影响。
其次,有撞衫(颜色相似)的人怎么办,要找细节,但比如颜色直方图这种统计的特征就把细节给忽略了。
在多个数据集上的测试表明,光用颜色特征是难以达到50%的top1正确率的。
3.3 使用图像检索的指标来衡量行人重识别的结果是否合适?
在早期,行人重识别数据集是由两个摄像头采集的比如viper,每个query只有一个正确的retrieval目标。所以往往使用top1比较。但在近期,随着大数据集的提出,数据集中往往包含多个摄像头的多个正确目标。光使用top1的话,不能反应模型的真实能力。所以类似图像检索,重识别加入了mAP作为衡量标准,将top2,top3…topn都考虑进去。
主要有两种方法:
a. 测试的输入是一对行人,输出为这对行人的相似度,然后再按相似度排序;
该方法的优点是:判断两个人是不是一个人,简单的二分类(是/否)。
缺点是:如果我们搜索库中有m张图片,那么与目标图片组成m对图片对。每一对都要进一次模型,估算相似度,这极大的增加了测试的时间。如果我们有n个query,那么我们要计算nm次相似度(而m往往很大)。
b. 输入单个人,提取特征,再计算与其他人的欧式距离,然后再按距离排序。
该方法是,预先提取行人的特征,我们只要预先提好n+m次特征。之后只要比较就好了,比较特征可以简单的用矩阵乘法实现。
目前两种方案都有在用,但是 b 方法更接近实际中图像搜索的要求,用特征来快速检索。
在研究中为了评价所提出的行人重识别方法的性能,通常将数据库中的行人分为训练集和测试集两个部分,在测试时,第1个摄像机所拍摄的数据作为查找集,而第2个摄像机中的行人数据为候选集。
目前常用的评价标准主要是CMC曲线(cumulated matching characteristic),当查找的对象在候选集中进行距离比较之后,将候选集中的行人按照距离的远近由小到大进行排序,要查找的行人排序越靠前,则算法的效果越好。假设总共有N个行人,即共进行N次查询和排序,每次查询中目标行人的排序结果用 $ r=(r_1,r_2,···,r_n) $表示,那么CMC曲线可以表示为:
在近几年, 有学者提出用平均正确率均值(mean average precision, mAP)来进行算法的评价标准,指出同时使用 mAP (mean average precision)作为评价标准能更好地比较方法的优劣,目前,已有文献将 CMC 曲线和 mAP 结合作为评价标准。
行人重识别算法大致可分为基于特征描述的方法和基于距离度量学习的方法两类。基于特征描述的方法关注的是找到较好的描述行人外貌特征的表观模型.基于度量学习的方法关注的是找到有效的行人特征相似度的度量准则。下面将分别介绍这两类。
6.1 特征表达方法
基于特征表示的方法重点在于设计鲁棒可靠的行人图像特征表示模型,即能够区分不同行人,同时能够不受光照和视角变化的影响,其主要分为以下几类。
底层视觉特征:
该方法基本上都是将图像划分成多个区域,对每个区域提取多种不同的底层视觉特征,组合后得到鲁棒性更好的特征表示形式。最常用的就是颜色直方图,多数情况下行人的衣服颜色结构简单,因此颜色表示是有效的特征,通常用RGB、HSV直方图表示。
中层语义属性:
通过语义信息来判断两张图像中是否属于同一行人,比如颜色、衣服以及携带的包等信息。
高级视觉特征
深度学习
6.2 度量学习方法
由于摄像机的视角、尺度、光照、服饰与姿态变化、分辨率不同以及存在遮挡,不同摄像头间可能会失去连续的位置和运动信息,使用欧氏距离、巴氏距离等标准的距离度量来度量行人表观特征的相似度不能获得很好的重识别效果,因此,研究者们提出通过度量学习的方法。该方法获得一个新的距离度量空间,使得同一行人不同图像的特征距离小于与不同人的距离。距离度量学习方法一般是基于马氏距离(Mahalanobis distance)而进行.
马氏距离: 根据样本的类别标签,将具有相同标签的样本组成正样本对,反之组成负样本对,并以此作为约束训练得到一个马氏矩阵,通过这样学习到的距离尺度变换,使得相同的人的特征距离减小,而不同的人特征距离增大,
VIPeR数据集是行人重识别中使用最为普遍的数据集,也是最具挑战性的数据集之一。VIPeR基于图像,包含632个行人,1 264幅图片,具有两个相机视角,每个相机视角下包含一个行人的一副图片。数据集中同一行人的两个相机下的成像视角差距较大,大部分在90°以上。数据集中所有的图像都归一化到相同的分辨率128×48。
CUHK01也是具有较高的挑战性的数据集。该数据集包含3 884幅图像,971个行人。每个行人对应从两个相机视角拍摄的4幅图像,每个相机2幅。所有图像分辨率均归一化到160×60。
Market-1501数据集包含1 501个行人,超过30 000幅图像,视频图像来源于6个摄像机。在大数据化的今天,以往的行人重识别数据集规模比较小,Market-1501的提出,弥补了这点