论文Express | AI+云+无人机=“云中监狱”:剑桥大学个体暴力行为实时监测
编译:小鱼、halcyon
关于AI技术引起的道德话题近来颇受争议,比如利用算法识别犯罪团伙或者,利用图像识别判定同性恋。
近日,剑桥大学发布了一篇论文,提出了一个有意思的观点,即利用混合深度学习网络+云计算+无人机,搭建了一个能实时监测个体暴力行为的无人机监控系统。
网红博主爱可可老师评价道,这篇论文的观点值得及时反思的道德危机,AI+云+无人机=空中监狱。
论文中监控系统的实时画面
可以在视频中看到,论文中提出的无人机监控系统,可以在人群中准确检测到发生肢体冲突的个体,并对其进行标记。如果该系统能推广开来,将具有非常广阔的应用前景。
当然,除了对暴力行为进行监控,无人机的这一监控特征也很容易被带入到对个人行为的监督下。因此,部分读者也表达了担忧,毕竟前段时间传得沸沸扬扬的AI杀手机器人视频中,充当夺命杀手的也是一些小型无人机。
无人机系统已经广泛部署于各种执法机构,用来监视敌人,监控外国贩毒集团,进行边境控制等。本文介绍了一种实时无人机监控系统,用于在公共场所对个体暴力行为的识别。
系统首先使用FPN从空中图像中检测人群,针对图像中的有人区域,利用本文提出的ScatterNet混合深度学习网络(SHDL)进行人体姿态估计;然后根据估计的四肢之间的方向确认施暴个体。
所提出的深度网络能够利用ScatterNet和少量标记样本的结构先验快速学习姿态表示。系统通过在云端处理无人机图像实时监测施暴个体。本研究还介绍了用于训练深度网络的空中个体暴力行为数据库,为研究人员使用深度学习进行空中监控提供帮助。最后,本文提出的基于姿态估计的暴力个体识别性能和目前先进的技术进行了比较。
个体暴力行为数据集
本研究提出了一种已标注的个体暴力行为(AVI)数据集,以用于本文提出的SHDL网络学习姿态估计。数据集由2000个图像组成,每张图像包含2~10个人。完整的数据集由10863个人组成,其中5124(48%)人参与了如下图1所示的拳打、刀刺、射杀、脚踢和扼喉这五种暴力行为中的一种或者多种。
空中图像帧中的每个人都用14个关键点进行标注,这14个关键点也是所提出的网络用作学习姿态估计的标签,如图2所示。这些活动由25名年龄在18-25岁之间的受试者中完成。图1中的图像由Parrot无人机在2米、4米、6米和8米的高空拍摄并记录。
[page]分页标题[/page] |
上图展示了AVI数据集中的暴力行为,即(从顶部开始顺时针方向):(1)扼喉,(2)拳打,(3)脚踢,(4)射杀,(5)刀刺。其中,刀刺行为在拍摄时同一帧图像中出现了4个人。
左图表示在人体上标注的14个关键点。人体点描述为,面部区域(紫色):P1-头,P2-颈;臂区域(红色):P3-右肩,P4-右肘,P5-右手腕,P6-左肩,P7-左肘,P8-左手腕;腿区(绿色):P9-右髋,P10-右膝,P11-右脚踝,P12-左髋,P13-左膝盖,P14-左脚踝;右图显示了用于捕获数据集中图像的Parrot AR无人机和图像中一些已标注的关键点的特写。
无人机监控系统
该系统首先使用FPN从无人机记录的图像中检测人类。然后利用所提出的SHDL网络来估计检测到的个体姿态。最后,估计姿态的四肢之间的方向用来识别暴力个体。系统采用云计算来实现实时识别。
人群检测
无人机监控系统充分利用FPN,以快速地从无人机记录的图像中检测到人群。特征金字塔通过利用卷积网络特征层的金字塔形状来检测人群,同时创建了一个在任何尺度上都具有极强语义的特征金字塔。其结果是一个在所有级别上都具有丰富语义的特征金字塔,并且可以从单个输入图像尺度快速构建。
ScatterNet混合深度学习网络
ScatterNet (前端)
ScatterNet特征在尺度上更为密集,因为它们是从多分辨率图像中分离出来的,大小是输入图像的1.5~2倍。下面给出了单输入图像的参数化DTCWT ScatterNet的公式,然后可以应用于每一个多分辨率图像。
为了建立一个具有平移不变性的姿态表示,对L2层的滤波信号(复模量)的实部和虚部逐点求模:
[page]分页标题[/page] |
L0,L1,L2处的散射系数为:
在L0、L1和L2中提取的每个多分辨率的特征被串联起来,作为回归网络的输入,来学习人类姿态估计的高级特征。ScatterNet特征帮助所提出的SHDL更快地收敛,因为回归网络的卷积层可以从学习的开始学习更复杂的模式。
基于结构先验的姿态估计(后端)
SHDL网络的回归网络利用ScatterNe不变t特征从AVI数据集中学习姿态估计。SHDL的回归网络由四个卷积层(L3到L6层)、两个完全连接、归一化和最大池层组成,如下图所示。
DSS框架首先使用无人机记录的图像,利用金字塔特征网络发现图像中的人体。包含人体的图像区域被作为所提出的SHDL网络的输入,以检测人体上的14个关键点来进行姿态估计。所提出的SHDL网络使用ScatterNet(前端)从L0、L1和L2输入的区域中手工提取特征,L0、L1和L2在两个尺度和六个固定方向上进行DTCWT滤波。
将上述特征作为具有32,32,64和64的回归网络的4个卷积层(L3,L4,L5,,L6)(后端)的输入。每个回归网络卷积层都用基于主成分分析(PCA)的结构先验进行初始化,其中结构先验具有相同数目的滤波器。PCA层可以避免棋盘式滤波器(红色显示),保证其不会作为回归网络的先验使用。
与原始的粗到细回归网络[1](为了获得SHDL而被修改)相比,ScatterNets和结构先验改进了所提出的SHDL网络的训练。检测人体的14个关键点进行连接并构建骨架结构。为ScatterNet手工制作的滤波器、学习的结构PCA先验以及学习的回归网络滤波器如上图所示。
结构先验
SHDL网络的回归网络的每个卷积层(L3到L6)被结构先验初始化以加速训练。利用PCANet[4]框架获取每一层的结构先验,该框架通过最小化以下重构误差获得一组标准正交滤波器:
个体暴力行为检测
将SHDL网络识别的14个关键点连接起来形成一个骨架结构,如上图所示。骨架结构的四肢之间的方向如下图所示。支持向量机算法(SVM)在这些方向向量上进行训练,分成六个类(五个暴力活动和一个中性活动),以执行多类分类。在测试期间,骨骼四肢之间的方向作为SVM的输入,SVM将人群分为中性或最可能出现暴力行为两种标签。[page]分页标题[/page]
无人机图像采集和云处理
AR无人机2.0由两个摄像机和惯性测量装置(IMU)组成,惯性测量装置由3轴加速度计、3轴陀螺仪和3轴磁强计,以及超声波和基于压力的高度传感器组成。利用亚马逊云端对无人机记录的图像进行计算,实现实时识别。
实验结果
姿态检测器
在80类COCO检测数据集上进行预先训练,得到FPN网络,将其用于检测AVI数据集中无人机记录的人群。FPN网络能够在10863人中检测到10558人,准确率为97.2%。
SHDL训练和参数设置
针对FPN网络检测到的图像区域,通过减去该图像区域的均值并除以它的标准差进行标准化,标准化后的图像大小为120*80。
ScatterNet
将上述图像区域作为ScatterNet(SHDL前端)的输入,该ScatterNet使用DTWC滤波器在2个尺度6个固定方向上提取L0,L1,L2中的不变边缘表示。
具有结构先验的回归网络
该网络在随机选取的6334个图像区域(60%)上进行训练,对2111个图像区域(20%)进行验证,对剩余的2113个图像区域(20%)进行测试。网络参数如下:基础学习速率是10^( 5),经过20次迭代之后,减少到10^( 6),dropout是0.5,批尺寸是20,迭代(回合)的总数是90。
姿态关键点检测性能
在标记的数据集上将检测到的14个关键点的坐标与其地面真值进行比较,从而评估SHDL网络的姿态估计性能。如果关键点与地面真值标记的关键点的距离在d像素的设置范围内,则该关键点被认为是位置正确,如图5所示。
上图通过检测关键点展示了姿态估计的性能,包括(a)手臂区域(构成手腕、肩膀和肘部),(b)腿部区域(包括脚踝、膝盖和髋部)以及(c)面部区域(头部和颈部)的关键点。
手臂、腿、面部区域的关键点检测分析如下:
上肢区域
图3(a)表示SHDL网络在d=5的像素距离下,可以检测到手腕区域关键点,准确率在60%左右。在相同的像素距离下,肘关节和肩关节区域的检测准确率分别在85%和95%左右(d=5)。
下肢区域
图3(b)表明,SHDL网络在d=5的像素距离下检测到几乎100%的髋部关键点。膝关节关键点检测准确率在85%~90%之间,踝关节关键点检测准确率在85%左右。
面部区域
如图5(c)所示,在d=5的像素距离下,该算法对颈部关键点(P2)的检测更为准确,准确率为95%左右,头部的关键点的准确率(P1)为77%左右。
AVI数据集上SHDL网络的人体姿态估计性能如表1所示。从表中可以看出,SHDL网络基于距离地面真值d=5像素的14个关键点来估计人体的姿态,有87.6%的准确度。[page]分页标题[/page]
用带有高斯核的SVM对方向向量进行训练,其中方向向量是由每类的暴力行为和中性类构成,随机选择6334(60%)个人类姿态实现多类分类,SVM参数选取(c)为14,将gamma参数设置为0.00002,对训练集进行5倍交叉验证。如表2所示,AVI数据集上每类暴力行为的分类准确率为4224(40%)。
接下来,每个图像中参与暴力活动受试者的数目分类准确率如表3所示。
上表给出的结果令人鼓舞,因为系统更可能在一个图像框架中遇到多个人。下图显示用于有不同数目的人参与暴力活动的图像的DSS框架。
结论
本文提出了一种实时无人机监控系统框架,该框架可以从空中图像中检测一个或多个参与暴力活动的个体。该框架首先使用FPN检测人群,然后使用提出的SHDL网络估计个体的姿态。最后用SVM算法处理估计的个体姿态从而识别暴力个体。
本文提出的SHDL网络,使用具有结构先验的ScatterNet特征来实现少量标记样本的加速训练。利用少量标记样本实现姿态估计,为该框架降低了收集标记样本的成本。本文还介绍了AVI数据集,为研究人员使用深度学习进行空中监控提供帮助。在同一AVI数据集上,所提出的DSS框架识别结果高于目前先进的技术。该框架将有助于发现在公共场所和集聚场所参与暴力活动的个人。
本文首发于微信公众号:大数据文摘。文章内容属作者个人观点,不代表和讯网立场。投资者据此操作,风险请自担。
- AMD助力微软Windows 11 为用户带来强大、可靠的计算能力2021-10-09 16:20
- 游戏玩家为之疯狂!Chinajoy2021 AMD展台那些火爆的瞬间2021-08-02 15:39
- 全场最佳 AMD Chinajoy2021展台圆满收官2021-08-02 15:38
- AMD 锐龙5000G系列处理器正式亮相Chinajoy20212021-08-02 11:50
- 极速制胜 制霸游戏 AMD携多款游戏神器扬威Chinajoy2021-08-02 11:44
- 央视《新闻联播》头条聚焦铁建重工,聚力攻克“卡脖子”技术难题2021-03-22 11:08
- 刚刚!我又上央视新闻联播头条了!2021-03-22 11:04
- 中国电科(3月1日-3月7日)要闻回顾 | 资讯轻阅读2021-03-22 10:47
- 我国将建第一个国家公园:为何是三江源2021-03-22 10:43
- 美国硅谷上演“大逃亡”:郊区成科技精英避难所2021-03-22 10:41
- 20:21控量挺价稳根基,长远发展可期,舍得酒业发布2024年业绩预告
- 14:34从加密OG到特朗普家族加密顾问,孙宇晨要做加密天命人?
- 21:43皙之密:助力肌肤焕变,闪耀自然美之光
- 21:15全美世界:以爱为笔,绘就辉煌征程
- 16:31JJ斗地主抵制赌博,开创棋牌游戏辉煌新纪元
- 17:55周大生黄金珠宝嘉年华喜迎新春,精选主推产品送上蛇年祝福
- 12:53“蓄势待发”的熊猫湾区首秀,海珠广场迎新春艺术盛宴
- 15:51小年贺岁,周大生经典成长礼记系列十二生肖串珠祈福新年
- 15:00从蓝色海洋畅想绿色未来,亚洲金融论坛第一财经工作坊成功举办
- 14:57天津新春发放消费券,汇正财经关注消费结构升级领域
- 13:49温致科技发布数字健康行业新物种
- 18:23周大生经典十万份黄金好礼大放送,点燃蛇年春节喜气氛围
- 11:13JJ斗地主拒绝赌博,引领棋牌游戏新风尚
- 10:37行业唯一!海尔智家获最具投资价值奖
- 10:24周大生黄金珠宝嘉年华即将盛大开启,十万份黄金好礼贺蛇年春节
- 09:28惠达卫浴与京东深化合作,开启2025健康卫浴新生活
- 19:08预见2025:HTX的全球化蓝图与战略突破
- 18:22惠达卫浴与京东深化合作,开启2025健康卫浴新生活
- 18:08“陆地航母”上线,人类距离打飞的上班还有多久?
- 17:54亚马逊最大规模电动卡车订单落地:豪购超200辆奔驰eActros
- 15:36百利好推出全新交易产品,开拓财富新篇章
- 21:10七座商务车都有哪些?上汽大通 MAXUS G90亮点解析
- 21:05云米电器质量怎么样,云米燃气热水器AI Super2:智享未来,温暖每一
- 20:51CR450动车组样车正式发布,标志着中国高铁技术新突破
- 20:03IP+文旅还能怎么玩?酷乐潮玩全国文旅首店给出了答案
- 18:09周大生大师艺术珠宝以璀璨黄金诠释印象派艺术
- 15:58CES新物种(下):中国原创,世界领先——通用软体机器人技术赋能全球生产
- 10:38CES 2025观察:海信空调的新风,继续吹向AI风口
- 16:22周大生经典在传承中创新,精心打造东方文化精品珠宝
- 15:59智能驱动,豫见未来——“热AI在郑州·百度品牌之夜”圆满落幕