运筹OR帷幄』原创
作者:周岩
编者按:动作识别的研究主要基于对视频数据的识别,其中主要包含动作识别(如手势识别,运动识别等),目标识别和姿态预测几个子方向。所有这些方向的研究都离不开有代表性的视频数据。不同于图像识别领域有MNIST和ImageNet等十分成熟常用的数据集,动作识别领域的数据集比较有限,而且通常所占用的硬盘空间比较大,因此在开展相关研究之前,仔细选择一个合适的数据集显得十分必要。
动作识别(Action Recognition)是最近计算机视觉领域比较火的一个Topic,近年来有越来越多的相关文章出现在CVPR、ICCV和NIPS等机器学习和计算机视觉顶会上。这里就有一个Github的repo(https://github.com/jinwchoi/awesome-action-recognition)总结和整理了动作识别领域的相关研究工作和数据资源。
动作识别的研究主要基于对视频数据的识别,其中主要包含动作识别(如手势识别,运动识别等),目标识别和姿态预测几个子方向。所有这些方向的研究都离不开有代表性的视频数据。不同于图像识别领域有MNIST和ImageNet等十分成熟常用的数据集,动作识别领域的数据集比较有限,而且通常所占用的硬盘空间比较大,因此在开展相关研究之前,仔细选择一个合适的数据集显得十分必要。
获取对自己研究合适的视频数据集可能需要花大量的带宽资源和硬盘资源下载,本文就动作识别领域目前有的公开数据集进行了深入研究,详细了介绍了一下各个数据集的特点,读者可以在本文的帮助下,根据自身的需要选择合适的数据集下载。
1、经典数据集
经典的动作识别数据集,也是目前文章中使用率较高的数据集之一。数据集一共包含2391组数据,其中包含6个动作,每个动作由25个人物在4个不同的场景下完成,因此一共有600个视频序列,每个视频又可以分割成4个子序列。KTH数据集的动作比较规范,同时采用固定镜头,数量对于目前的模型训练来说也比较丰富,所以对应单纯进行动作识别的任务可以说是非常好用的数据集了。同时,KTH在GitHub的处理的开源程序有很多,可以随时根据自己的需要进行参考。
另一组比较经典的数据集,数据同样是固定镜头下的10个典型动作的视频,同时数据集提供了一些带有其他物体的动作作为干扰,可以测试模型的鲁棒性。
官方同时提供了去除背景的程序,但是数据集的数据量比较少的90组常规数据和21组鲁棒测试数据,对于目前的模型训练来说显得有些不足,不过对于本来就需要用小数据的模型比如迁移学习或者One-short Learning来说或许是适合的数据集。
一个主要关于运动的数据集,这个数据集也是质量比较高的数据集,主要为13个常规的运动动作。但是美中不足的同样是每种数据的数量都比较少,不过这个数据集出了一些后续的数据集比如UCF-50(http://crcv.ucf.edu/data/UCF50.php)和UCF-101(http://crcv.ucf.edu/data/UCF101.php)等。
根据好莱坞电影镜头剪辑出来的数据集,这个数据集包含475个视频,数据量上有一定的保证,但是这个数据集有个特点就是电影镜头往往不是单一的动作,而且很多动作同时混合在一起,同时背景由于镜头切换会有非连续的情况出现,或许这样的情况会对模型的训练造成影响。另外这组数据还在后续提供了更大数据量的数据集:https://www.di.ens.fr/~laptev/actions/hollywood2/。
总结:以上就是对经典数据集的介绍,经典数据集的数据量普遍比较少,而且场景也相对简单,而且提出的时间通常在2000前后,视频的分辨率也普遍偏低,更详细的介绍可以参考2014年的一篇综述文章:A survey on vision-based human action recognition。
2、中等规模的数据集
这个数据集一共有51个类别,平均每个类别有100-200组数据。从数据量和类别上来看可以看到是具有比较丰富的数据的,但是这个数据集也是由一些电影镜头和日常的摄像机拍摄的视频为主,所以背景相对复杂,同样有动态镜头和切换镜头的视频。因此这个数据集更适合目标识别和目标检测。
总结:中等规模的数据集普遍具有相对与经典数据集更多的数据量,而且在类别上也更多,这也体现了随着计算规模的发展,可以建立的预测模型越来越复杂,可以处理更复杂的任务。
3、适用于深度学习的大规模数据集
该数据集提供了丰富的数据量,并且视频的背景相对固定,很适合进行动作识别,同时数据的特点是同时提供了RGB,深度和骨骼视频。数据集的全部数据高达1.3TB,并且后续有更丰富的数据集提供("NTU RGB+D 120"),但是这个数据的下载需要通过网站申请账号,但是一天之内会有回复(仔细填写一般都可以通过)。
总结:大规模数据集的特点主要是数据量比较大,类别也更多,并且网站上普遍不能提供直接的下载,而是通过提供类似爬虫程序的方式下载。这类数据主要以近3-5年出现的数据集为主数据的大小普遍在GB甚至TB级,需要用深度模型和更强算力的机器来建立模型处理。
4、特定场景的数据集
以上都是一些比较有名的开源数据集,常常用来做算法的benchmark。那么针对一些实际的应用场景,我们往往还需要一些特殊的数据集。这样的小众数据集有很多,我们不一一来收集做介绍,这里只是举例介绍其中的一个。
Distracted Driver Detection是一个司机状态检测数据集,包含10个状态,共22425张图 。大小4G。(数据文末回复关键词可见)
数据集地址:
https//www.kaggle.com/c/state-farm-distracted-driver-detection/data
每年很多的交通事故的发生都是因为司机没有专注于自动驾驶,因此一个好的辅助驾驶系统不仅要关注车外的情况,也要时刻关注车内驾驶员的情况。
这一个数据集来自kaggle平台,包含了10种状态,如下:
c0:safe driving
c1:texting-right
c2:talking on the phone-right
c3:texting-left
c4:talking on the phone-left
c5:operating the ratio
c6:drinking
c7:reaching behind
c8:hair and makeup
c9:talking on passenger
一些样本如下,每一类约2000多张图像,共22425张图。
最后总结:
这篇文章主要对动作识别领域的一部分数据集做了一些基本的介绍和探讨,很多数据也没有实际的处理和应用,所以并不够深入,但是也希望这篇文章能起到一个抛砖引玉的作用,更详细的介绍可以直接去数据集的官网阅读说明并下载研究。如何组织好自己的数据为算法提供支撑是做研究的关键一步,最后小编希望大家可以通过这些数据做出更精彩的成果。
023年12月29日,岚山区行政审批服务局发布日照市岚山通用机场有限公司日照市岚山通用机场建设工程环境影响报告书第一次信息公开
根据《环境影响评价公众参与办法》(部令 第4号)、《关于发布<环境影响评价公众参与办法>配套文件的公告的相关要求》(生态环境部公告2018年第48号),对日照市岚山通用机场有限公司日照市岚山通用机场建设工程环境影响评价进行公众参与信息公示,使项目建设可能影响区域内的公众对项目建设情况有所了解,并通过公示了解社会公众对建设项目的态度和建议,接受社会公众的监督。
一、建设项目概况
项目名称:日照市岚山通用机场建设工程
建设地点:日照市岚山区安东卫街道玉泉二路以南,多岛海大道以西,绣针河以东。
建设单位:日照市岚山通用机场有限公司
建设内容:总投资19789万元,跑道基准点坐标点为N35°05′14.36″,E119°18′2.04″,跑道真方位164°~344°。机场等级为A2类通用机场,飞行区等级为2B,主要建设内容为:一条长950米、宽30米跑道,跑道东侧平行设置长950米、宽10.5米的滑行道;机坪总面积22425平方米、布设机位16个;机坪及滑行道与跑道间设置4条长52米、宽10.5米联终道;航站区建筑物总建筑面积10695平方米,相应的供电、通信、消防救援、给排水等相关配套工程,以及飞行区围界、场区道路等附属设施。
二、建设单位名称和联系方式
建设单位:日照市岚山通用机场有限公司
联系人:牟总 联系电话:18006335001
三、环境影响报告书编制单位名称
编制单位:绿之缘环境产业集团有限公司
四、公众意见表链接
建设项目环境影响评价公众意见表网络链接:http://www.mee.gov.cn/xxgk2018/xxgk/xxgk01/201810/t20181024_665329.html
五、提交公众意见表的方式和途径
(1)电子版公众意见表,提交建设单位邮箱:18006335001@163.com;
(2)纸版公众意见表,提交日照市岚山通用机场有限公司,联系人牟总。
来源:日照市岚山区人民政府网站
运筹OR帷幄』原创
作者:周岩
编者按:动作识别的研究主要基于对视频数据的识别,其中主要包含动作识别(如手势识别,运动识别等),目标识别和姿态预测几个子方向。所有这些方向的研究都离不开有代表性的视频数据。不同于图像识别领域有MNIST和ImageNet等十分成熟常用的数据集,动作识别领域的数据集比较有限,而且通常所占用的硬盘空间比较大,因此在开展相关研究之前,仔细选择一个合适的数据集显得十分必要。
动作识别(Action Recognition)是最近计算机视觉领域比较火的一个Topic,近年来有越来越多的相关文章出现在CVPR、ICCV和NIPS等机器学习和计算机视觉顶会上。这里就有一个Github的repo(https://github.com/jinwchoi/awesome-action-recognition)总结和整理了动作识别领域的相关研究工作和数据资源。
动作识别的研究主要基于对视频数据的识别,其中主要包含动作识别(如手势识别,运动识别等),目标识别和姿态预测几个子方向。所有这些方向的研究都离不开有代表性的视频数据。不同于图像识别领域有MNIST和ImageNet等十分成熟常用的数据集,动作识别领域的数据集比较有限,而且通常所占用的硬盘空间比较大,因此在开展相关研究之前,仔细选择一个合适的数据集显得十分必要。
获取对自己研究合适的视频数据集可能需要花大量的带宽资源和硬盘资源下载,本文就动作识别领域目前有的公开数据集进行了深入研究,详细了介绍了一下各个数据集的特点,读者可以在本文的帮助下,根据自身的需要选择合适的数据集下载。
1、经典数据集
经典的动作识别数据集,也是目前文章中使用率较高的数据集之一。数据集一共包含2391组数据,其中包含6个动作,每个动作由25个人物在4个不同的场景下完成,因此一共有600个视频序列,每个视频又可以分割成4个子序列。KTH数据集的动作比较规范,同时采用固定镜头,数量对于目前的模型训练来说也比较丰富,所以对应单纯进行动作识别的任务可以说是非常好用的数据集了。同时,KTH在GitHub的处理的开源程序有很多,可以随时根据自己的需要进行参考。
另一组比较经典的数据集,数据同样是固定镜头下的10个典型动作的视频,同时数据集提供了一些带有其他物体的动作作为干扰,可以测试模型的鲁棒性。
官方同时提供了去除背景的程序,但是数据集的数据量比较少的90组常规数据和21组鲁棒测试数据,对于目前的模型训练来说显得有些不足,不过对于本来就需要用小数据的模型比如迁移学习或者One-short Learning来说或许是适合的数据集。
一个主要关于运动的数据集,这个数据集也是质量比较高的数据集,主要为13个常规的运动动作。但是美中不足的同样是每种数据的数量都比较少,不过这个数据集出了一些后续的数据集比如UCF-50(http://crcv.ucf.edu/data/UCF50.php)和UCF-101(http://crcv.ucf.edu/data/UCF101.php)等。
根据好莱坞电影镜头剪辑出来的数据集,这个数据集包含475个视频,数据量上有一定的保证,但是这个数据集有个特点就是电影镜头往往不是单一的动作,而且很多动作同时混合在一起,同时背景由于镜头切换会有非连续的情况出现,或许这样的情况会对模型的训练造成影响。另外这组数据还在后续提供了更大数据量的数据集:https://www.di.ens.fr/~laptev/actions/hollywood2/。
总结:以上就是对经典数据集的介绍,经典数据集的数据量普遍比较少,而且场景也相对简单,而且提出的时间通常在2000前后,视频的分辨率也普遍偏低,更详细的介绍可以参考2014年的一篇综述文章:A survey on vision-based human action recognition。
2、中等规模的数据集
这个数据集一共有51个类别,平均每个类别有100-200组数据。从数据量和类别上来看可以看到是具有比较丰富的数据的,但是这个数据集也是由一些电影镜头和日常的摄像机拍摄的视频为主,所以背景相对复杂,同样有动态镜头和切换镜头的视频。因此这个数据集更适合目标识别和目标检测。
总结:中等规模的数据集普遍具有相对与经典数据集更多的数据量,而且在类别上也更多,这也体现了随着计算规模的发展,可以建立的预测模型越来越复杂,可以处理更复杂的任务。
3、适用于深度学习的大规模数据集
该数据集提供了丰富的数据量,并且视频的背景相对固定,很适合进行动作识别,同时数据的特点是同时提供了RGB,深度和骨骼视频。数据集的全部数据高达1.3TB,并且后续有更丰富的数据集提供("NTU RGB+D 120"),但是这个数据的下载需要通过网站申请账号,但是一天之内会有回复(仔细填写一般都可以通过)。
总结:大规模数据集的特点主要是数据量比较大,类别也更多,并且网站上普遍不能提供直接的下载,而是通过提供类似爬虫程序的方式下载。这类数据主要以近3-5年出现的数据集为主数据的大小普遍在GB甚至TB级,需要用深度模型和更强算力的机器来建立模型处理。
4、特定场景的数据集
以上都是一些比较有名的开源数据集,常常用来做算法的benchmark。那么针对一些实际的应用场景,我们往往还需要一些特殊的数据集。这样的小众数据集有很多,我们不一一来收集做介绍,这里只是举例介绍其中的一个。
Distracted Driver Detection是一个司机状态检测数据集,包含10个状态,共22425张图 。大小4G。(数据文末回复关键词可见)
数据集地址:
https//www.kaggle.com/c/state-farm-distracted-driver-detection/data
每年很多的交通事故的发生都是因为司机没有专注于自动驾驶,因此一个好的辅助驾驶系统不仅要关注车外的情况,也要时刻关注车内驾驶员的情况。
这一个数据集来自kaggle平台,包含了10种状态,如下:
c0:safe driving
c1:texting-right
c2:talking on the phone-right
c3:texting-left
c4:talking on the phone-left
c5:operating the ratio
c6:drinking
c7:reaching behind
c8:hair and makeup
c9:talking on passenger
一些样本如下,每一类约2000多张图像,共22425张图。
最后总结:
这篇文章主要对动作识别领域的一部分数据集做了一些基本的介绍和探讨,很多数据也没有实际的处理和应用,所以并不够深入,但是也希望这篇文章能起到一个抛砖引玉的作用,更详细的介绍可以直接去数据集的官网阅读说明并下载研究。如何组织好自己的数据为算法提供支撑是做研究的关键一步,最后小编希望大家可以通过这些数据做出更精彩的成果。
*请认真填写需求信息,我们会在24小时内与您取得联系。