加入收藏 | 设为首页 | 会员中心 | 我要投稿 济源站长网 (https://www.0391zz.cn/)- 数据工具、数据仓库、行业智能、CDN、运营!
当前位置: 首页 > 综合聚焦 > 移动互联 > 评测 > 正文

这是一份非常全面的开源数据集,你,真的不想要吗?

发布时间:2018-09-07 22:21:31 所属栏目:评测 来源:机器之心编译
导读:9月15日技术沙龙 | 与东华软件、AWS、京东金融、饿了么四位大咖探讨精准运维! 近期,skymind.ai 发布了一份非常全面的开源数据集。内容包括生物识别、自然图像以及深度学习图像等数据集,现将其整理如下:(内附链接哦~) 最近新增数据集 开源生物识别数据:
副标题[/!--empirenews.page--] 9月15日技术沙龙 | 与东华软件、AWS、京东金融、饿了么四位大咖探讨精准运维!

近期,skymind.ai 发布了一份非常全面的开源数据集。内容包括生物识别、自然图像以及深度学习图像等数据集,现将其整理如下:(内附链接哦~)

这是一份非常全面的开源数据集,你,真的不想要吗?

最近新增数据集

  • 开源生物识别数据:http://openbiometrics.org/
  • Google Audioset:扩展了 632 个音频分类样本,并从 YouTube 视频中提取了 2,084,320 个人类标记的 10 秒声音片段。
  • 地址:https://research.google.com/audioset/
  • Uber 2B trip data:首次展示 2 百万公里的出行数据。
  • 地址:https://movement.uber.com/cities
  • Yelp Open Dataset:Yelp 数据集是用于 NLP 的 Yelp 业务、评论和用户数据的子集。
  • 地址:https://www.yelp.com/dataset
  • Core50:用于连续目标识别的新数据集和基准。
  • 地址:https://vlomonaco.github.io/core50/
  • Kaggle 数据集:https://www.kaggle.com/datasets
  • Data Portal:http://dataportals.org/
  • Open Data Monitor:https://opendatamonitor.eu/
  • Quandl Data Portal:https://www.quandl.com/
  • Mut1ny 头部/面部分割数据集:http://www.mut1ny.com/face-headsegmentation-dataset
  • Github 上的优秀公共数据集:https://www.kdnuggets.com/2015/04/awesome-public-datasets-github.html
  • 头部 CT 扫描数据集:491 次扫描的 CQ500 数据集。
  • 地址:http://headctstudy.qure.ai/

自然图像数据集

  • MNIST:手写数字图像。最常用的可用性检查。格式 25x25、居中、黑白手写数字。这是一项简单的任务——仅某部分适用于 MNIST,不意味着它有效。
  • 地址:http://yann.lecun.com/exdb/mnist/
  • CIFAR10 / CIFAR100:32x32 彩色图像,10/100 类。虽然仍有趣却不再常用的可用性检查。
  • 地址:http://www.cs.utoronto.ca/~kriz/cifar.html
  • Caltech 101:101 类物体的图片。
  • 地址:http://www.vision.caltech.edu/Image_Datasets/Caltech101/
  • Caltech 256:256 类物体的图片。
  • 地址:http://www.vision.caltech.edu/Image_Datasets/Caltech256/
  • STL-10 数据集:用于开发无监督特征学习、深度学习、自学习算法的图像识别数据集。像修改过的 CIFAR-10。
  • 地址:http://cs.stanford.edu/~acoates/stl10/
  • The Street View House Numbers (SVHN):Google 街景中的门牌号码。可以把它想象成复现的户外 MNIST。
  • 地址:http://ufldl.stanford.edu/housenumbers/
  • NORB:玩具摆件在各种照明和姿势下的双目图像。
  • 地址:http://www.cs.nyu.edu/~ylclab/data/norb-v1.0/
  • Pascal VOC:通用图像分割/分类——对于构建真实世界图像注释不是非常有用,但对基线很有用。
  • 地址:http://pascallin.ecs.soton.ac.uk/challenges/VOC/
  • Labelme:带注释图像的大型数据集。
  • 地址:http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php
  • ImageNet:新算法的客观图像数据集(de-facto image dataset)。许多图像 API 公司都有来自其 REST 接口的标签,这些标签近 1000 类;WordNet; ImageNet 的层次结构。
  • 地址:http://image-net.org/
  • LSUN:具有很多辅助任务的场景理解(房间布局估计,显著性预测(saliency prediction)等),有关联竞赛。(associated competition)。
  • 地址:http://lsun.cs.princeton.edu/2016/
  • MS COCO:通用图像理解/说明,有关联竞赛。
  • 地址:http://mscoco.org/
  • COIL 20:不同物体在 360 度旋转中以每个角度成像。
  • 地址:http://www.cs.columbia.edu/CAVE/software/softlib/coil-20.php
  • COIL100:不同物体在 360 度旋转中以每个角度成像。
  • 地址:http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php
  • Google 开源图像:有 900 万张图像的网址集合,这些图像通过知识共享(Creative Commons)被标注成 6000 多个类别。
  • 地址:https://research.googleblog.com/2016/09/introducing-open-images-dataset.html

地理空间数据

  • OpenStreetMap:免费提供整个星球的矢量数据。它包含(旧版)美国人口普查局的数据。
  • 地址:http://wiki.openstreetmap.org/wiki/Planet.osm
  • Landsat8:整个地球表面的卫星视角图,每隔几周更新一次。
  • 地址:https://landsat.usgs.gov/landsat-8
  • NEXRAD:美国大气层的多普勒雷达扫描图。
  • 地址: https://www.ncdc.noaa.gov/data-access/radar-data/nexrad

————————我是深度学习图像的分割线————————

人工数据集

  • Arcade Universe:一个人工数据集生成器,图像包含街机游戏 sprite,如 tetris pentomino / tetromino。该生成器基于 O. Breleux 的 bugland 数据集生成器。
  • 地址:https://github.com/caglar/Arcade-Universe
  • 以 Baby AI School 为灵感的数据集集合。
  • 地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BabyAISchool
  • Baby AI Shapes Dataset:区分 3 种简单形状。
  • 地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BabyAIShapesDatasets
  • Baby AI Image And Question Dataset:一个问题-图像-答案数据集。
  • 地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BabyAIImageAndQuestionDatasets
  • Deep Vs Shallow Comparison ICML2007:为实证评估深层架构而生成的数据集。
  • 地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/DeepVsShallowComparisonICML2007
  • MnistVariations:在 MNIST 中引入受控变化。
  • 地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/MnistVariations
  • RectanglesData:区分宽矩形和垂直矩形。
  • 地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/RectanglesData
  • ConvexNonConvex:区分凸形和非凸形状。
  • 地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/ConvexNonConvex
  • BackgroundCorrelation:嘈杂 MNIST 背景下相关度的控制
  • 地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BackgroundCorrelation

(编辑:济源站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读