文按计算机视觉、自然语言处理、语音识别、地理空间数据等人工智能的子领域分类,精心整理,每个数据集均附有下载链接,是做 AI 研究不容错过资源。

今天,构造 AI 或机器学习系统比以往任何时候都更加容易。我们有许多开源的最前沿的工具,如 TesorFlow,Torch,Spark 等,也有 AWS、Google Cloud 以及其他云服务提供商提供的大量计算力,这意味着你可以悠哉地一边喝着咖啡一边用 laptop 训练模型。虽然不算人工智能这列火车的车头,但 AI 革命的幕后英雄是数据——得益于各大研究机构和企业的辛苦工作,我们有机会获取大量有标签和注释的数据。这些研究机构和企业也认识到,数据的民主化是加速 AI 发展的一个必要步骤。然而,大多数包含机器学习或 AI 的产品都严重依赖非公开的专有数据集。因此,很难判定哪些公开数据集有用。

重要的是,在数据集上表现得性能良好并不能保证机器学习系统在真实的产品场景中表现良好。许多搞 AI 的人忘记了构建新 AI 解决方案或开发产品的最难的部分不是 AI 本身或者算法,而是数据的收集和标记。标准数据集可以用于验证模型,或作为构建更加定制化的解决方案的一个好的起点。

以下是我们精心收集的一些非常好的开放数据集,也是做 AI 研究不容错过的数据集。

计算机视觉

【学术、经典、陈旧】MNIST:最常用的完整性检查数据集,图像大小为25×25的B&W手写数字,但在 MNIST 上性能良好,并不意味着模型本身很好。

地址:MNIST in CSV

【经典、陈旧】CIFAR 10 & CIFAR 100:32×32的彩色图像数据集,虽然已经不常用,但也可以用作完整性检查。

地址:Computer Science~kriz/cifar.html

【有用、学术、经典】ImageNet:新算法实际上使用的图像数据集,很多图像 API 公司从其 REST 接口获取标签,这些标签被怀疑与 ImageNet 的下一级 WordNet 的 1000 个类很相似。

地址:ImageNet

LSUN:用于场景理解和多任务辅助(房间布局估计,显着性预测等)。

地址:Large-scale Scene Understanding Challenge

【学术】PASCAL VOC:一个通用的图像分割/分类数据集,对构建真实图像的注释用处不是特别大,但对于基线很有用。

地址:The PASCAL Visual Object Classes Homepage

【学术】SVHN:数据来源于 Google 街景视图中的房屋数量,可以用作野外的周期性 MNIST。

地址:The Street View House Numbers (SVHN) Dataset

MS COCO:一个通用的图像理解/字幕数据集。

地址:Common Objects in Context

【有用】Visual Genome:非常详细的视觉知识数据集,包含约100K图像的深字母。

地址:VisualGenome

【有用、学术、经典、陈旧】Labeled Faces in the Wild:使用名称标识符标记的面部区域数据集,常用于训练面部识别系统。

地址:LFW Face Database : Main

自然语言处理

【有用、学术】Text Classification Datasets:一个文本分类数据集,包含8个可用于文本分类的子数据集,样本大小从120K到3.6M,问题范围从2级到14级,数据来源于 DBPedia、Amazon、Yelp、Yahoo!、Sogou 和 AG。

地址:http://t.cn/RJDVxr4

【有用、学术】WikiText:由 Salesforce MetaMind 设计的大型语言建模语料库,来源于维基百科文章。

地址:Sina Visitor System

【有用】Question Pairs:第一个来源于 Quora 的包含重复/语义相似性标签的数据集。

地址:First Qu

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注