盘点20多个强大且免费的数据源，任何人都能以此来构建AI( 二 )

2026-07-23 数据源

Google Open Images——数以百万计的图像以各种方式分类和标记，用于训练许多不同类型的计算机视觉算法。

Imag.NET Open Dataset——另一个由标记图像组成的数据集，可免费用于非商业机器学习应用。

COCO Dataset——Common Objects in Context (COCO)数据集中包含了超过200000张图像，这些图像被选择用于训练对象检测和字幕算法。

声音数据

Mozilla Common Voice——一个开放的录音数据集，可用于训练任何涉及语音的AI应用。
AudIOSet——另一个由谷歌策划的数据集，这个数据集专注于声音，包含数十万个10秒样本，这些样本被分解为乐器、车辆和人声等类别。
Million Song Dataset——来自一百万个当代流行音乐曲目的样本和元数据。

文本数据

Wikidata——多种不同格式的维基百科文章的数据库下载。
Common Crawl——一个从万维网上抓取的开放数据存储库，最知名的用途就是对ChatGPT和其他聊天机器人的GPU大型语言模型进行训练。

其他和杂项数据集

Amazon Reviews——包含约3500万条亚马逊产品评论的数据库，包括产品信息和评级。
Waymo Open Dataset——Alphabet自动驾驶子公司Waymo公开了通过自动驾驶车辆收集的大量数据，包括来自摄像头和LiDAR传感器数据。
Apolloscape Dataset——更多的自动驾驶数据，是由百度开源Apollo平台提供的。

推荐阅读

上一篇：精准推荐的秘术：阿里解耦域适应无偏召回模型详解

下一篇：五个美妙的程序，让你的 Linux 终端更加精彩