- 主页 > 生活百科 > >
盘点20多个强大且免费的数据源,任何人都能以此来构建AI( 二 )
Google Open Images——数以百万计的图像以各种方式分类和标记,用于训练许多不同类型的计算机视觉算法 。 Imag.NET Open Dataset——另一个由标记图像组成的数据集,可免费用于非商业机器学习应用 。 COCO Dataset——Common Objects in Context (COCO)数据集中包含了超过200000张图像,这些图像被选择用于训练对象检测和字幕算法 。声音数据
- Mozilla Common Voice——一个开放的录音数据集,可用于训练任何涉及语音的AI应用 。
- AudIOSet——另一个由谷歌策划的数据集,这个数据集专注于声音,包含数十万个10秒样本,这些样本被分解为乐器、车辆和人声等类别 。
- Million Song Dataset——来自一百万个当代流行音乐曲目的样本和元数据 。
文本数据
- Wikidata——多种不同格式的维基百科文章的数据库下载 。
- Common Crawl——一个从万维网上抓取的开放数据存储库,最知名的用途就是对ChatGPT和其他聊天机器人的GPU大型语言模型进行训练 。
其他和杂项数据集
- Amazon Reviews——包含约3500万条亚马逊产品评论的数据库,包括产品信息和评级 。
- Waymo Open Dataset——Alphabet自动驾驶子公司Waymo公开了通过自动驾驶车辆收集的大量数据,包括来自摄像头和LiDAR传感器数据 。
- Apolloscape Dataset——更多的自动驾驶数据,是由百度开源Apollo平台提供的 。
推荐阅读
-
【固态】下一代固态锂电池研究取得重大突破,有希望突破能量密度
-
一天假期结束了怎么发朋友圈 假期结束了怎么发朋友圈
-
请问德国的这家大学 Hochschule Rhein-Waal怎样
-
吊带公主裙中国准备对谷歌发起反垄断调查?知情人:相关决定或10月初公布
-
车轨新一代智跑为何深受欢迎?,13万级别合资SUV
-
主板|12代酷睿平价之选!梅捷B660/H610主板发布:全系标配DR.MOS供电
-
虎扑|黄潜扳平比分,GIF:卡索拉射门被扑杰拉德补射命中
-
手机圈的那点事.|华为P50彻底告别挖孔,设计思路前所未有
-
传奇巨星马大仙|标致RCZ由艺术家进行了现代化改造
-
-
关羽|三国志战略版:桃园拯救计划,控制输出流桃园诠释桃园新思路
-
-
#中新网#乌总统泽连斯基:不希望美国将乌克兰卷入华盛顿内政
-
-
-
-
日本|王羲之唯一传世书法真迹写了62个字,被日本视为国宝1300年
-
-
寒武纪科学馆|面临粮食系统崩溃,新冠病毒如何让粮食生产大国——印度
-
水中藻荇交横盖竹柏影也上一句;“盖竹柏影也”的前两句诗是什么?