- 主页 > 生活百科 > >
盘点20多个强大且免费的数据源,任何人都能以此来构建AI( 二 )
Google Open Images——数以百万计的图像以各种方式分类和标记,用于训练许多不同类型的计算机视觉算法 。 Imag.NET Open Dataset——另一个由标记图像组成的数据集,可免费用于非商业机器学习应用 。 COCO Dataset——Common Objects in Context (COCO)数据集中包含了超过200000张图像,这些图像被选择用于训练对象检测和字幕算法 。声音数据
- Mozilla Common Voice——一个开放的录音数据集,可用于训练任何涉及语音的AI应用 。
- AudIOSet——另一个由谷歌策划的数据集,这个数据集专注于声音,包含数十万个10秒样本,这些样本被分解为乐器、车辆和人声等类别 。
- Million Song Dataset——来自一百万个当代流行音乐曲目的样本和元数据 。
文本数据
- Wikidata——多种不同格式的维基百科文章的数据库下载 。
- Common Crawl——一个从万维网上抓取的开放数据存储库,最知名的用途就是对ChatGPT和其他聊天机器人的GPU大型语言模型进行训练 。
其他和杂项数据集
- Amazon Reviews——包含约3500万条亚马逊产品评论的数据库,包括产品信息和评级 。
- Waymo Open Dataset——Alphabet自动驾驶子公司Waymo公开了通过自动驾驶车辆收集的大量数据,包括来自摄像头和LiDAR传感器数据 。
- Apolloscape Dataset——更多的自动驾驶数据,是由百度开源Apollo平台提供的 。
推荐阅读
-
江郎|伤仲永的故事让我们再讲一次,才尽的江郎后来怎样了!
-
情感|《以家人之名》李尖尖“树洞文”在饭桌上捅出来,他背后动手脚厉害了
-
-
奶思兔米球|为何成功男士都买丰田卡罗拉?请听我详细剖析
-
坛侃娱乐|45岁却显苍老发际线后移,而他却依然帅气十足,吴彦祖晒日常生活
-
海峡都市报TB|看彩色向日葵,美极了!“六一”快带孩子来福州茶亭公园
-
百里守约|第三款源梦皮肤突袭,守约天狼皮肤帅炸,留一颗荣耀水晶给李白
-
-
-
-
[成吉思汗]中国最危险的三大古墓排行榜:成吉思汗仅排第二,最后一个太神秘
-
-
『时尚风行派』精致程度满分,马伊琍时隔2年与娄艺潇再同框!条纹半身裙搭短发
-
[非主流军评]特朗普宣布停止移民其实是“多此一举”,确诊病例即将突破一百万
-
-
西凉铁马|美国和伊朗达成一致意见,双方关系或缓解,扛不住了?三重危机下
-
冷门体育知识从来都不是一名职业球员,记者批J罗:他是个被宠坏的小男孩
-
|135地复式,白白赚了2个庭院+90地下室,又靠4大设计走红小区
-
【电视剧】4版小昭丫鬟变圣女:新版美艳,03版深情,01版又老又丑!
-
上海市体育局网站|长宁区体彩3中大奖!07149网点又出一等奖!