- 主页 > 生活百科 > >
盘点20多个强大且免费的数据源,任何人都能以此来构建AI( 二 )
Google Open Images——数以百万计的图像以各种方式分类和标记,用于训练许多不同类型的计算机视觉算法 。 Imag.NET Open Dataset——另一个由标记图像组成的数据集,可免费用于非商业机器学习应用 。 COCO Dataset——Common Objects in Context (COCO)数据集中包含了超过200000张图像,这些图像被选择用于训练对象检测和字幕算法 。声音数据
- Mozilla Common Voice——一个开放的录音数据集,可用于训练任何涉及语音的AI应用 。
- AudIOSet——另一个由谷歌策划的数据集,这个数据集专注于声音,包含数十万个10秒样本,这些样本被分解为乐器、车辆和人声等类别 。
- Million Song Dataset——来自一百万个当代流行音乐曲目的样本和元数据 。
文本数据
- Wikidata——多种不同格式的维基百科文章的数据库下载 。
- Common Crawl——一个从万维网上抓取的开放数据存储库,最知名的用途就是对ChatGPT和其他聊天机器人的GPU大型语言模型进行训练 。
其他和杂项数据集
- Amazon Reviews——包含约3500万条亚马逊产品评论的数据库,包括产品信息和评级 。
- Waymo Open Dataset——Alphabet自动驾驶子公司Waymo公开了通过自动驾驶车辆收集的大量数据,包括来自摄像头和LiDAR传感器数据 。
- Apolloscape Dataset——更多的自动驾驶数据,是由百度开源Apollo平台提供的 。
推荐阅读
-
-
-
北青网综合|涉及新冠密切接触者!安徽淮南紧急排查公交乘客
-
ASUS华硕东南新一代载人飞船上也能享用千兆局域网
-
兵器世界|美国吹牛皮被捅破,还让俄罗斯收获礼物,隐身导弹在叙利亚变哑弹
-
-
-
每日get|秋冬换季,如何挑选香水?3个技巧别忽略!
-
发小|泡发木耳时,用冷水还是热水?教你泡发小技巧,木耳泡得又快又好
-
人物设定|拍完一生一世拍驭鲛记,上线六集就领盒饭,人设讨喜观众舍不得
-
怎样不秃顶|可盐可甜的奼女搭配仍是梁洁会玩!清新的浅色系设计,满满俏皮感
-
青年|《全职高手》: 退役的才是王者?你记得这些退役大神吗?
-
2018年中国外贸进出口总值创历史新高 首超30万亿元
-
-
「广州恒大」恒大引他就赚大了:22岁豪门小将完全符合卡帅2点要求
-
诺贝尔文学奖|2020诺贝尔文学奖预测:今年会是“米兰·昆德拉年”吗?
-
-
高铁|浙江“唯一”未开通高铁城市,经济倒数第一,不是丽水也不是海宁
-
纯牛奶和鲜牛奶的区别-,纯牛奶和鲜牛奶有什么区别--
-