- 主页 > 生活百科 > >
盘点20多个强大且免费的数据源,任何人都能以此来构建AI( 二 )
Google Open Images——数以百万计的图像以各种方式分类和标记,用于训练许多不同类型的计算机视觉算法 。 Imag.NET Open Dataset——另一个由标记图像组成的数据集,可免费用于非商业机器学习应用 。 COCO Dataset——Common Objects in Context (COCO)数据集中包含了超过200000张图像,这些图像被选择用于训练对象检测和字幕算法 。声音数据
- Mozilla Common Voice——一个开放的录音数据集,可用于训练任何涉及语音的AI应用 。
- AudIOSet——另一个由谷歌策划的数据集,这个数据集专注于声音,包含数十万个10秒样本,这些样本被分解为乐器、车辆和人声等类别 。
- Million Song Dataset——来自一百万个当代流行音乐曲目的样本和元数据 。
文本数据
- Wikidata——多种不同格式的维基百科文章的数据库下载 。
- Common Crawl——一个从万维网上抓取的开放数据存储库,最知名的用途就是对ChatGPT和其他聊天机器人的GPU大型语言模型进行训练 。
其他和杂项数据集
- Amazon Reviews——包含约3500万条亚马逊产品评论的数据库,包括产品信息和评级 。
- Waymo Open Dataset——Alphabet自动驾驶子公司Waymo公开了通过自动驾驶车辆收集的大量数据,包括来自摄像头和LiDAR传感器数据 。
- Apolloscape Dataset——更多的自动驾驶数据,是由百度开源Apollo平台提供的 。
推荐阅读
-
大众新闻 千元5G手机——酷派X10,是情怀,更是实力
-
艾小贝育儿课堂|我不想上幼儿园”,孩子说出这句话时,家长应该做3件事,“妈妈
-
国民乐见我出去和朋友玩,突然发现钱不够,幽默笑话:有一次
-
保健品|9月起滋补品、保健品、疫苗等不纳入医保目录
-
『汉市新洲』武汉易堵路段公布,经过这些学校周边道路也要注意
-
质押|平潭发展:控股股东山田实业质押公司股份1000万股
-
-
-
爱军事的大白|一跃成世界第三多,全球第二人口大国局势堪忧!确诊超过了俄罗斯
-
隋唐|隋唐有一好汉,武功高强长相俊秀,打得过他的人很少
-
迪丽热巴|热巴新春大片上线!穿宽松毛衣再陷怀孕传闻,网友:劈叉也不好使
-
保罗·格德斯|巴西逆势复工复产 下半年经济有望回暖
-
苹果下代新机将加入高刷屏,iOS 14.3正式上线
-
怪小兽电竞TB|比赛没人敢这么玩,德云色解密Theshy超强“理财术”:除了他
-
-
SOLE履程|拾讯 | 下一波Stüssy联名,你准备好了吗?,SOLE
-
-
-
奇迹中国纵容蓬佩奥四处散“毒”,结果却报应在美国身上,特朗普没想到
-