- 主页 > 生活百科 > >
盘点20多个强大且免费的数据源,任何人都能以此来构建AI( 二 )
Google Open Images——数以百万计的图像以各种方式分类和标记,用于训练许多不同类型的计算机视觉算法 。 Imag.NET Open Dataset——另一个由标记图像组成的数据集,可免费用于非商业机器学习应用 。 COCO Dataset——Common Objects in Context (COCO)数据集中包含了超过200000张图像,这些图像被选择用于训练对象检测和字幕算法 。声音数据
- Mozilla Common Voice——一个开放的录音数据集,可用于训练任何涉及语音的AI应用 。
- AudIOSet——另一个由谷歌策划的数据集,这个数据集专注于声音,包含数十万个10秒样本,这些样本被分解为乐器、车辆和人声等类别 。
- Million Song Dataset——来自一百万个当代流行音乐曲目的样本和元数据 。
文本数据
- Wikidata——多种不同格式的维基百科文章的数据库下载 。
- Common Crawl——一个从万维网上抓取的开放数据存储库,最知名的用途就是对ChatGPT和其他聊天机器人的GPU大型语言模型进行训练 。
其他和杂项数据集
- Amazon Reviews——包含约3500万条亚马逊产品评论的数据库,包括产品信息和评级 。
- Waymo Open Dataset——Alphabet自动驾驶子公司Waymo公开了通过自动驾驶车辆收集的大量数据,包括来自摄像头和LiDAR传感器数据 。
- Apolloscape Dataset——更多的自动驾驶数据,是由百度开源Apollo平台提供的 。
推荐阅读
-
-
-
『邓伦』《密逃2》节目组这次下血本了,包下整座大厦,邓伦吓出新表情包
-
时尚大对碰|瘦子的福利,这样穿就很特别,今年秋季火了“喇叭袖”
-
-
-
-
-
-
做法|茄子最简单好吃的做法,不用过油,水水嫩嫩鲜香下饭,全家都爱吃
-
伏魔半仙人|这几款绝版,而她在五周年能返场?,曾经免费能获取史诗级皮肤
-
-
-
不冷星球 张艺谋小31岁娇妻为儿庆生,长子张壹男才华横溢,18岁获国际影奖,
-
-
『净利润』信用卡逾期半年,第三方催收暴通讯录,上门,恐吓威胁该怎么办
-
喜数科技小陈|输球又输人!热刺1-3惨败,穆里尼奥炮轰裁判,球迷:黔驴技穷了
-
「田野牧蜂自然成熟蜜」蜂蜜绿茶的功效与作用?绿茶加蜂蜜治疗咽炎?
-
整点鲜闻|李湘直播忙带货,老公在外搂腰壁咚女友人,女生该如何保护自己?
-
『逗儿妈妈』家长巧用“登门槛效应”,培养孩子专注力,孩子做事没有“长性”