开发者 开发者福音!百度大脑EasyData提升数据管理全流程效率
在AI模型开发中,数据准备往往占据了大量时间。经过长时间的调研与访问,我们发现用户常常会遇到以下问题:
难以获取与场景数据匹配的训练数据。在具体业务场景中,模型的效果至关重要,我们往往会追求高精度模型效果,以保证模型能做到替代人工、降本增效的最终目的。众所周知,训练数据和场景数据的匹配程度会极大影响模型表现,越贴近使用场景的数据,更有可能训练出超高精度的模型。但可能因为历史原因没有大量现场的存量数据、或者重新采集需要进行大量调研才能部署新的采集设备、又或者如果需要人工到业务现场去收集训练素材,不仅成本高,一旦业务出现变动,也很难保证数据的实时性。
视频场景数据采集及处理繁杂。在视频监控场景中,通常是多个摄像头覆盖多角度长时间工作,产生的视频文件体积大,处理困难。对于一个最普通的130W像素摄像头在2M码流的情况下,连续工作一天24小时,将会生成约21G的视频文件。在进行视频数据处理时,仅上传下载就会耗费大量时间。对自动视频截帧、自动上传的需求呼声越来越高。
数据量、丰富度和数据质量欠佳。好不容易采集到的大量业务数据,清洗也是一项巨大的工作,用户曾向EasyDL团队求助,自己采集好的图像数据因为拍摄角度问题出现了整体偏斜的情况,影响标注效果和模型效果;也有用户表示想快速去掉训练集中不清晰的图片,只保留高质量图片进行训练。这一系列数据清洗的需求也同时被EasyDL的研发工程师们关注着。
在了解开发者在数据层面的诸多需求后,百度大脑团队为开发者带来了一款全新的数据产品——EasyData。从名字即可看到,EasyData围绕“Data数据”展开,重点关注AI模型开发过程中的数据采集、数据清洗、数据存储、数据标注、数据分析等环节,解决以上开发者反馈的各类数据管理问题。
作为业内首个提供软硬一体、端云协同的智能数据采集服务的平台,EasyData可支持图片、文本、音频和视频四类数据的处理,其中图片数据支持了采集、清洗、标注一站式处理,且四类数据都已经支持将EasyData处理的数据应用于EasyDL模型训练,便于开发者直接使用。
同时,EasyData延承了百度大脑Easy系列产品简单易用的特性,界面简洁,操作流畅。随着产品的不断升级与优化,EasyData也将会提供更多的数据方向支持,持续为开发者提供更全面与优质的智能数据服务。

文章图片
接下来,我们从图片数据采集、数据标注、数据清洗方面来了解EasyData的特色和功能。
【采集软件助力快速获取训练数据】
在安防监控、工业质检等诸多领域,用户的数据来源将会是摄像头或者相机,面对大量视频和图片,截帧、传输通常需要线下单独操作,费时费力。考虑到用户的这一需求,EasyData提供了一个官方采集软件,可以简单快速将摄像头的数据进行采集与截帧,并传输到数据集。目前,这个采集软件已经支持Linux、Windows操作系统,同时还支持了主流的ARM开发版RK3399。在摄像头方面,支持市面上绝大多数USB的摄像头,并同时支持RTSP网络协议的摄像头,力求最大程度覆盖用户的使用范围。
进入EasyData首页,如下图所示,在【数据采集】的【摄像头管理】中,即可一键下载本地软件。此软件支持图形化界面配置,简单易懂。用户通过此软件,可以添加设备并根据业务需求设置抽帧策略,并将图片传输至指定目录。在这两个功能的加持之下,原始图像数据接入EasyData变得十分方便,并且完成了图片的云端管理,大量节省了单独抽帧、传输的工作量。
文章图片
如图所示,在下载图像采集SDK后,用户可以在EasyData平台中根据业务需求设置抽帧帧率、运行时间,提交之后,部署在摄像头的SDK将会根据设定自行抽帧,用户可在【查看云数据】中查看同步到EasyData的摄像头数据,并保存到数据集中,进行下一步处理或训练。
推荐阅读
- 东大街知事|而现在才发现百度、高德、谷歌地图都是“错误”的,天天用地图
- 产业气象站 & 一键查看被淘宝官方刻意隐藏的卖家店铺档案,购物党的福音
- Google地图天天用地图,而现在才发现百度、高德、谷歌地图都是“错误”的
- 浪子归家 | 百度搜索“优化中心”二期上线,产品
- #程序员#?8年经验程序员跳槽,2个月面试腾讯百度京东等70家公司,总结出4个共同点
- 爱云资讯|China,百度智能云工业视觉智能平台宣布重磅升级,聚焦2020Vision
- 爱云资讯 China,百度智能云工业视觉智能平台宣布重磅升级,聚焦2020Vision
- 红色警戒|《红色警戒》尤里被玩坏的作战单位,开发者也没想到能这么玩吧
- Do早报|抵制Facebook的公司超800家;百度网讯被列为被执行人|Do早报
- 每日经济新闻|谷歌、爱奇艺投资,曾和百度牵手,这家10亿美元直播“小巨头”还是没撑住
