内容概要:全球最大的全球照片网站 Unsplash 宣布平台已经开放了超过 20 万名摄影师的近 200 万张免费图片的,并开放了两个图片检索结果的最大照片数据集。
原创:HyperAI超神经
关键词:数据集 图片搜索 图像分类
Unsplash 是网站5xsp456社区在线视频世界上最大的照片摄影网站之一,由全世界 20 多万摄影师参与,开放贡献了数百万张高清优质的图片摄影作品。
2013 年 5 月,检索集Unsplash 刚刚诞生,数据还只是全球 Tumblr 上的一个小站,摄影师、最大照片5xsp456社区在线视频网友们会将优质的网站摄影作品上传进来。
短短半年后,开放 Unsplash 的图片图片下载量就达到了 1000 万次,也顺理成章地从 Tumblr 上分离了出来,检索集推出了网站和搜索功能。数据
2015 年,全球Unsplash 的下载量达到 3000 万次,并首次推出了 API,Medium、Trello、Adobe 都是 Unsplash API 的客户。
近期,Unsplash 宣布平台已经有超过 20 万名摄影师的近 200 万张免费照片,并将数亿次搜索结果打包成两个图片检索结果数据集,将其开放。
Unsplash 本次开放的检索数据集,被官方定义为 World’s largest open library dataset (全球最大的开放检索信息数据集),包含了数十亿次照片搜索的信息和对应的照片信息。
数据集分为商用精简版和非商用版本
该数据集包含两个版本:
精简版数据集(下载链接为该版本):可用于商业和非商业使用场景。包含 2.5 万张自然主题的 Unsplash 照片的检索信息,共 2.5 万个关键词。
完整版数据集:仅限于非商业使用场景。包含 200 万张高质量 Unsplash 照片的检索信息,共 500 万个关键词。
本数据集为精简版数据集,压缩包 190M,解压后 550M ,包含四个单独的 TSV 文件,分别为:
TSV 文件可以在 PostgreSQL 数据库或 Pyhton 环境中加载
Collections : 82 MB包含 Unsplash 用户创建的照片收藏夹的信息:包括照片的ID(photo_id)、收藏夹的ID(collection_id)、收藏夹的标题(collection_title)和时间戳(photo_collected_at)等数据;Conversions : 349 MB包含用户搜索后选择的图像信息:包括照片时间戳(convert_at)、关键词(keyword)、照片ID(photo_id)、脱敏后的用户ID(onymous_user_id) 和用户地理位置(conversion_country)等数据;Keywords : 104 MB包含用户搜索的照片ID(photo_id)、搜索的关键字词(keyword)、关键字与图片的置信值(ai_service_1_confidence)等数据;Photos : 6.5 MB在这个文件中,可没有照片哦,而是包含照片ID(photo_id)、url(photo_image_url)、摄影师信息(Photographer_username)、相机信息(exif_camera)、参数(exif_iso)、平台查看总次数(stats_views)、下载总次数(stats_downloads)、拍摄地地理坐标(ai_primary_landmark_name)获取该数据集和文档可以访问:https://github.com/unsplash 了解更多使用方法,同时也可以结合 Unsplash 的开放 API,调用更多功能。
API:https://unsplash.com/developers
超神经 HyperAI 也将精简版数据集,在国内进行了做种加速。
访问https://hyper.ai/datasets/13127 或点击原文阅读即可进行高速下载。
该数据集可以应用在搜索系统、推荐系统、图片分类等场景的优化上。
除此之外,Unsplash 开放 API 提供了官方的 Js、PHP、Ruby 三个库,同时社区开源了 Go、Python、Swift 等库。结合数据集,也可以进行更多的尝试。