webdatacommons数据集
数据与资源
-
从Common Crawl.爬取的html-rdfa格式数据
【下载量:467】
plist文件,里面存有多个数据文件的压缩包地址,GZIP格式压缩,共计47GB
-
从Common Crawl.爬取的html-microdata格式数据
【下载量:228】
list文件,下载后627GB
-
从Common Crawl.爬取的html-embedded-jsonld格式数据
【下载量:151】
list文件,下载后61GB
-
从Common Crawl.爬取的html-mf-geo格式数据
【下载量:183】
list文件,下载后476MB
-
从Common Crawl.爬取的html-mf-hcalendar格式数据
【下载量:215】
list文件,下载后1GB
-
从Common Crawl.爬取的html-mf-hcard格式数据
【下载量:143】
list文件,下载后111GB
-
从Common Crawl.爬取的html-mf-adr格式数据
【下载量:188】
list文件,下载后2.7GB
-
从Common Crawl.爬取的html-mf-hrecipe格式数据
【下载量:178】
list文件,下载后434MB
-
从Common Crawl.爬取的html-mf-hlisting格式数据
【下载量:161】
list文件,下载后455MB
-
从Common Crawl.爬取的html-mf-hresume格式数据
【下载量:663】
list文件,下载后1.6MB
-
从Common Crawl.爬取的html-mf-hreview格式数据
【下载量:101】
list文件,下载后2.4GB
-
从Common Crawl.爬取的html-mf-species格式数据
【下载量:231】
list文件,下载后14MB
-
从Common Crawl.爬取的html-mf-xfn格式数据
【下载量:161】
list文件,下载后4.3GB
其他信息
域 | 价值 |
---|---|
最近更新 | 四月 10, 2018, 05:15 (UTC) |
创建的 | 四月 10, 2018, 05:15 (UTC) |