webdatacommons数据集

越来越多的网站使用结构化的数据来表述一些比如商品、人物、组织、地点、事件或者菜谱等等。这些结构化的数据经常使用诸如RDFa,Microdata或者Microformats等格式存储。Common Crawl是现如今向公众开放的最大网络语料库,里面存有66 TeraByte的网页数据,而Web Data Commons,就是从这个语料库中提取这些结构化数据,形成了这个数据集

数据与资源

其他信息

价值
最近更新 四月 10, 2018, 05:15 (UTC)
创建的 四月 10, 2018, 05:15 (UTC)