时间: 2024-03-24 17:25:10 | 作者: 建筑桥梁照明
本文为你整理了“新冠病毒数据资源和全球研究项目”在内的一些数据类型、数据来源、数据库和平台。
当下,新冠病毒已经全世界蔓延。中国的疫情虽然得到了有效控制,意大利、韩国、伊朗、日本和美国等国家却逐渐“沦陷”。全球新冠肺炎确定诊出的病例人数已破百万。面对来势汹汹的疫情,科研工作者更想用自己的科研专长帮助了解这个病毒以及与其相关的社会议题。那么我们要上哪找数据去?
本文汇总并整理了包括由哈佛大学地理数据中心,中国数据研究所,武汉大学社会地理计算中心以及研究方法与数据科学实验室合作的“新冠病毒数据资源和全球研究项目”在内的一些数据类型、数据来源、数据库和平台以供参考。
主要包括地图数据(省级,市级和县级),普查数据(人口普查和经济普查),省级、市级和县级统计数据及其他数据。地图数据并不是一成不变的,国家级或者省级地图可能变化很小,但是到了市级或者区县的空间地图差异是很大的,并且会跟着时间的变化而变化。所以基础地图的选择对研究而言就很重要。
国家数据:国家统计局开设网站,公布我国所有的领域的宏观经济情况,权威度高。
COVID-19开放研究数据集包含了超过29000篇来自全球各地的有关冠状病毒(家族)的相关学术文章,将大多数都用在医学和NLP(自然语言处理)相关领域研究,以应对新型冠状病毒肺炎疫情。在该数据集中,机器可读文章超过13000篇。研究人能通过机器学习来加速对文本的挖掘和解读,从而更高效地寻找对抗新冠病毒的方法。
由中国科学院维护,提供包括疫情追踪、最新动态、研究进展、领域专题等文献信息。“研究进展”部分以时间轴展示了科研人员所进行的研究活动和进展。内容持续更新,注册后可下载全文。
由国家生物信息中心 (CNCB) / 中国科学院北京基因组研究所 (BIG)/国家基因组科学数据中心 (NGDC) / 生命与健康大数据中心 (BIGD)维护,包含病毒基因组序列发布动态、病毒基因组变异数据分析、文献查找等。
由国家微生物科学数据中心/新冠病毒国家科技资源服务系统维护,包含病毒毒株信息、病毒电镜照片、核酸检验测试引物和探针序列、病毒基因组信息、科普知识等。
由中国科学院武汉文献情报中心和中国科学院文献情报中心维护。该网站收集“2019-nCoV”国内外重要科研动态,摘编重要科研进展,每天两次报送相关科研进展,所摘编内容每天形成快报,每周将本周内相关联的内容按病毒溯源、流行预测、病毒检测和疾病诊断、药物研发、机理研究、政策法规等分类形成每周科研动态分类汇编。
由中国专利信息中心/国家知识产权局专利局专利审查协作北京中心维护,数据涵盖新冠肺炎治疗用药、预防用药、病毒检测、医疗器械、防护产品、环境消毒、废弃物处理、废水净化处理、人工智能及大数据应用等多领域。
由中国疾病预防控制中心维护。由疫情动态、技术方案、文献报道、世卫信息等栏目组成,能及时了解国内疫情变化以及世界卫生组织的最新举措。
由科技部、国家卫生健康委、中国科协、中华医学会联合共建。一直更新汇总中华医学会系列杂志和国内其他生物医药卫生杂志发表的相关学术内容、公共学术资源,推介国外新冠肺炎相关优秀科研成果。
由国家科技图书文献中心(NSTL)建立。该专题数据库包含冠状病毒研究相关外文科技文献约350多万篇,文献类型涵盖外文期刊论文、科技图书、科技报告、专利、标准等。专题信息门户及时跟踪报道了世界卫生组织(WHO),中国国家卫生健康委员会、中国疾病预防控制中心、美国疾病预防控制中心等20余家政府机构网站公布的防控指南,以及《科学》、《新英格兰医学杂志》等30余种权威期刊的最新研究成果。内容既包括此次武汉新冠病毒感染、也包括SARS、MERS等相关文献。既有病原生物学、流行病学等基础研究,也包括临床诊治、药物医治、检验测试、疫苗研究的重要内容。
由全球最大的学术出版机构之一施普林格·自然从旗下期刊中整理了最新发表的与冠状病毒研究最相关的论文,并与相关评论文章和书籍一起汇总于专题网页,其中的所有内容可免费获取。
在新冠病毒研究的过程中,我们很难脱离人口迁徙数据来谈病毒。这里所提到的人口迁徙数据最重要的包含两个来源,一个是由百度迁徙提供的每日人口流动的数据,可通过爬虫技术获得。下面这两张图是2020年 1月23的武汉流动人口地图。左边是外地流向武汉市,右边反映的是武汉流向其他城市。
但是百度的这个迁徙数据只告诉我们人口流向,却没有公布每个流向的流向大小,这就要求我们再结合另一个数据来源确定流量大小,那就是国家统计局发布的流动人口数据。
这个更接近于学术界对于流动人口的定义,而百度的人口流动数据更像是一个对人口移动流量变化的记录。下图展示的是国家统计局发布的流动人口数据提供的流动人口数据:
健康设施数据最重要的包含高德地图的POI(Point of Information)数据和国家统计局提供的经济普查数据。
以武汉的医院数据为例,我们通过对高德地图进行爬虫(比如通过爬虫经纬度),我们大家可以把武汉的医院数据整合成Excel,再把这个Excel表格的信息与之前的基础数据相结合,得到更有价值的地图数据。
医院数据爬虫的流程包括:获取高德POI数据HTTP接口,确定POI所属类型以及所属位置的行政区划范围—解析JSON格式数据并存储标签为pois中的POI数据,参数包括医院名称,所属POI类型,语义地址,WGS84坐标系下的坐标,所属行政区划单元—建立国家卫生机构分类标准和高德地图POI分类标准映射关系—对医院类型进行匹配,以省级行政区划为单位存储为Excel格式文件—根据省、市、县区行政区划地图进行匹配和合并。
经济普查中也有医院数据。高德地图的数据没有很好的方法告诉我们医院建立的时间,医院所有制结构(私立vs公立)以及在不同年份一个特定区域的医院数量等信息,但经济普查数据可以弥补这一些数据缺失(如下图):
经济普查中的医院数据可以和高德地图数据来进行匹配,同样也可以和基础数据相结合,生成与我们研究相关的空间地图数据。
除了医院数据,医疗设施与制造对于疫情防控也很重要。这一些信息也可以从经济普查当中获得。
此外,我们还有一些别的与卫生相关的数据能够应用起来。比如下图的年度卫生统计数据(中国数据在线提供)。年度统计里面详细的介绍了国家级,省级和市级区划里的医院数量,门诊数量,床位数,医护人员数以及别的卫生统计信息,能很好的补充高德地图的缺失信息。
再比如中国空间信息系统提供的卫生数据China Geo-Explorer。这一个网站平台把统计数据,普查数据和GIS数据整合,可生成各种研究所需的图表、地图和报告。
这部分主要反映社会舆情,最重要的包含微博和推特(Twitter)等社会化媒体。因为这些社会化媒体是主要的信息源自,对疫情预测和舆情导向等研究热点有指向作用。
百度指数:百度旗下/以百度网民行为数据为基础的数据分享平台,支持查询需求图谱
搜狗指数:搜狗旗下/基于搜狗用户行为的数据分享平台,同时支持搜索微信热度
主要包括各细分行业及别的类型的数据来源,包括互联网、电商、娱乐、汽车、房地产、移动端、投资行业等。疫情对各产业的影响是广泛的,影响程度和未来趋势都值得进一步研究。
腾讯大数据:腾讯旗下/发布与腾讯息息相关的研究报告,常会出现一些比较有趣味性的专题
艾瑞网:艾瑞旗下/支持查看较新的数据报告,主研究网络媒体、电子商务、在线游戏等新经济领域。
中国互联网信息研究中心:经国家主管部门批准组建的管理和服务机构,经常发布一些有价值的互联网信息报告
199IT:容纳众多互联网数据报告,其导航网站收集了众多数据相关的网站链接
阿里研究院:阿里旗下/发布研究电商等方向趋势的数据报告,内容多与阿里相关
爱奇艺指数:爱奇艺旗下/基于爱奇艺播放数据,展现视频播放趋势、视频受众画像等信息。
易车指数:反映国内汽车销售市场,为购车者或汽车从业者提供参考的数据指数。
房天下:网站数据来源于中国指数研究院和CREIS中指数据,展示国内房地产数据情况
移动观象台:基于移动电子设备用户的操作行为,提供应用、公众号排行等,此外还发布大量数据报告。
艾瑞APP指数:支持按照月度独立设备数、日均独立设备数、月度总有效时长等多角度展示移动端数据情况。
以上新冠相关的数据库、平台、数据来源都来自公开数据,可与其他各方面的数据来进行有效整合,由此展开许多有意义的科研项目。期待各位同仁用学术科研力量助力全球抗疫战线攻克时艰!
时间: 2024-03-24 17:25:10 | 作者: 建筑桥梁照明
本文为你整理了“新冠病毒数据资源和全球研究项目”在内的一些数据类型、数据来源、数据库和平台。
当下,新冠病毒已经全世界蔓延。中国的疫情虽然得到了有效控制,意大利、韩国、伊朗、日本和美国等国家却逐渐“沦陷”。全球新冠肺炎确定诊出的病例人数已破百万。面对来势汹汹的疫情,科研工作者更想用自己的科研专长帮助了解这个病毒以及与其相关的社会议题。那么我们要上哪找数据去?
本文汇总并整理了包括由哈佛大学地理数据中心,中国数据研究所,武汉大学社会地理计算中心以及研究方法与数据科学实验室合作的“新冠病毒数据资源和全球研究项目”在内的一些数据类型、数据来源、数据库和平台以供参考。
主要包括地图数据(省级,市级和县级),普查数据(人口普查和经济普查),省级、市级和县级统计数据及其他数据。地图数据并不是一成不变的,国家级或者省级地图可能变化很小,但是到了市级或者区县的空间地图差异是很大的,并且会跟着时间的变化而变化。所以基础地图的选择对研究而言就很重要。
国家数据:国家统计局开设网站,公布我国所有的领域的宏观经济情况,权威度高。
COVID-19开放研究数据集包含了超过29000篇来自全球各地的有关冠状病毒(家族)的相关学术文章,将大多数都用在医学和NLP(自然语言处理)相关领域研究,以应对新型冠状病毒肺炎疫情。在该数据集中,机器可读文章超过13000篇。研究人能通过机器学习来加速对文本的挖掘和解读,从而更高效地寻找对抗新冠病毒的方法。
由中国科学院维护,提供包括疫情追踪、最新动态、研究进展、领域专题等文献信息。“研究进展”部分以时间轴展示了科研人员所进行的研究活动和进展。内容持续更新,注册后可下载全文。
由国家生物信息中心 (CNCB) / 中国科学院北京基因组研究所 (BIG)/国家基因组科学数据中心 (NGDC) / 生命与健康大数据中心 (BIGD)维护,包含病毒基因组序列发布动态、病毒基因组变异数据分析、文献查找等。
由国家微生物科学数据中心/新冠病毒国家科技资源服务系统维护,包含病毒毒株信息、病毒电镜照片、核酸检验测试引物和探针序列、病毒基因组信息、科普知识等。
由中国科学院武汉文献情报中心和中国科学院文献情报中心维护。该网站收集“2019-nCoV”国内外重要科研动态,摘编重要科研进展,每天两次报送相关科研进展,所摘编内容每天形成快报,每周将本周内相关联的内容按病毒溯源、流行预测、病毒检测和疾病诊断、药物研发、机理研究、政策法规等分类形成每周科研动态分类汇编。
由中国专利信息中心/国家知识产权局专利局专利审查协作北京中心维护,数据涵盖新冠肺炎治疗用药、预防用药、病毒检测、医疗器械、防护产品、环境消毒、废弃物处理、废水净化处理、人工智能及大数据应用等多领域。
由中国疾病预防控制中心维护。由疫情动态、技术方案、文献报道、世卫信息等栏目组成,能及时了解国内疫情变化以及世界卫生组织的最新举措。
由科技部、国家卫生健康委、中国科协、中华医学会联合共建。一直更新汇总中华医学会系列杂志和国内其他生物医药卫生杂志发表的相关学术内容、公共学术资源,推介国外新冠肺炎相关优秀科研成果。
由国家科技图书文献中心(NSTL)建立。该专题数据库包含冠状病毒研究相关外文科技文献约350多万篇,文献类型涵盖外文期刊论文、科技图书、科技报告、专利、标准等。专题信息门户及时跟踪报道了世界卫生组织(WHO),中国国家卫生健康委员会、中国疾病预防控制中心、美国疾病预防控制中心等20余家政府机构网站公布的防控指南,以及《科学》、《新英格兰医学杂志》等30余种权威期刊的最新研究成果。内容既包括此次武汉新冠病毒感染、也包括SARS、MERS等相关文献。既有病原生物学、流行病学等基础研究,也包括临床诊治、药物医治、检验测试、疫苗研究的重要内容。
由全球最大的学术出版机构之一施普林格·自然从旗下期刊中整理了最新发表的与冠状病毒研究最相关的论文,并与相关评论文章和书籍一起汇总于专题网页,其中的所有内容可免费获取。
在新冠病毒研究的过程中,我们很难脱离人口迁徙数据来谈病毒。这里所提到的人口迁徙数据最重要的包含两个来源,一个是由百度迁徙提供的每日人口流动的数据,可通过爬虫技术获得。下面这两张图是2020年 1月23的武汉流动人口地图。左边是外地流向武汉市,右边反映的是武汉流向其他城市。
但是百度的这个迁徙数据只告诉我们人口流向,却没有公布每个流向的流向大小,这就要求我们再结合另一个数据来源确定流量大小,那就是国家统计局发布的流动人口数据。
这个更接近于学术界对于流动人口的定义,而百度的人口流动数据更像是一个对人口移动流量变化的记录。下图展示的是国家统计局发布的流动人口数据提供的流动人口数据:
健康设施数据最重要的包含高德地图的POI(Point of Information)数据和国家统计局提供的经济普查数据。
以武汉的医院数据为例,我们通过对高德地图进行爬虫(比如通过爬虫经纬度),我们大家可以把武汉的医院数据整合成Excel,再把这个Excel表格的信息与之前的基础数据相结合,得到更有价值的地图数据。
医院数据爬虫的流程包括:获取高德POI数据HTTP接口,确定POI所属类型以及所属位置的行政区划范围—解析JSON格式数据并存储标签为pois中的POI数据,参数包括医院名称,所属POI类型,语义地址,WGS84坐标系下的坐标,所属行政区划单元—建立国家卫生机构分类标准和高德地图POI分类标准映射关系—对医院类型进行匹配,以省级行政区划为单位存储为Excel格式文件—根据省、市、县区行政区划地图进行匹配和合并。
经济普查中也有医院数据。高德地图的数据没有很好的方法告诉我们医院建立的时间,医院所有制结构(私立vs公立)以及在不同年份一个特定区域的医院数量等信息,但经济普查数据可以弥补这一些数据缺失(如下图):
经济普查中的医院数据可以和高德地图数据来进行匹配,同样也可以和基础数据相结合,生成与我们研究相关的空间地图数据。
除了医院数据,医疗设施与制造对于疫情防控也很重要。这一些信息也可以从经济普查当中获得。
此外,我们还有一些别的与卫生相关的数据能够应用起来。比如下图的年度卫生统计数据(中国数据在线提供)。年度统计里面详细的介绍了国家级,省级和市级区划里的医院数量,门诊数量,床位数,医护人员数以及别的卫生统计信息,能很好的补充高德地图的缺失信息。
再比如中国空间信息系统提供的卫生数据China Geo-Explorer。这一个网站平台把统计数据,普查数据和GIS数据整合,可生成各种研究所需的图表、地图和报告。
这部分主要反映社会舆情,最重要的包含微博和推特(Twitter)等社会化媒体。因为这些社会化媒体是主要的信息源自,对疫情预测和舆情导向等研究热点有指向作用。
百度指数:百度旗下/以百度网民行为数据为基础的数据分享平台,支持查询需求图谱
搜狗指数:搜狗旗下/基于搜狗用户行为的数据分享平台,同时支持搜索微信热度
主要包括各细分行业及别的类型的数据来源,包括互联网、电商、娱乐、汽车、房地产、移动端、投资行业等。疫情对各产业的影响是广泛的,影响程度和未来趋势都值得进一步研究。
腾讯大数据:腾讯旗下/发布与腾讯息息相关的研究报告,常会出现一些比较有趣味性的专题
艾瑞网:艾瑞旗下/支持查看较新的数据报告,主研究网络媒体、电子商务、在线游戏等新经济领域。
中国互联网信息研究中心:经国家主管部门批准组建的管理和服务机构,经常发布一些有价值的互联网信息报告
199IT:容纳众多互联网数据报告,其导航网站收集了众多数据相关的网站链接
阿里研究院:阿里旗下/发布研究电商等方向趋势的数据报告,内容多与阿里相关
爱奇艺指数:爱奇艺旗下/基于爱奇艺播放数据,展现视频播放趋势、视频受众画像等信息。
易车指数:反映国内汽车销售市场,为购车者或汽车从业者提供参考的数据指数。
房天下:网站数据来源于中国指数研究院和CREIS中指数据,展示国内房地产数据情况
移动观象台:基于移动电子设备用户的操作行为,提供应用、公众号排行等,此外还发布大量数据报告。
艾瑞APP指数:支持按照月度独立设备数、日均独立设备数、月度总有效时长等多角度展示移动端数据情况。
以上新冠相关的数据库、平台、数据来源都来自公开数据,可与其他各方面的数据来进行有效整合,由此展开许多有意义的科研项目。期待各位同仁用学术科研力量助力全球抗疫战线攻克时艰!