全球开发数据源(转)

开放数据源-社会、经济、地理、空间,数据科学家的宝库

☝️源地址☝️

开放数据源(一),全球地理、自然、经济数据等。

  • 世界银行,数据网站: <data.worldbank.org>

  • gapminder,编译数据源,包括世界卫生组织和世界银行覆盖经济、医疗和社会统计数据。

  • 美国中央情报局,世界概况,包含 267 个国家的历史信息、人口、经济、政府、基设施和军事等信息。

  • 国家气候数据中心,巨大的环境、气象和气候数据集来自美国国家气候数据中心。世界上最大的气象数据的归档。

  • OpenStreetMap,全球范围的免费地图数据,每周动态更新。

  • 亚马逊网络服务公共数据集,巨大的公共数据资源,包括 1000 基因组计划,试图构建人类遗传信息的最全面的数据库和 NASA 的地球的卫星图像的数据库。

  • 谷歌趋势,统计搜索量(搜索)总额的比例对于任何给定的期限,自 2004 年以来。

  • Facebook Graph 虽然大部分的信息用户的 Facebook 的个人资料是私人的,很多不是——Facebook 提供图形 API 的方式查询大量的信息,其用户乐于分享与世界(或无法隐藏,因为他们没有了隐私设置工作)。

  • DBPedia,维基百科是由数百万块的数据,在每个主题在阳光下结构化和非结构化。DBPedia 是一个雄心勃勃的项目目录,并创建一个公共、自由可分配的数据库允许任何人来分析这些数据。

  • 社交媒体数据,Topsy 公共微博提供了一个可搜索的数据库 2006 年以及几个工具来分析对话。

  • Likebutton,矿山 Facebook 的公共数据——在全球范围内,从您自己的网络给人们“喜欢”的概述。

  • 纽约时报,索引归档的新闻文章回到 1851 年。

  • 开放数据库,community-compiled 数据库结构化数据的人,地方和事情,与超过 4500 万个条目。

  • 百万歌曲数据集,元数据超过一百万首歌曲和乐曲,亚马逊网络服务的一部分。

  • 欧盟开放数据门户,基于来自欧盟机构的数据。

  • SDMX,欧洲央行,

  • 美联储

  • 谷歌财经,40 年的股票市场数据,实时更新。

  • 金融量化:pydatastream

  • 中国金融,TuShare

  • NASDAQ Data Store:提供市场数据。

  • 美国、欧盟、加拿大、CKAN 以及其他的公开政府数据

  • 英国,英国政府的数据,其中包括英国国家参考书目元数据(自 1950 年以来英国所有书籍和刊物)。

  • Google Books ngram,搜索和分析全文的数以百万计的图书数字化,作为谷歌图书项目的一部分。

  • 美国联邦政府数据网站, 美国政府承诺可以免费在线所有政府数据,第一阶段已有各种数据。

  • 美国人口普查局,丰富对美国公民的生活人口地理数据和教育的信息。

  • Healthdata.gov,125 年的美国医疗数据包括 claim-level 医疗数据、流行病学和人口统计数据。

  • 国民健康和社会保健信息中心,来自英国的国家卫生服务的健康数据集。

开放数据源(二),科研、论文,生物、网址、机器学习等。

编译自http://www.bigdata-madesimple.com/70-websites-to-get-large-data-repositories-for-free/
  • Wikipedia:Database :向感兴趣的用户提供所有可用的内容的免费副本。可以得到多种语言的数据。内容连同图片可以下载。

  • Common crawl:建立并维护一个所有人都可以访问的开放的网络。这个数据保存在亚马逊 s3bucket 中,请求者可能花费一些钱来访问它。

  • EDRM File Formats Data Set:由 381 个文件夹 200 种文件格式组成。

  • Apache Mahout TLP:项目创建一个可扩展的机器学习算法。Mahout 有许多免费的和付费的语料库语料。

  • StatLib,卡内基梅隆大学数据档案。

  • STATOO Datasets part 1 和 STATOO Datasets part 2,Time Series Data Library。

  • Visual Analytics Benchmark Repository。

  • UCI KDD Database Repository:适用于机器学习和知识发现研究的大数据集。

  • UCI Machine Learning Repository.

  • UCR Time Series Data Archive:提供数据集、论文、链接和代码。

  • EDRM Enron Email Data Set v2:由安然公司邮件信息和附件组成,存在两组可下载的压缩文件中:XML 和 PST。

  • ClueWeb09:用来支持信息检索和相关人类语言技术研究的资料库。它包含了从 2009 年 1 月到 2 月间收集的大约 10 亿个网页,包含 10 种语言。资料库被若干 TREC 会议的追踪检测使用。

  • DMOZ:最大的、最全面的人工编辑的开放式网站目录。它收集了不同类型的网站链接。Dmoz 是互联网搜索引擎的一个主要来源。

  • theinfo.org:这是一个大数据集网站,在这里学者、设计师、艺术家等可以交流技巧和窍门,一起开发和共享工具,并开始整合他们独有的项目。

  • Project Gutenberg:提供超过 36000 免费电子书的下载,可以下载到个人电脑、Kindle, Android, iOS or 或其他便携式设备。

  • Million song data set:与 tracks 和艺术家有关的数据。

  • AWS (Amazon Web Services) Public Data Sets:提供了可以无缝融入 AWS(亚马逊网络服务)云应用的公共数据集的集中存储库。

  • GeoDa Center:地理和空间数据。

BigML big list of public data sources.
  • Bioassay data:研究文章“生物测定数据的虚拟筛选”,由 Amanda Schierz 编写,有 21 个生物测定数据集(活性/非生理活性成分),可以下载。
  • Bitly 1.usa.gov data:匿名点击链接。
  • Canada Open Data:有许多政府和地理空间的数据集的试点项目。
  • Causality Workbench:数据存储库。
  • Corral Big Data repository:在德克萨斯高级计算中心,提供以数据为中心的技术。
Data Source Handbook:公开数据指南。
  • Data.gov/Education:对于教育数据资源的主要指南,包括高价值的数据集、数据可视化、课堂资源、创建自公开数据的应用程序以及其他。

  • DataMarket:可视化的世界经济、社会、自然和工业,拥有来自联合国,世界银行,欧盟统计局和其他重要数据提供者的一亿时间序列。

  • Datamob:可以很好利用的公开数据。

  • DataSF.org:可向 City & County of San Francisco, CA.购买的数据集信息交流中心。

  • DataFerrett:一个用来访问和使用 The Data Web 的数据挖掘工具,许多网上美国政务数据集的集合。

  • EconData:大量经济学的时间序列,由许多美国政府机构编制。

  • Enron Email Dataset:来自大约 150 个用户的数据,这些用户大多数是安然公司高级管理人员。

  • Europeana Data:包含 2000 万文字,图片,视频开放的元数据,以及由欧洲数位图书馆收集的声音,对于欧洲文化遗产内容值得信赖的、全面的资源。

  • Europeana Data:FEDSTATS:一个美国统计资料的综合资源以及更多。

  • FIMI repository for frequent itemset mining:工具和数据集。

  • Financial Data Finder at OSU:大型财务数据集目录。

  • GDELT:关于事件、位置和音调的全球数据,被英国卫报形容为“生命、宇宙和一切的大数据历史”。

  • GEO (GEO Gene Expression Omnibus):一个支持 MIAME 兼容数据提交的基因表达/分子丰度信息库,用于基因表达数据的浏览,查询和检索。

  • Google ngrams datasets:来自数 Google 扫描的百万书籍文本。

  • Grain Market Research:财务数据,包括股票、期货等。

  • Hilary Mason research-quality Big Data sets: 收集许多文本和图片数据集.

  • HitCompanies Datasets:HitCompanies 随机取样的 1 万个英国公司全面的数据,采用人工智能/机器学习进行自动更新。

  • ICWSM-2009 dataset:包含 2008 年 8 月 1 日到 10 月 1 日之间的 4400 万个博文。

  • Infochimps:一个数据开放的目录和集合,允许分享、出售和下载关于任何内容的数据。

  • Investor Links:包含财物数据。

  • KDD Cup center:数据、工作表和结果。

  • Kevin Chai list of datasets:文本、SNA 和其他领域。

  • KONECT:科布伦茨网络收集,拥有大量各种类型的网络数据集,以便在网络挖掘领域进行研究。

  • Linking Open Data 工程,免费向所有人提供数据。

  • MIT Cancer Genomics gene expression datasets and publications:来自麻省理工 Whitehead Center 用于基因组研究。

  • ML Data:欧盟 Pascal2 网络数据储存库。

  • National Government Statistical Web Sites:来自大约 70 个网站的数据、报告、统计年鉴、新闻和其他,包括非洲、欧洲、亚洲和拉丁美洲的国家。

  • National Space Science Data Center (NSSDC):美国国家航空航天局的数据集,包含行星探索、空间和太阳物理学、生命科学、天体物理学以及其他方面。

  • Open Data Census:评估世界各地的开放数据的状态。

  • OpenData from Socrata:允许访问超过 10000 个数据集,包括商业、教育、政府和娱乐。

  • Open Source Sports:大量运动数据库,包括棒球、足球、篮球和曲棍球。

  • Peter Skomoroch dataset Bookmarks PubGene(TM) Gene Database and Tools:基因组有关的出版物数据库。

  • Quandl, a collaboratively curated portal to millions of financial and economic time-series datasets.

  • qunb:一个用来发现和可视化的数据资料的平台。

  • Robert Schiller data:住房建筑、股票市场和更多的来自于他的书 Irrational Exuberance 的数据

  • SMD: Stanford Microarray Database,存储来自微阵列实验的原始的和标准的数据。

  • Jerry Smith dataset collection:财经、政府、机器学习、科学和其他数据。

  • SourceForge.net Research Data:包含大约 10 万个项目和超过 100 万注册用户的活动的历史和现状的统计数据的项目管理网站。

  • Wikiposit:一个(虚拟的)融合了来自许多不同网站的数据(大多数是金融的),允许用户合并来自不同来源的数据。

  • Wolfram Alpha disease and patient level dat.

  • Yahoo Sandbox datasets:语言、图表、评级、广告与营销、竞赛。

  • Yelp Academic Dataset:30 家大学的 250 个最接近商业的所有数据和评论,为学生和学者来探讨和研究。

开放数据源(三),中国,经济为主。

一、政府类

  1. 国家数据(统计局)
    如果你需要一应俱全的最新宏观经济数据,一个宝贵的来源是国家统计局提供的《进度统计数据》
    如果想要从数据收集之日起的完整国民经济核算资料,权威的来源是国家统计局国民经济核算司出版的《中国国内生产总值核算历史资料》(1952-1995)和《中国国内生产总值核算历史资料》(1996-2002)。在这两本年鉴里,提供了核算中国 GDP 的详实数据。特别是《中国国内生产总值核算历史资料》(1996-2002)提供了电子版,电子版数据不仅提供 1996-2002 年的详实数据,还大致回溯了 1952-1995 年间的数据,非常好用。
    如果你想要从数据收集之日起的较为完整的宏观经济数据,《新中国五十年统计资料汇编》和《新中国 55 年统计资料汇编》是一个不错的选择。遗憾的是,它们都没有提供电子版,但后者可以在中国资讯行下载。
  2. 工业和信息化部
    较多数据在此发布,尤其是有关工业运行及信息化相关数据
  3. 中国人民银行
    中国金融市场政策及运行相关数据
  4. 银监会
    银行金融相关数据
  5. 中国海关
    中国进出口相关数据
  6. 国家知识产权局
    专利相关查询
  7. 中国证监会
    相关政策及招股书披露平台,以及拟上市公司排队每周披露
  8. 上海市政府数据服务网
    上海市政府数据服务网(dataShanghai)集中发布政府部门及第三方机构的数据产品以及数据应用,数据将涉及经济、教育、卫生、交通、地理、法律、规划等。上海市政府数据服务网(dataShanghai)中,政府部门提供的数据产品目前都是免费的,保留收费的权利。所有的数据与服务都是无需注册可以直接使用的。搜索到需要的数据标题后,点击进入详细页面,可以看到下载图标。就可以按照需求来下载。
  9. 上海公共研发平台
    可以注册,人工审核,内包含较多数据库

二、综合类

  1. 中国经济数据库
    司尔亚司数据信息有限公司(CEIC)成立于 1992 年,由经济学家和分析师组成,提供有关世界发达经济和发展中经济的最广泛、最精确的信息。作为欧洲货币机构投资公司的一个产物,我们已经成为世界各地经济学家、分析师、投资者、企业以及院校经济和投资研究的首选。
  2. 中国经济信息网
    有较多行业研究报告,宏观数据较全。中国经济信息网简称中经网,是国家信息中心组建的、以提供经济信息为主要业务的专业性信息服务网络
  3. 中国资讯行数据库
    收费宏观经济数据
  4. 国研网
    数据较为权威,有些报告可以一看
  5. 中国国家图书馆

三、金融类

证券

  1. 上海证券交易所
    其中研究出版栏目中有些研究报告

  2. 深圳证券交易所
    其中研究/刊物中有研究报告

  3. 全国中小企业股份转让系统(新三板)
    新三板挂牌公司的转让及信息披露

  4. 香港证券交易所

  5. 台湾证券交易所

  6. 新加坡证券交易所

  7. 纽约证券交易所

  8. 纳斯达克证券交易所

金融

  1. 万德数据库(金融)
    中国大陆领先的金融数据、信息和软件服务企业,Wind 资讯的客户包括超过 90%的中国证券公司、基金管理公司、保险公司、银行和投资公司等金融企业;在国际市场,已经被中国证监会批准的合格境外机构投资者(QFII)中 75%的机构是 Wind 资讯的客户。同时国内多数知名的金融学术研究机构和权威的监管机构也是我们的客户,大量中英文媒体、研究报告、学术论文等经常引用 Wind 资讯提供的数据。
    定位:高端机构客户
    机构市场占有率:80%
    优势:

    1. 数据表结构还是比较科学,而且还有很多不同工具,例如 WACC 计算小插件、贝塔计算小插件、另外还有直接在 EXCEL 估值的模版。
    2. 用户体现非常好,界面体验一流,符合中国人的使用习惯。
    3. 特色数据库有中国 A\B 股数据、基金数据、债券数据和期货数据都非常突出。
    4. 资讯内容结构严重模仿 BLOOMBERG
    5. 支持 API 插件

    缺点:

    1. 其实我想突出数据质量只是一般,有一些还是很多错误、例如指数的数据库的错误和雅虎 Finance 几乎是一样的。
    2. 世界指数等国际数据库还是一般。
    3. 主要是提供资讯,下单通道没有 Bloomberg 没有那么强大。
    4. 行业数据严重缺乏,而且质量真的不太好。
  2. 恒生聚缘(金融)
    这个数据库其实也是定位为机构的,还有一套完全的信息技术系统解决方法。但是这个数据库不太出名,但是这是我用过价格便宜然后质量非常高的数据库。
    优点:

    1. 界面设计虽然没有万德那么花哨,但是非常实在,非常实用,而且很方便。数据结构也科学,不会出现过多冗余的状况。
    2. 价格比万德便宜,但是性价比挺高的。
    3. A\B 股数据是强项
    4. 研究报告更新速度比较快,比较全面、质量比万德好。
    5. 数据质量过硬。
  3. CSMAR 数据库(金融)
    定位:中国 80%的学术机构和香港高校都是使用 CSMAR,美国大部分的大学例如沃顿等是使用 CSMAR 数据库
    优点

    1. 公司金融数据是强项,非常强大和齐全,我经常使用哈哈。
    2. 数据库做学术还是比较全面的。年份比较早的数据都会有收录。
    3. 高频数据是全国第二好。
    4. 公司治理数据比较好,详细,包括公司控制链图均有收录。

    缺点:

    1. 由于是学术数据库关系,更新速度不够快。机构是绝对不会使用的。
    2. 数据结构有些设计是有问题。
    3. 缺乏资讯类的数据。
    4. 行业数据是更新速度是所有数据库中最慢的,建议不要使用行业数据库。
  4. 锐思数据库(金融)
    定位:学术机构
    特点:
    基本上是 Copy 外国的数据库结构,而且数据字段不够丰富,建议不要使用。

  5. 巨潮数据库(金融)
    深交所旗下的一个数据库公司,有这个得天独厚的
    优势

    1. 交易所的公告、董事会决议总是最快可以知道。
    2. 异动数据库中的异动记录肯定不止前十名,获取还能看到前 15 名,哈哈!

    缺点

    1. 数据结构太老的了,严重有问题,见过 5 个字段来做表主键的,无语。
    2. 好像异动数据库,把所有的债券、股票、衍生证、涡轮全部放在一起,结果有一次踩地雷,把债券和股票都提了出来,原因是股票的代码=债券的代码,真的囧死了。
    3. 异动数据中的计算方法严重不正确,如果你查阅交易所对涨跌幅偏离值的计算方法,你会发现在 2006 年 8 月 4 日前后会非常不同。结果又一次让我踩到地雷。
    4. 数据质量一般,算不上好。
  6. 清科数据库(金融)
    清科研究数据库包含风险投资,私募股权,创业者相关投资,私募,并购,上市数据库,范围涉及投资机构,企业,投资人物相关 TMT、传统行业、清洁技术、生技健康等行业市场事件用的比较少,专做 Pe,风险投资数据的。

  7. 人大经济论坛
    有许多数据叫卖,提供大量的可供下载的经济学资源,而且还有许多有用的连接。当然,这是一个免费的网站,但下载某些资源时,说不定要求一定的所谓积分限制。这个强力推荐~~

四、互联网类

  1. 淘宝指数
  2. 互联网 TMT 数据
  3. 百度指数(综合)

五、自然卫生类

开放数据源(四),遥感、地理信息

posted @ 2022-04-02 14:30  morning-start  阅读(285)  评论(0编辑  收藏  举报