【Data Science · Statistics 02】统计数据从哪里来?

2.1 间接来源

与研究内容有关的原信息已经存在,我们只是对这些原信息重新加工、整理,使之成为我们进行统计分析可用的数据。

2.1.1 常见途径

  • 统计部门和各级政府部门公布的有关资料,如统计公报和统计年鉴等:

【宏观】世界数据图册 

https://cn.knoema.com/atlas

【宏观】国家统计局 
http://www.stats.gov.cn/
【宏观】中央人民政府数据 
http://www.gov.cn/shuju/index.htm
【宏观】统计公报 
http://www.stats.gov.cn/tjsj/tjgb/ndtjgb/
【宏观】统计年鉴 
http://www.stats.gov.cn/tjsj/ndsj/
【金融】国家财政部 
http://www.mof.gov.cn/zhengwuxinxi/caizhengshuju
【进出口】国家海关总署
https://dwz.cn/OxKDTBRf
【人力资源】国家人力社保部 
https://dwz.cn/N91XF7Y0
【建筑】国家住建部 
https://dwz.cn/p4b0G330
【教育】国家教育部 
http://www.moe.gov.cn/jyb_sjzl/
【交通】国家交通运输部 
http://www.mot.gov.cn/tongjishuju/
【旅游】国家文化和旅游部 
http://zwgk.mct.gov.cn/?classInfoId=360
【工业/信息业】国家工信部 
http://www.miit.gov.cn/n1146312/index.html
【邮政】国家邮政局 
http://www.spb.gov.cn/sj/
【医疗】卫生健康委员会 
http://www.nhc.gov.cn/wjw/sjcx/sjcx.shtml
【商贸】国家商务部 
http://www.mofcom.gov.cn/article/tongjiziliao/
  • 各类经济信息中心、信息咨询机构、专业调查机构、行业协会和联合会提供的市场信息和行业发展的数据情报等:

【互联网】艾瑞指数 

https://www.iresearch.com.cn/Datas.shtml

【互联网】TalkingData 

http://mi.talkingdata.com/

【互联网】易观千帆指数 

http://zhishu.analysys.cn

【互联网】CNNIC中国互联网络信息中心 

http://www.cnnic.cn/

【电信/互联网】中国信通院 

http://www.caict.ac.cn/kxyj/

【金融】巨潮资讯 

http://www.cninfo.com.cn

【金融】中国人民银行 

https://dwz.cn/GrNTQgzM

【金融】中国银监会 

https://dwz.cn/hurhTER1
【金融】中国外汇交易中心 
http://www.chinamoney.com.cn/chinese/mkdatapm/
【金融】中国债券信息网 
https://www.chinabond.com.cn/d2s/index.html
【金融】上海证券交易所 
http://www.sse.com.cn/market/overview/
【金融】深圳证券交易所 
http://www.szse.cn/market/index.html
【电器】产业在线 
http://data.chinaiol.com/cdata/index
  • 各类专业期刊、报纸、图书所提供的文献资料:
谷歌学术 
https://scholar.google.com.hk/?hl=zh-CN
百度学术 
https://xueshu.baidu.com/
中国知网 
https://www.cnki.net/
万方数据 
http://www.wanfangdata.com.cn/index.html
维普网 
http://www.cqvip.com/
  • 各种会议(博览会、展销会、交易会及专业性、学术性研讨会)上交流的有关资料
  • 互联网或图书馆查阅到的相关资料:

【互联网】199IT互联网数据中心 

http://www.199it.com/

【短视频】卡司数据 

https://www.caasdata.com/index/rank/index.html

【金融】IT桔子 

https://www.itjuzi.com/

【金融】企名片 

https://ent5.qimingpian.com/#/

【文娱】CBO中国票房 

http://www.cbooo.cn/

【互联网】艾媒北极星 

http://bjx.iimedia.cn/app_rank

2.1.2 使用指南

相对而言,二手资料的数据更易得更快捷,且采集数据成本低。其作用也十分广泛,有助于提供研究问题的背景,更好地定义问题,检验某些假设或回答疑问,寻找研究思路。但二手资料也有很大的局限性,因为其不是为特定的研究问题而产生的,所以会出现资料的相关性不够,数据口径不一致,数据不准确,数据无法更新到最新等问题。

使用时应注意以下几点:
【who】 资料由谁搜集?需要考察数据搜集者的实力和社会信誉度。比如,对于全国消费者价格指数而言,国家统计局公布的数据肯定比第三方咨询调研机构的数据更可信更准确。
【why】 因为什么目的而搜集?为了某个集团的利益而搜集的数据是值得怀疑的(例如某瑞的某些报告)
【how】 数据是怎样搜集的?数据的质量来源于数据的产生过程。
【when】 什么时候搜集的?过时的数据,其说服力会受到质疑。
【sum-up】 注意数据的定义、含义、计算口径和计算方法,并标注数据来源,尊重他人劳动成果。

2.2 直接来源

通过自己的调查或实验活动直接获得一手数据,被称为统计数据的直接来源,主要有针对社会现象的调查方法和针对自然现象的实验方法两种。

2.2.1 调查方法

2.2.1.1 普查

普查是为了某种特定的目的而专门组织的一次性的全面调查,用以搜集重要国情国力和资源状况的全面资料。

普查数据具有完整、全面的特点,规范化程度较高,因此它可以为抽样调查或其他调查提供基本依据;由于是针对总体中的所有个体单位,因此确定调查对象比较简单;可以获知总体特征,准确性高。但普查的工作量大,耗时长,成本高,调查内容会受到限制。

附:国家统计局于2019.11.20发布的第四次全国经济普查重要成果http://www.stats.gov.cn/tjsj/zxfb/201911/t20191119_1710341.html

2.2.2.2 抽样

抽样(Sampling)是一种推论统计方法,它是指从目标总体(Population,或称为母体)中抽取一部分个体作为样本(Sample),通过观察样本的某一或某些属性,依据所获得的数据对总体的数量特征得出具有一定可靠性的估计判断,从而达到对总体的认识。

基本过程:

  • 定义总体(Population)
  • 确定抽样框(Sampling frame)
  • 确定抽样方法
  • 决定样本量
  • 实施抽样计划
  • 抽样与数据收集
  • 回顾抽样过程

抽样框(Sampling frame)通常包括所有总体单位的信息。在抽样之前,总体应划分成抽样单位,抽样单位互不重叠且能合成总体,总体中的每个个体只属于一个单位。抽样框是一份包含所有抽样单元的名单。

抽样方法:

1. 简单随机抽样(simple random sampling):

从包括总体N个单位的抽样框中随机地、一个个地抽取n个单位作为样本,每个单位的入样概率是相等的。

每个样本单位被抽中的概率相等,样本的每个单位完全独立,彼此间无一定的关联性和排斥性。简单随机抽样是其它各种抽样形式的基础。通常只是在总体单位之间差异程度较小和数目较少时,才采用这种方法。
2. 分层抽样(stratified sampling):

将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本。

保证样本中包含有各种特征的抽样单位,且样本结构与总体结构相近,可以提高估计的精度;可能会使实施调查更为便利;即可以对总体参数进行估计,也可以对各层的目标量进行估计。
3. 整群抽样(cluster sampling):

将总体中若干单位合并为组,这样的组成为群。抽样时直接抽取群,然后对中选群中的所有单位全部实施调查。

抽取样本时只需要群的抽样框,简化了编制抽样框的工作量,也可一定程度上节省调查成本,但其估计的精度较差,误差较大。一般说来,要得到与简单随机抽样相同的精度,整群抽样需要增加基本调查单位。
4. 系统抽样(systematic sampling):

将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机抽取一个单位作为出事单位,然后按事先制定好的规则确定其他样本单位。典型的是先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k、r+2k……等单位。

系统抽样操作简便,可以有效提高估计的精度。
5. 多阶段抽样(multi-stage sampling):

首先抽取群,再进一步抽样,即在整群抽样的基础之上再抽取若干单位进行调查。将这种方法推广,使抽样的阶段数增多,就称为多阶段抽样。

每增加一个抽样阶段就会增添一份估计误差,用样本对总体进行估计也就更加复杂。
除以上五种概率抽样的方法之外,还有非概率抽样,如方便抽样,调查过程中调查员根据方便的原则,自行确定作为样本的单位;判断抽样,研究人员根据经验、判断和对研究对象的了解,有目的地选择一些单位作为样本;自愿样本,被调查者自愿参加抽样,成为样本中的一份子;滚雪球抽样,首先选择一组调查对象实施调查之后,再请他们提供下一批属于研究总体的调查对象;配额抽样,将总体中的所有单位分类,然后在每一类中采用方便抽样或判断抽样的方式选择样本单位。
具体搜集数据的基本方法可以有以下几种,如自填式,面访式,电话式,三种搜集方法的特点如下:
项目 自填式 面访式 电话式
调查时间 中等
调查费用
问卷难度 要求容易 可以复杂 要求容易
有形辅助物的利用 中等利用 充分利用 无法利用
调查过程控制 简单 复杂 容易
调查员作用的发挥 无法发挥 充分发挥 一般发挥
回答率 最低 较高 一般

2.2.2 实验方法

搜集数据的另一大类方法是通过实验,在实验中采取控制变量法,在有控制的条件下得到观测结果。例如17世纪初,英国海军曾试图通过实验法找到坏血病的起因。

2.3 思维导图总结

【Data Science · Statistics 02】统计数据从哪里来?

参考资料:

[1] 贾俊平等.,统计学(第七版)[M],北京,中国人民大学出版社,2018年1月

原创文章,作者:王得宇AIPM,如若转载,请注明出处:https://www.pmtemple.com/silence/10681/

(1)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
王得宇AIPM的头像王得宇AIPM高级产品经理
上一篇 2019年12月30日 上午10:40
下一篇 2019年12月30日 上午10:40

相关推荐

发表回复

登录后才能评论
微信公众号
微信公众号
edgesensor_high 小程序
小程序
分享本页
返回顶部