大数据如何采集,哪些大数据不能被采集( 二 )



政府机构的数据有些是交易型的 ,就是为了做出分析,特别收集起来的一份政府活动记录或统计; 例如财产转让和投票记录,就是交易型的数据 。 人口普查是统计数据,消费物价指数也是 。 虽然交易数据通常只有详细的表格,例如个人的交易记录,但是为了保护个人隐私,统计数据通常是汇总的型态 。

有些机构的数据比别的机构有用,但是首先你得找到这个机构才能找到其它 。 需要一般美国人的数据,找美国人口普查局;需要知道猪腩的价格,找农业部 。 网上有一个门户网站data.gov,可以帮你找到数据,但是如果你不熟悉术语或找不到正确的名称,别放弃,可以打电话到似乎最适合的机构去问 。

许多非营利组织是他们的专业领域中良好的数据来源 。 例如企业信息,就要调查相关的行业协会 。 一个很好的资料来源是《协会百科全书》( Encyclopedia of Associations),包含有企业协会、社会事业协会和研究协会 。 这本书在大多数公共图书馆和大学图书馆里都可以找到 。 记住,这些机构通常分享的资讯都是报告的形式,不是数据,所以向他们申请资讯时要说清楚你要的是数据 。

如果网上找到的数据来源不明确、不对应,不要使用它 。 网上浮动的数据集对于练习数据分析的人可能很有用, 但是如果你要靠它来决定策略,你最好知道它的正确来源 。

3)商业性

如果你需要的数据无法从内部、政府机构,或非营利组织得到,不妨考虑购买它 。 有些由政府收集和格式化的数据意义重大,价钱也便宜 。 不过要小心,并非所有的商业性数据的质量都好 。 在花费大价钱购买以前,问问出售者数据是怎样得到的,如何处理的,并且调查一些样本 。

4)收集新的数据

最后一招是,由于数据根本不存在,而无法找到时,不妨自己出去收集一下 。 这要看你需要的是什么数据 。 你可以根据你所需要的数据,进行一项调查,安装传感器或派人出去观察、衡量,得出数据 。 这可能会即花时间又花钱,好处是你收集的数据是你真正需要的,而且完全属于你自己 。
什么是大数据采集平台? 1. 数据质量把控

不论什么时候应用各种各样数据源,数据质量全是一项挑战 。 这代表着企业必须做的工作中是保证数据格式准确配对,并且没有重复数据或缺乏数据导致分析不靠谱 。 企业必须先分析和提前准备数据,随后才可以将其与别的数据一起开展分析 。

2.拓展

大数据的使用价值取决于其数量 。 可是,这也将会变成一个关键难题 。 假如企业并未设计构架方案开始进行拓展,则将会迅速面临一系列问题 。 其一,假如企业不准备基础设施建设,那麼基础设施建设的成本费便会提升 。 这将会给企业的费用预算带来压力 。 其二,假如企业不准备拓展,那麼其特性将会明显降低 。 这两个难题都应当在搭建大数据构架的整体规划环节获得处理 。

3、安全系数

尽管大数据能够为企业加深对数据的深入了解,但保护这种数据依然具备挑战性 。 欺诈者和网络黑客将会对企业的数据十分感兴趣,他们将会试着加上自身的仿冒数据或访问企业的数据以获得敏感信息 。

互联网犯罪嫌疑人能够制作数据并将其引进其数据湖 。 比如,假定企业追踪网址点一下频次以发觉总流量中的出现异常方式,并在其网址上搜索犯罪行为,互联网犯罪嫌疑人能够渗入企业的系统软件,在企业的大数据中能够寻找很多的比较敏感信息,假如企业没有维护周围环境,数据加密数据并勤奋密名化数据以清除比较敏感信息的话,互联网犯罪嫌疑人将会会发掘其数据以获得这种信息 。

推荐阅读