大数据¶
对于大数据,人们第一反应往往是电商,类似淘宝、Amozon、Ebay这样具有大量交易数据的电商系统,需要通过大数据分析来掌握销售数据、分析用户喜好并作出商品推荐以及复杂的物流管理。然而,很多人都忽略了生活中随处可见的大数据:实际上数据量更为庞大的是我们身边的传感器所组成的物联网(Internet of Things, IoT)。小到一个电源插座、大到自动驾驶的无人车,无数个传感器实时产 生大量的数据,需要进行实时分析并作出反应和控制。类似人工智能,也是需要通过传感器来实现数据的采集和分析才能实现"无所不 能"的智能。
现在的大数据已经从数据中心海量交易数据分析扩展到对整个星球的实时数据采集和分析,结合了集中化的云计算和把计算能力分散到数据采集源头,采用分布式低延迟的边缘计算。
大数据应用场景¶
备注
从个人学习角度来说,我觉得可以从几种能够获取大数据渠道来学习数据分析,进一步学习机器学习:
通过爬虫抓取Internet公开数据,例如交易数据
使用公开的数据集(有很多提供公开研究的数据集、竞赛数据)
使用传感器采(计算机、嵌入系统)集实时变化的数据,分析不同的数据变化模拟真实场景
交易数据分析
传感器实时硬件监控数据
我个人购买过很多电子设备,从电脑、手机到树莓派,各种电子产品实际上都在不断产生传感器数据,是学习数据采集、数据存储和数据分析的一个良好开端。
架构模拟:
仿照业内 IoT容器解决方案balena 实现完整的物联网
在 Kubernetes Atlas 架构中采用原生 Netdata监控系统 实现分布式系统和应用监控
采用InfluxData体系架构 Influxdb时序数据库 结合 Telegraf数据采集 实现数据采集、处理和聚合的metrics
日志采集¶
数据采集
流式数据¶
实时数据流
数据科学¶
海量数据需要科学分析才有价值
towards data science 提供关于数据科学的 Sharing concepts, ideas, and codes ,有不错的知识文档可以参考学习