物流数仓之采集系统 继电商版数仓和在线教育版数仓项目之后,尚硅谷再次重磅推出物流行业数据仓库系列项目。本采集系统项目是物流系列项目的排头兵。 本项目依托自真实物流行业巨头的业务体系和数据场景,沿用经典的数据仓库建模理论精心打造。采集系统采用经典的数据采集框架,使用当前流行的数据采集框架DataX、Flume、Kafka等,实时监控业务数据系统变动情况,实时采集用户行为日志数据,数据采集流程全面、流畅且准确。 整个采集系统可以同时满足后续离线数据仓库与实时数据仓库的数据需求,做到无缝对接,无需重复数据采集工作! 通过学习本项目,可以对HDFS存储系统、Kafka消息中间件、Flume、DataX等大数据核心框架应用更加得心应手,熟悉数据流向,熟练脚本阅读与编写,做好数仓学习准备,培养大数据意识,跨出大数据项目学习第一步。