大数据训练营项目《北京二手房交易数据分析平台》整理

1 简介

北京二手房交易数据分析平台:收集二手房交易数据,利用大数据技术进行处理,大屏展示结果 。

2 工作流程

  1. 数据收集:爬取二手房交易网站的数据(链家、贝壳等)
  2. 数据预处理:不同的数据源,不同的数据结构,垃圾数据,对收集到的大数据集合进行预处理
  3. 数据存储、处理与分析(我负责):搭建hadoop环境,将数据文件上传hdfs,通过mapreduce进行数据分析等
  4. 数据可视化:后端使用java、前端使用echarts模板等进行展示

3 负责

4 项目架构图

5 困难

  • hadoop集群搭建失败:版本没用对