基于流式引擎的大数据分布式架构

柴志菲 李翔

在人工智能流行的时代,数据量的增长速度也是无法估计的,网络上的留言也越来越多,也难免会有一些污秽的语言,所以净化网络环境是很重要的事情,我们可以利用自动化的网页抓取技术将网络上的留言保存下来,通过设计大数据架构对数据进行实时计算,然后分批装载进数据库,常见的流式处理技术像kafka[1]+spark streaming[2]+zookeeper[3]这样进行架构,然后再将处理后的数据存储进hive 或者HDFS这样的存储单元。 (共1页)
~~ 试读结束 ~~
全文下载 0.5

相关文章

目录

PDF在线阅读

《基于流式引擎的大数据分布式架构》

价格:0.5

Copyright © 2021-2024 全科互知 | 赣ICP备2021006197号-4 | 新出网证(赣)字20417号
赣公网安备 36012102000372号 | 赣B2-20210313 | 技术支持:道然科技

sasa 互知学术
sasa 全科互知