MacOS M1 上,使用 Docker 构建 MySQL 和 Doris 上的 Streaming ETL,试用 Flink CDC 相关功能。
Flink-CDC-构建 MySQL 和 Postgres 上的 Streaming ETL
MacOS M1 上,使用 Docker 构建 MySQL 和 Postgres 上的 Streaming ETL,试用 Flink CDC 相关功能。
Flink源码剖析-flink-streaming-java_ProcessFunction
Apache Pulsar
本文为 Apache Pulsar 的入门学习笔记。
企业在考虑部署实时消息系统时,总体硬件成本很重要的。Kafka 是基于磁盘存储数据的,存储成本较高。
而 Pulsar Broker 不直接存储数据,而是使用 Apache BookKeeper 来存储数据。数据发送/接收和存储的解耦使得 BookKeeper 可以在运行在独立的物理计算机或容器上。
当新生事物出现有两种角度去观察它,要么把它看小,要么把它放大。对 Apache Pulsar,把它看小的角度通常是”Apache Pulsar 只是一个新的消息队列而已”,或者“Apache Pulsar 只是一个新的数据管道而已”,“队列系统早就有了,只是 Apache Pulsar 更具扩展性也能解决某些场景问题而已,基本没啥本质区别”。很明显上述认识都不对,Apache Pulsar 在消息、流、数据管理和技术基础设施层面都有技术演进,详看正文。
Mac单机安装Apache Pulsar
本文记录一下 Mac 本机安装 Pulsar 的过程。单机安装 Pulsar, ZooKeeper 和 BookKeeper 会和 Pulsar 运行在同一个 JVM 进程中。
关于大数据发展趋势的思考与总结
现代企业的大数据平台大多是基于 Hadoop 构建的”一存多算”的多元化架构,以 HDFS 为统一存储,通过 Spark、HBase、Flink、Presto 等多种计算引擎满足不同场景的处理需求。
如今,高弹性和可扩展的计算与存储俨然已经非常成熟了,未来云原生、一体化将是大数据的技术发展趋势,并且依附于小程序IoT等业务载体,以 Saas 带动 IaaS 必将成为大势。