kafka schema

why schema?

引用Jay kreps的话，关于topic的schema。原文见《Why Avro for Kafka Data?》。

one thing you’ll need to do is pick a data format. The most important thing to do is be consistent across your usage。

json虽然表达能力强，但冗余，尤其对于kafka这类数据存储。
引入序列化协议及schema注册中心，可以优化数据存储、支持schema evolve，保证生产消费对同个字段的相同解析，简化etl处理。
但也有折衷，引入注册中心无于多了组件，如果registry宕机，kafka 不可用。所以很多公司不会使用json，而是使用自已约定的消息格式，除非像一些传统公司技术能力欠缺或者kafka消息体量很小还不考虑吞吐和性能问题，当然也有可能公司不差钱。

confluent官方提供了schema registry，用于schema的注册等级，生产消费都会从它那里登记或获取消息序列反序列化schema。

官方支持的schema类型有avro,json,protobuf，推荐avro，原因见上面的链接，摘要如下

We chose Avro as a schema representation language after evaluating all the common options—JSON, XML, Thrift, protocol buffers, etc. We recommend it because it is the best thought-out of these for this purpose. It has a pure JSON representation for readability but also a binary representation for efficient storage. It has an exact compatibility model that enables the kind of compatibility checks described above. It’s data model maps well to Hadoop data formats and Hive as well as to other data systems. It also has bindings to all the common programming languages which makes it convenient to use programmatically.

当然也有成本。

confluent对schema registry的license是部分community license，部分enterprise license，如validation。

具体licence见：https://docs.confluent.io/platform/current/installation/license.html

how or when to use?

Don’t do it.

如果只是做数据探索，可以参考schema registry的源码自定义，行为数据不用过于追求schema。cdc数据可以考虑debezium的schema如何实现。

参考：

https://www.confluent.io/product/confluent-platform/data-compatibility/

https://docs.confluent.io/platform/current/schema-registry/index.html#schemaregistry-intro

https://medium.com/slalom-technology/introduction-to-schema-registry-in-kafka-915ccf06b902

https://cloud.tencent.com/developer/article/1336568

kafka

Kafka 开启SASL/SCRAM认证及 ACL授权（三）验证

Written by allen February 17, 2022

kafka

Kafka 开启SASL/SCRAM认证及 ACL授权（二）ACL

Written by allen February 17, 2022

kafka

Kafka 开启SASL/SCRAM认证及 ACL授权（一）认证

kafka安全涉及3部份：传输加密，用户认证与授权，ZK开启ACL（Zookeeper存储了kafka的元数据以及用户信息，默认不开启acl所有用户可改，内网环境机器不对外开放可考虑使用默认不开启ZK ACL）。词汇说明：认证，即用户登陆。授权，即管理用户可见的资源。 ACL，Access Control List 访问控制列表 SASL认证与Kerberos认证：SASL资料很多, java的见这里，Kerberos的资料，点这里。 Kafka权限控制指引支持的认证方式 Kafka支持的认证类别有kerberos（和hadoop一样，大多数公司应该没用kerberos）、ldap（在传统企业中比较普遍）与rbac（这两个是要企业license，基于Confluence的平台组件MDS，自建集群如果没用kafka connect之类的组件，没用conflunece的cli，也用不了）、sasl/plain（用户信息用文件进行管理，修改需重启Kafka，生产大概率不会接受并使用）和sasl/scram（用户信息用api或命令行进行管理，存储在zk上，不需重启）。考虑用哪一种取决于公司自身的情况，这里主要是用sasl/scram。接入现有认证系统如果对zk不放心或想对接已有的认证系统，接入kafka权限管控，可参考这个kip-86自定义认证方式，文中有场景列表及sample code。开启认证主要的关注点使用者的需求，生产者和消费者都有哪些，场景如何，需求怎样，支持以后需要先验证，对使用方提供技术上的指引文档等。开启方式，是重启集群还是迁移集群。开启认证不是平滑的，需要短暂中断业务流程。使用的认证方式：基于现有的环境及实际需要。运维成本：考虑运维、监控的方式及成本（监控需要admin账号） kafka版本是否需要升级：公司现有的版本是0.10.1，1.1，2.4等，需要升级吗？看使用哪种认证方式,rbac需要2.4+，sasl/scram只要0.9+，本文描述的基于2.4.1版本。本文主要描述用户认证：参考： sasl/scram 官方文档 sasl/plain 方式一、zookeeper sasl开启（可选，内网环境，用户无机器访问权限时） vim zookeeper/conf/zoo.cfg vim zookeeper/conf/zookeeper_jaas.conf Server是ZK SERVER之间， Client是zkclient与zk server之间 vim zookeeper/bin/zkEnv.sh zk启动引入jaas配置 vim zookeeper/conf/adminclient_jaas.conf vim zookeeper/bin/zkCli.sh zkCli命令默认添加jaas 重启zk bin/zkServer.sh restart 验证 bin/zkCli.sh 是否成功，调整密码验证二、配置kafka […]

Written by allen February 16, 2022

kafka

Kafka序列化反序列化解析

Written by allen March 11, 2022

kafka

Kafka SASL认证授权（四）认证源码解析

Written by allen February 24, 2022

why schema?

how or when to use?

参考：

Kafka 开启SASL/SCRAM认证及 ACL授权（三）验证

Another Kafka Monitor – Kowl

Kafka SASL认证授权（五）ACL源码解析

本地搭建源码阅读开发构建环境示例: kafka

Kafka 开启SASL/SCRAM认证及 ACL授权（二）ACL

Kafka 开启SASL/SCRAM认证及 ACL授权（一）认证

Kafka序列化反序列化解析

Kafka SASL认证授权（四）认证源码解析

No Comments

why schema?

how or when to use?

参考：

Related articles

No Comments