内存 缓存一致性 问题: CPU乱序执行优化 JVM指令重排序 2024-05-27 dict CS JVM 问题 分区 手动设置 主键 手动设置 文件大小 文件数量 hoodie.parquet.max.file.size 查看 hive多种文件格式 文件版本 insert 和 upsert 区别 ts区别 hive 2024-05-27 dict CS Hudi README https://hudi.apache.org/docs/quick-start-guide.html 执行参数 avro格式https://my.oschina.net/weikan/blog/708757 hudi-flink 连接ka 2024-05-27 dict CS Hudi 因为truncate意外导致EditsLog错误,致使NameNode退出无法重启 简单来说就是在某种极端情况下,两个客户端对同一个块同时进行close和truncate操作导致edit log异常。 场景举例[todo]:Flink 使用BucketingSink 写Hdfs时,故障恢复的时候会对文件进行 trunc 2024-05-27 dict CS Hadoop README HBase的基本操作 https://zhuanlan.zhihu.com/p/145551967 https://juejin.cn/post/6844903959585374221 Bulk Load——Spark 批量导入多列数据到H 2024-05-27 dict CS Hbase Kerberos 身份验证因时间设置不同导致失败 有时候我们在有kerberos的Hadoop集群节点上执行 Hadoop 有关操作会遇到:javax.security.auth.login.LoginException: Clock skew too great (37) 32295:C 2024-05-27 dict CS Hadoop README git查看远程分支: git branch -a git 创建新分支 git branch xxx 查看当前分支流信息 git reflog show token 注意: github: environment secrets设 2024-05-27 dict CS Git 流程 假设.map(new RichMapFunction(){…}) RichMapFunction首先会在client实例化一次.然后flink会将map对象序列化分发出去. ClosureCleaner 检查函数闭包可序列化 https:/ 2024-05-27 dict CS Flink StreamingFileSink snapshotState 和 notifyCheckpointComplete 时机 先snapshotState, 为了关闭文件. 文件在关闭之前都是空的. private InProgressFileWriter.PendingFi 2024-05-27 dict CS Flink Flink 风水哲学 flink一般会用在哪里: 实时etl, 实时数仓, 实时报告分析, 监控, 推荐 我们将这些场景抽象出来,能看到我们的flink在里面做了一个什么作用: 是的, 很简单: 读取一个或多个输入源的数据, 然后经过一系列运算, 讲结果输 2024-05-27 dict CS Flink README 关键词共享内存位置透明actor模型 每个应用都需要创建一个ActorSystem actor的关键在于: 分而治之,每一个节点(actor)都是一样的结构,但是相互之间存在层级结构(树形)。这样能够做到任务下发。子actor再创建子子a 2024-05-27 dict CS Akka Actor Actor并发模型 粒度比线程小很多问题: 与协程的对比 2024-05-27 dict CS Akka