Error: Contact form not found.
Related articles
Huh HUH is typically used as a slang word, with the meaning “I am Confused or Surprised” or “Do you Understand?”. 嗯哼? Duh DUH is an ironic response to a question or statement, implying that the speaker is stupid or that the reply is obvious. 显而易见~ 废话~
Written by allen
自古以来,帝王多疑,而且亲信身边的人。 兼听则明,偏听则暗。 在企业内,亦是如此。 孰是孰非,难有一个标准。 人的想法,部份来自身边人。 春秋战国,臣子大家养了数千门客,想要多一些能人志士出谋划策。 由上而下,少有真才实干的人,容易出现墙头草的情况。容易改变自己的立场,缺乏独立思考和决断的能力或者被迫改变。一言谈的居多,埋没人才。
Written by allen
deep learning course @ stanford: https://www.youtube.com/watch?v=PySo_6S4ZAg ml course by Andrew Ng: https://www.youtube.com/watch?v=PySo_6S4ZAg Both are for free, just enjoy it and take your time…
Written by allen
做YARN做了N年了,也想着存算分离吧?关于HDFS的存储有联邦存储和异构存储策略等内容,存算分离又算一个。存算分离,活生生的例子是KAFKA与PULSA的变化。KAFKA历史悠久,体量大的公司要替换很难,另辟蹊径的是,使用不同服务使其兼容kafka的rpc协议。协议一直是这个问题的根源,要实现存算分离,就要实现相应服务的协议,S3由于体量巨大,一直都是协议标准之一,所以首当其冲。 数据湖,一般结合现有的object store服务,提供基础的存储服务。同理,对于CK等服务,在OSS上实现相应的协议GATEWAY即可替换CK的本地存储,如MINIO。 存算分离有没有性能问题?一方面比较考验的是网络IO,所以局域网需要有理想的网络环境,例如50GB以上带宽。另一方面性能很受本地服务的缓存机制的影响,是否每次请求都重新从OSS拉取一遍数据。对于数据服务类的情况。例如一次查询10GB级的大表,网络不好的话,带宽占用、网络抖动等问题就会出现,所以本地磁盘优先原则依然是适用。 存储操作本质上可以分为两大类:一个operation就是一个对象全量的操作,类似对象存储的put。另一个是append log,不断追加:可以像kafka一样append本地log,也可以用bookeeper做分布式log。 后续一起看看存储相关的底层原理:TODO
Written by allen
简述 hudi,重度依赖spark做了一套table format的设计和文件管理,解决批流存储统一的问题。所有元数据,如果不依赖metastore都是放在文件中(它自身设计了一个简单的metastore在1.0版本,当前主要与hive metastore结合可以做湖仓,虽然不是必须项,用于其它计算引擎的外部表查询)。 文件众多,会有小文件管理问题,所以建议使用至少需要有spark3环境。 构建 Hudi的meta data使用hfile格式,存储文件信息,避免遍历obs的消耗。问题是源码使用2.4.9版本的hbase,默认基于hadoop2.x版本,如果使用hudi-bundle.jar在hadoop3.x环境运行,会报意向不到的一些异常,例如类文件找不到。 Caused by: java.lang.NoSuchMethodError: org.apache.hadoop.hdfs.client.HdfsDataInputStream.getReadStatistics()Lorg/apache/hadoop/hdfs/DFSInputStream$ReadStatistics; 解决办法是自己编译hbase2.4.9,指定hadoop.profile=3,再编译hudi。 注意,hbase有一些坑,windows环境很多命令不支持,不安装相应shell命令的情况下,可以注释无用的一些exec-maven-plugin,主要是用来做校验之类的工作。 hudi编译 参考资料: HUDI-META-HBASE ISSUE
Written by allen
Written by allen
As you said in the last video of 《machine learning》, I hope we can use AI to build cool products and make a better life. Thank you Andrew ng.
Written by allen
使用了stackoverflow.com这么久,还没有登陆过,一直匿名。上周看了一个问题,很想一起解答一下,使用google账号登陆了,很方便。 刚开始没什么不同。当post完一个回答。我的个人头像下方出现了一个字样“new contributor”。好奇地点开头像,发现一会多了一个badge,editor。脑神经一会兴奋了起来。 当第二天回答第二个问题时,尝试首先自己在脑袋里用英语回答,然后借助谷歌翻译看机器翻译的回答。这个过程还挺有趣,弥补了自己英语只读不写不会表达的短板,慢慢地捡起来一些表达方式。 点滴帮助,可以让你自己在人群中慢慢发光。 借助国外问答平台,一方面可以巩固输出自己的知识,一方面可以提升自己的英语表达水平。
Written by allen
No Comments
Leave a comment Cancel