

Related articles
低频用户冷启动需要考验算法模型的泛化能力。建模中容易产生马太效应。 何谓马太效应?摘自wiki media, 天之道,损有余而补不足。人之道,则不然,损不足以奉有余。 凡有的,还要加给他,叫他有余;凡没有的,连他所有的也要夺去。 强者愈强,弱者愈弱。
Written by allen
deep learning course @ stanford: https://www.youtube.com/watch?v=PySo_6S4ZAg ml course by Andrew Ng: https://www.youtube.com/watch?v=PySo_6S4ZAg Both are for free, just enjoy it and take your time…
Written by allen
sometimes, sql is just better!
Written by allen
作者:徐志摩 假如我是一朵雪花, 翩翩的在半空里潇洒, 我一定认清我的方向 飞扬,飞扬,飞扬, 这地面上有我的方向。 不去那冷寞的幽谷, 不去那凄凉的山麓, 也不上荒街去惆怅 飞扬,飞扬,飞扬, 你看,我有我的方向! 在半空里娟娟的飞舞, 认明了那清幽的住处, 等着她来花园里探望 飞扬,飞扬,飞扬, 啊,她身上有朱砂梅的清香! 那时我凭籍我的身轻, 盈盈的,沾住了她的衣襟, 贴近她柔波似的心胸 消溶,消溶,消溶 溶入了她柔波似的心胸! 读工大的微信公众号信息《假如我是一朵雪花*》有感 Allen,2022年春,厦门。
Written by allen
自古以来,帝王多疑,而且亲信身边的人。 兼听则明,偏听则暗。 在企业内,亦是如此。 孰是孰非,难有一个标准。 人的想法,部份来自身边人。 春秋战国,臣子大家养了数千门客,想要多一些能人志士出谋划策。 由上而下,少有真才实干的人,容易出现墙头草的情况。容易改变自己的立场,缺乏独立思考和决断的能力或者被迫改变。一言谈的居多,埋没人才。
Written by allen
使用了stackoverflow.com这么久,还没有登陆过,一直匿名。上周看了一个问题,很想一起解答一下,使用google账号登陆了,很方便。 刚开始没什么不同。当post完一个回答。我的个人头像下方出现了一个字样“new contributor”。好奇地点开头像,发现一会多了一个badge,editor。脑神经一会兴奋了起来。 当第二天回答第二个问题时,尝试首先自己在脑袋里用英语回答,然后借助谷歌翻译看机器翻译的回答。这个过程还挺有趣,弥补了自己英语只读不写不会表达的短板,慢慢地捡起来一些表达方式。 点滴帮助,可以让你自己在人群中慢慢发光。 借助国外问答平台,一方面可以巩固输出自己的知识,一方面可以提升自己的英语表达水平。
Written by allen
做YARN做了N年了,也想着存算分离吧?关于HDFS的存储有联邦存储和异构存储策略等内容,存算分离又算一个。存算分离,活生生的例子是KAFKA与PULSA的变化。KAFKA历史悠久,体量大的公司要替换很难,另辟蹊径的是,使用不同服务使其兼容kafka的rpc协议。协议一直是这个问题的根源,要实现存算分离,就要实现相应服务的协议,S3由于体量巨大,一直都是协议标准之一,所以首当其冲。 数据湖,一般结合现有的object store服务,提供基础的存储服务。同理,对于CK等服务,在OSS上实现相应的协议GATEWAY即可替换CK的本地存储,如MINIO。 存算分离有没有性能问题?一方面比较考验的是网络IO,所以局域网需要有理想的网络环境,例如50GB以上带宽。另一方面性能很受本地服务的缓存机制的影响,是否每次请求都重新从OSS拉取一遍数据。对于数据服务类的情况。例如一次查询10GB级的大表,网络不好的话,带宽占用、网络抖动等问题就会出现,所以本地磁盘优先原则依然是适用。 存储操作本质上可以分为两大类:一个operation就是一个对象全量的操作,类似对象存储的put。另一个是append log,不断追加:可以像kafka一样append本地log,也可以用bookeeper做分布式log。 后续一起看看存储相关的底层原理:TODO
Written by allen
范欣欣的博文讲解深入又很清晰。 如何实现高速读写? 是否使用offheap? jdk跳表cslm实现及阿里ccsmap的优化? 详见:http://hbasefly.com/2019/10/18/hbase-memstore-evolution/
Written by allen
No Comments
Leave a comment Cancel