Hacking the Data Transformation Interview

I am currently (still) seeking a job in data/software engineering area, and I am preparing for all kinds of technical interviews, ranging from coding, algorithm, system design, SQL to computer science fundamental quiz. Data engineer is a role with vague definition, and people with this title functions as an ETL (extract, transformation, load) engineer in some companies. Thus, topics on data transformation could be covered during the interview. In this blog, I am trying to hack interview focusing on data tranformation.

博客由 Hexo 迁移至 Hugo

本篇博文使用 org-mode 书就,耶!

从 2016 将博客迁移至 Hexo+Github 的方案后,我便一直采用此方案写博客。大体来说感受挺不错的,然而由于我有数百篇博客,build 速度永远很让我头大。尤其是有时 markdown 显示出问题了,我又得等上数分钟才能看到结果,体验很不好。所以一听说 Hugo 能一秒生成博客,哪怕要舍弃我花大功夫美化的 NeXT 主题,我依然心生向往,今天便将 Hexo 迁移至 Hugo,顺便达成了 Emacs 写博客的小目标。

Sleep No More 小结

以下是当年(2017-08-26)周六下午看完五点场写的总结,当时想着要建个微信公众号,就想留着弄个十万加,然而两年了公众号都给销号了也一直没发,就放博客上吧。

周六五点场,4点40左右到达酒店(McKittrick Hotel1),拿到Ace牌,持此牌可以第一批(大概二十人左右)入场。进入酒店,寄包 ($4),穿过漆黑走廊以适应灯光晦暗的环境。而后进入酒吧等待酒保带领入场,并获得白色面具以佩戴于面2,进入电梯,开始演出。

Figure 1: 根据记忆推算的舞台调度示意图

Figure 1: 根据记忆推算的舞台调度示意图

鼠须管傻瓜化配置

This configuration:

  • Optimized for simplified Chinese;
  • Implement 朙月拼音 luna-pinyin, 微软双拼 double-pinyin-mspy and 地球拼音 terra-pinyin with 20+ dictionaries including symbols and emoji;
  • Feature 地球双拼 terra-double-pinyin-mspy, a double pinyin input method supporting tone marks;
  • Use 地球双拼 terra-double-pinyin-mspy to reverse lookup 吴语(苏州话) wugniu_soutseu with tone marks, toggled by `;
  • Use ASCII mode for several applications.

Emacs 上使用 Beancount 记帐

昨天搞定 Emacs 的中文环境,今天想着好久没记帐了,随手记总是很花时间,干脆一鼓作气,将记帐一起搬过来。

复式记帐

我本科时双修了一门金融,其中最为繁琐,也是最令人头疼的一门课便是会计学。我不爱听讲,毕业之后也将会计的知识点忘得查差不多了,然而其"有借必有贷,借贷必相等"的复式记帐法,反而是我生活中运用最多的。

复式记帐法说起来复杂,对个人来说,就是将每笔交易分门别类,填入下面这条等式中:

资产 + 费用 = 负债 + 所有者权益 + 收入

在个人记帐中,这条等式辅以借贷概念会令人望而生畏,所以我将其略一变形:

(+资产)+(-负债)+(+费用)+(-收入)+(-所有者权益)= 0

  • 资产与负债都是与金钱直接挂钩的,比如银行户头,比如人民币美钞,比如信用卡帐户,再比如借条,这些都可以算是货币的不同表示形式。
  • 费用与收入则是与金钱间接挂钩的,比如工资,比如商品,比如服务,这些都可以算是生产资本与商品资本的不同表现形式。其中收入与字面意思不同,可以理解为生产资本(劳动力等)。
  • 所有者权益对个人意义不大,一般用来记录历史盈余与糊涂帐。

而这个变形公式中的正负号,则可以将各项目的符号关系,用作资金流向的参照。这么说有点玄乎,换个茨威格式的说法就是:“人们从命运得到的一切,冥冥之中都记下了它的价钱。“花钱买了服务,则是减少资产(花了钱),增加费用(得到服务);工资到帐,则是增加资产(到帐),减少收入(既有劳动时间的减少);别人跟你借了钱,则是资产减少(银行帐户或现金余额减少),负债增加(别人在你这儿的负债)。

总结一下,由于人类暂时无法操控时间,所以费用一般为正,收入一般为负。而没有破产的情况下资产一般为正,别人欠你的钱为正,信用卡债(你欠别人的钱)为负。