鲜花与美食

去参加公司领导的儿子的婚礼。

室外的,西式典礼。算是简洁的仪式。

婚礼上的鲜花总是动人,婚礼上的致辞总是感人。如我以前说过很多次的,起初总是美好的,后来,却不一定了。

Untitled

Untitled

Untitled

不一样的记忆

买了一个蓝牙音箱,听音乐方便了很多。

技术的发展,非常厉害。第一次听这首歌,还是磁带,需要到延安路专门的弄堂口去买那些盗版。

后来是cd,后来是mp3,mp3一开始还不太能下载,因为modemo只有14.4k,最多56k,下载速度是4-5k每秒,后来就一下子到了每秒100-200k的速度了,于是下载mp3不是问题了。

除了walkman,discman,之后就是电脑为主了,2000年左右买了第一个mp3,128k的要500多元,之后2005年买了nano,然后手机、touch之类,能够听音乐没有什么稀奇了。现在每个人的智能手机都会存着不少歌。

二十多年,这样的进步算大么,好像很大,其实却也还好了。

记得也好,忘记也罢。此时此刻,都是过去。

从层层叠叠的记忆里,从那些花香里。

记忆

记忆是会骗人的。

以为发生不久的事情,只是因为愿意记得,其实或许过去很久了。

又看到“我的机器人女友”这部当时让我很为所动的电影,原来这是2008年的片子,那么我大概也就是2009年左右看的,而一晃就是4年了,本来以为没有那么长时间的。这就是时间的相对论。

不是快乐不快乐那么简单。

记忆都伴随着很多事情相关的事情,有时候就会无聊的想起当时发生了什么,大约有哪些大事记,能够记起来的不多,能精确到月的已经很少了。

这部穿越题材的片子,情节很是巧妙。

红尘里一座纪念碑

离开一个地方久了,还有多少人可以记得你?

每个人其实都是忙忙碌碌,或者装的这样,微信、微博不停的分享,汇报自己的生活和感想,证明自己曾经的存在。

我却突然发现,自己只是自己,活在自己心里,除了此刻,一无所有。

开心,总是一瞬间,回忆,却是一生。

那些发呆的片刻,串起从幼童到少年,从青春到如今。

去过的地方,有冰箱贴,有照片,还有一些当时深深的沉醉的感觉,还不是都淡了?

除了自己,有多少被记得?被珍惜?我们是孤独的个体,在星球上,陪着默默的旋转。

从一个地方到另一个地方,风景不同,情节略有相似。

若红尘里为每一次相遇相知相爱树一座纪念碑,那是何等壮观,却不能那样做。

否则,世界到处都是忧伤的人群,在过去的回忆实体边哭泣和忧伤。

世界从来没有无情,我们要学着长大。

你的数据量够大够用hadoop了

这年头,好像不提hadoop,就对不起自己,也不管自己数据到底多少。搞it的人有时候会忘了出发点,而变成为了某样东西而去实现。

看到这篇文章,颇有同感,没有个几T的数据,用hadoop,真是自己找麻烦。

别老扯什么Hadoop了,你的数据根本不够大

本文原名“Don’t use Hadoop when your data isn’t that big ”,出自有着多年从业经验的数据科学家Chris Stucchio,纽约大学柯朗研究所博士后,搞过高频交易平台,当过创业公司的CTO,更习惯称自己为统计学者。对了,他现在自己创业,提供数据分析、推荐优化咨询服务,他的邮件是:stucchio@gmail.com 。

“你有多少大数据和Hadoop的经验?”他们问我。我一直在用Hadoop,但很少处理几TB以上的任务。我基本上只是一个大数据新手——知道概念,写过代码,但是没有大规模经验。

接下来他们会问:“你能用Hadoop做简单的group by和sum操作吗?”我当然会,但我会说需要看看具体文件格式。

他们给我一个U盘,里面有所有的数据,600MB,对,他们所有的数据。不知道为什么,我用pandas.read_csv(Pandas是一种Python数据分析库)而不是Hadoop完成了这个任务后,他们显得很不满意。

Hadoop其实是挺局限的。它无非是运行某个通用的计算,用SQL伪代码表示就是: SELECT G(…) FROM table GROUP BY F(…) 你只能改变G和F操作,除非要在中间步骤做性能优化(这可不怎么好玩!)。其他一切都是死的。

(关于MapReduce,之前作者写过一篇“41个词讲清楚MapReduce”,可以参考。)

Hadoop里,所有计算都必须按照一个map、一个group by、一个aggregate或者这种计算序列来写。这和穿上紧身衣一样,多憋得慌啊。许多计算用其他模型其实更适合。忍受紧身衣的唯一原因就是,可以扩展到极大极大的数据集。可你的数据集实际上很可能根本远远够不上那个数量级。

可是呢,因为Hadoop和大数据是热词,世界有一半的人都想穿上紧身衣,即使他们根本不需要。

可我的数据有好几百MB呢!Excel都装不下
对Excel很大可不是什么大数据。有很多好工具——我喜欢用的是基于Numpy的Pandas。它可以将几百MB数据以高效的向量化格式加载到内存,在我已经3年的老笔记本上,一眨眼的功夫,Numpy就能完成1亿次浮点计算。Matlab和R也是很棒的工具。

数百MB数据一般用一个简单的Python脚本逐行读取文件、处理,然后写到了一个文件就行了。

可我的数据有10G呢!
我刚买了一台笔记本电脑。16G内存花了141.98美元,256GB SSD多收200美元。另外,如果在Pandas里加载一个10GB的csv文件,实际在内存里并没有那么大——你可以将 “17284932583” 这样的数值串存为4位或者8位整数,“284572452.2435723”存为8位双精度。

最差情况下,你还可以不同时将所有数据都一次加载到内存里。

可我的数据有100GB/500GB/1TB!
一个2T的硬盘才94.99美元,4T是169.99。买一块,加到桌面电脑或者服务器上,然后装上PostgreSQL。

Hadoop的适用范围远小于SQL和Python脚本
从计算的表达能力来说,Hadoop比SQL差多了。Hadoop里能写的计算,在SQL或者简单的Python脚本都可以更轻松地写出来。

SQL是直观的查询语言,没有太多抽象,业务分析师和程序员都很常用。SQL查询往往非常简单,而且一般也很快——只要数据库正确地做了索引,要花几秒钟的查询都不太多见。

Hadoop没有任何索引的概念,它只知道全表扫描。而且Hadoop抽象层次太多了——我之前的项目尽在应付Java内存错误、内存碎片和集群竞用了,实际的数据分析工作反而没了时间。

如果你的数据结构不是SQL表的形式(比如纯文本、JSON、二进制),一般写一小段Python或者Ruby脚本按行处理更直接。保存在多个文件里,逐个处理即可。SQL不适用的情况下,从编程来说Hadoop也没那么糟糕,但相比Python脚本仍然没有什么优势。

除了难以编程,Hadoop还一般总是比其他技术方案要慢。只要索引用得好,SQL查询非常快。比如要计算join,PostgreSQL只需查看索引(如果有),然后查询所需的每个键。而Hadoop呢,必须做全表扫描,然后重排整个表。排序通过多台机器之间分片可以加速,但也带来了跨多机数据流处理的开销。如果要处理二进制文件,Hadoop必须反复访问namenode。而简单的Python脚本只要反复访问文件系统即可。

可我的数据超过了5TB!
你的命可真苦——只能苦逼地折腾Hadoop了,没有太多其他选择(可能还能用许多硬盘容量的高富帅机器来扛),而且其他选择往往贵得要命(脑海中浮现出IOE等等字样……)。

用Hadoop唯一的好处是扩展。如果你的数据是一个数TB的单表,那么全表扫描是Hadoop的强项。此外的话,请关爱生命,尽量远离Hadoop。它带来的烦恼根本不值,用传统方法既省时又省力。

附注:Hadoop也是不错的工具
我可不是成心黑Hadoop啊。其实我自己经常用Hadoop来完成其他工具无法轻易完成的任务。(我推荐使用Scalding,而不是Hive或者Pig,因为你可以用Scala语言来写级联Hadoop任务,隐藏了MapReduce底层细节。)我本文要强调的是,用Hadoop之前应该三思而行,别500MB数据这样的蚊子,你也拿Hadoop这样的大炮来轰。

delphi xe5 安装成功

下载了大大的4G多的iso文件,之前看了一大堆破解攻略,自己尝试了一下,下面这个方法是ok的。

1 先copy免安装序列号文件到install目录,这样安装过程就没有问题了。
2 将另外一个授权文件复制到安装好的路径的license目录(Embarcadero\RAD Studio\12.0\License)
3 将patch补丁文件放到bin路,运行,注意需要admin权限,然后就好了。

百度云盘下载授权文件和破解程序:http://pan.baidu.com/share/link?shareid=1984523122&uk=4077381094

注意两点:
1 这样如果不能破解的话,需要删除C:\ProgramData\Embarcadero下的.licenses、.cgb_license、*.slip文件。这会导致delphi xe4不能使用,不过这也没有关系了,有了xe5也就不需要xe4了。
2 android模拟器相关的教程delphi xe5的帮助写得很详细了,不过一定要记得打开使用本地gpu,否则就是显示黑屏。

xe5_android

iOS 7, 革命或者是创新

从iphone 1代以及ios 1.1.4(这个版本印象比较深刻)到如今的iphone 5和ios 7,短短六年,这是一个伟大的公司,可以改变我们的生活。

诸如市场营销之类可以有很大作用,但是伟大的作品就是伟大,乔布斯以及无数apple工程师的精心杰作,这是事实。否则,再好的市场营销也只能带来一时的欢呼,如同很多粗糙的国内的电子化产品。

白天,作为一个管理软件开发项目的我来说,深深的感受到我们的方法论的确还有很大问题,和国外的严谨细致相比,差距不小;另外,我们的产品设计由于种种原因,急功近利,要想完美,真的很难。在手机、电脑领域,大概也只有魅族、小米等稍微好一些了。

耐心、认真,站在用户的角度考虑问题,何其难啊!要拒绝很多诱惑。所谓十年磨一剑!

ios7

全民目击

虽然有点山寨,但是比起x时代之类,还是强了太多,全民目击,有现在越来越帅演技越来越好的郭富城,还有什么都不用说了的影帝级的孙红雷。

说实话,没有想到故事可以拍得这么跌宕起伏,猜不透,很有日本推理小说的味道。

而没有猜到的是,或许是极为阴险狡诈的男主角在儿女之爱面前显得如此伟大。

旅行

真的可以放下一些了,自由的旅行。

如同说看和看到的差别。

有人讨论,旅游和旅行的区别。

其实就是心态,是身体在欣赏,还是内心。

很多事情,难的就是放下功利,自由的飞。

IMG_3045

如今,大梦方觉晓。

今年已经重游了香港繁华,去过了无锡大佛,也远行到了彩云之南西双版纳,计划中的有台湾,或许还有大阪京都等。

年少时,每天忙不停,追逐。

如今,也该稍微暂停一下。用眼,用镜头,用心。

内心

现在有点明白了,其实知道自己想要什么,不一定是件好事。

很多时候,我们就是放不下,所以迁就,所以存在。

想通了,或者以为相通了,之后的思考多半就是痛苦。

特别是我们的国度,从小的教育就是磨灭了很多个性,于是就很容易去追求那些曾经想要、曾经错过的,于是,平衡或许被打破。

甘心,不是那么容易的。