7C00.ME/houmu 2014-05-31

导出Tumblr文章

Tumblr竟然没有导出/导入/备份的功能,我还是刚刚知道。还好自己原来那个Tumblr博客也就是玩玩的,没有几篇文章,而且废话居多,就自己手工导出吧。


链接(2014-03-17)

https://gist.github.com/t09def/6659be7e47332999b42b


链接(2014-03-16)

http://prezi.com/9ake_klzwrga/apache-giraph-distributed-graph-processing-in-the-cloud/


终于在Eclipse里面跑通了一个Mahout例子(2014-03-15)

昨天晚上,折腾了很久,终于在Eclipse里面跑通了一个Mahout例子。回过头来看,主要问题是不会用Maven,以及不会用Eclipse里面的Maven插件。

简单总结一下,遇到了以下障碍:

首先是如何用Maven插件创建一个Maven项目。会有一批像artifactId,groupId之类的Maven专有的名词,暂时选择无视,硬着头皮向前走。在选择模板的时候选择“quickstart”,Maven插件会自动创建一个Hello World的Maven项目。Java代码就两个文件,内容也非常浅显,但是由于我对junit知之甚少,所以也对一个Test文件只能无视了。

接下来遇到一个麻烦,就是maven在创建hello world项目之后,会从网上下载项目依赖的一些程序,对这个hello world程序而言主要是junit依赖。但是,maven插件默认的下载服务器(maven中心仓库)在美国,下载速度非常慢,以至于maven插件不能下载好依赖程序,hello world项目不能完成初始化。这类问题在nodejs、ruby中都有遇到过,解决办法就是把更换下载源,经过一番查找找到了国内的一个镜像:开源中国Mavenhttp://maven.oschina.net。按照里面的设置,修改了repository地址,完成了hello world项目初始化。

接下来的问题就是如何run这个项目。如果是Eclipse的标准Java项目,我会直接点击工具栏的一个绿色三角形来run。但是当看到下拉菜单中的一堆maven选项之后,我就犹豫了,是这么玩的么?实际上,用run as java apllication,是可以run起这个maven项目的。但是既然用Maven插件了,多少应该有点maven style。所以昨天相当多的时间我在查maven以及eclipse maven插件的用法。必要的话,还是应该先熟悉一下maven。

这部分内容总结起来可能要写更多东西,暂时写到这。过两天写一个比较完整的版本。


链接 (2014-03-15)

http://www.youtube.com/embed/yD40rVKUwPI?wmode=transparent&autohide=1&egm=0&hd=1&iv_load_policy=3&modestbranding=1&rel=0&showinfo=0&showsearch=0


blogger (2014-03-14)

试了一下Blogger,它其实本来就不在candidate list里面的(拜伟大的墙所赐)。这次尝试也只是因为好奇。

Blogger给我感觉最好的一点是Google Style的设计和交互。对于几乎每天都要用Gmail、Google Calendar等Google产品的人来说,很快就能适应和习惯。高度可定制(可折腾)是Google产品的一贯特征,典型的代表是Android、Chrome、Gmail,看过Blogger的后台之后,可以确定Blogger也是这样的一个产品。这一点可以吸引很多人。

不过Blogger也有不太个人不是很满意之处。比如每个博客最上方都有一个黑底的顶栏,感觉非常不舒服。从Google产品界面演化,已经可以感觉到黑色顶栏的设计是将要淘汰的,目前Gmail、Google Calendar、Google Plus等产品Web界面上已经去除了这种顶栏。Blogger估计也会顺应这个趋势。

黑底顶栏主要功能之一是推荐下一个博客,我点击进入了几个博客,他们大多都是很久没有更新了,最后更新时间一般是2012年。用户写博客频率降低,或许和Twitter、Facebook 的兴起有关。

总体来看Blogger是个不错的产品,只不过已经不适应时代。


Python basestring(2014-03-13)

basestring是在阅读一份python代码时遇到的概念,查过stackoverflow总结如下:

在Python 2.x中,basestring、str、unicode都是用于表示字符串的类。basestring是str、unicode的基类,str用来表示bytestring(内部表示应该类似C语言的char数组),unicode相对的表示unicode string(内部表示应该类似Go语言中的rune数组)。而在Python 3.x中basestring、str、unicode统一为str。

字符串类型内部表示的设计是编程语言设计的关键之一,因此又想到了《松本行弘的程序设计》和Ruby,从某些方面讲Python语言设计上不如Ruby。


报名了(2014-03-13)

报名了阿里巴巴大数据竞赛。这个过程中,最大感受是阿里的账号体系混乱!

报名之后可以下载数据集,一个4.25M的csv文件,总共18万条记录。18万显得阿里诚意不足啊。另外数据文件中最后一列(日期)竟然还是GBK中文编码,用时需要增加一步预处理。在活动的论坛上,有网友分享了经过编码加工的数据集,赞一个!

先把 Mahout In Action 看完,然后开始测试这个数据集。


开篇文章(2014-03-13)

“U,I,P”表示“user,item,preference”。这是mahout的一种数据文件的格式。最近在研究推荐系统,用这个博客来记录自己的一些工作和想法。

在lofter、diandian、jianshu等站点上折腾以后最终还是选择用tumblr,虽然访问速度是他最大的问题,不过这也是没办法的事情。