Oct 6
Original Ideas
icon1 matrix67 |icon2 Design of Design | icon4 2008-10-06 11:40 | icon318 Comments »

    首先呢,小小的庆祝一下我的订阅数终于过千了。真可惜,昨天的订阅数1023,差一点就是1024了……
    最近不知道为什么,思维特别活跃,脑子里经常蹦出一些牛B的想法。先声明,这篇文章为matrix67.com原创;谁要是用了里面的东西而没署名,或者拿去用作商业用途的话……Alan Shore的模样将会像幽灵一样缠绕着你,出现在你的每一个恶梦中。

关于输入法:为什么能打出“推倒”却打不出“推不倒”?

    为什么没有输入法可以依据语法规则生成更多词组?例如,我可以把“睡觉”、“理发”、“洗澡”、“打球”、“吃饭”一类词做一个标记,那么在里面插入“了”、“过”等词也可以直接视为一个词(这些词同样很常用)。这样的话,词库容量大大扩充了,但这种方法本身并不耗费太多的空间和时间。
    或者有输入法已经开始这么做了?大家的输入法中,这些词语可以直接打出来么?

睡觉 睡了觉 睡过觉 睡个觉 睡完觉 睡不成觉
理发 理了发 理过发 理个发 理完发 理不成发
洗澡 洗了澡 洗过澡 洗个澡 洗完澡 洗不成澡
打球 打了球 打过球 打个球 打完球 打不成球
吃饭 吃了饭 吃过饭 吃个饭 吃完饭 吃不成饭

    事实上,这种结构能够派生出来的短语比你想像的更多,如“睡一睡觉”、“睡不睡觉”、“睡了一小时的觉”、“睡不完的觉”、“你睡你的觉去”、“觉也不睡”、“觉不好好睡”、”觉已经睡过了“等等;同时,这一类词的数量也相当多,漱口刷牙洗脸穿衣服穿鞋拿钥匙锁门开车上班写程序玩游戏下班回家做饭洗衣服上床做爱全是这一类词。因此词类标记的价值显得更大了。
    又如,结果补语中间可以插入“不”、“得”变成可能补语。奇怪的是,为什么绝大多数输入法里都有“推倒”这个词,却没有“推不倒”这个词?这明明是在词库里做几个标记就能办到的事情。

推倒 推得倒 推不倒
吃完 吃得完 吃不完
学会 学得会 学不会
长高 长得高 长不高
飞起来 飞得起来 飞不起来
走进去 走得进去 走不进去

查看更多 »

Aug 27


看来,已经有人提前做了一件我最近一直想要做的事情。
最近的几个有点不正常的数据点估计把整条曲线拉低了不少。
来源:http://blog.wired.com/wiredscience/2008/08/bolt-is-freaky.html

Aug 11

    我的左眼有相当严重的散光,因此无缘各种类型的3D立体图,包括看对眼、立体眼镜、左右两幅图(一只眼睛看一个)等等。后来,网上出现了一种只需要一只眼睛就能体验的3D图,原理非常简单,效果也比较震撼。只需要在两个眼睛的位置分别拍照,然后做成gif循环显示两个图片,大脑也可以从中迅速获取信息分辨出第三维来。闲逛ffffound时偶然发现这个图,突然想到:同样的方法为何不用于展示三维数据呢?于是试着用Mathematica做了一个。Mathematica输出gif动画相当简单,只需要一句Export["file.gif",{g1, g2, ...}]就行了。在这里,我们将用三维空间的点来展示组合数的各位数字之和的分布情况。可以看到,使用3D动画的效果非常明显。

img = ListPointPlot3D[
  Table[Total[IntegerDigits[Binomial[i, j]]], {i, 0, 50}, {j, 0, 50}],
   ViewVertical -> {0, 0, 1}, ImageSize -> 600];
Export["F:\\file.gif", {Show[img, ViewVector -> {-32, -20, 60}],
  Show[img, ViewVector -> {-31, -21, 60}]}];

    类似地,我们还可以做出环视一周的gif动画来,虽然这样将很难观察出细节,但对总体的把握效果将更好。

Jul 28

    我在学校时,时不时会有人闯进宿舍,给宿舍里的每个人发一张调查表邀请大家填写。如果我不是很忙的话,通常还是很乐意填写的。不过,有时我很悲哀的发现,很多调查表的设计都很缺乏科学性。设计一张合理的调查表并不是一件容易的事情,你需要综合考虑各方面的因素。例如,假如你需要在调查表中问一个极度隐私的问题,尽管你在调查表上再三强调你们的保密措施,但你真的指望所有人都能够如实地回答吗?你真的指望会有人在“我不是处男/处女”或“我有同性恋倾向”前面打一个勾然后把表递到问卷回收人的手中吗?
    让我们考虑这样一个问题:你希望在调查表上问一个隐私问题。为了方便起见,假设这个问题只有“是”和“否”两个选项。有什么方案能够绝对地保证个人隐私完全不可能被泄露,让每个人都能够放心地填写,并且问卷回收之后能够得到一个准确的统计结果?
查看更多 »

Feb 10

    本来还打算给这个Blog写一个日志评分系统的,现在看来估计没时间了。之前曾经找过一些关于日志评分系统的资料,偶然在我很喜欢的web 2.0站点TheBroth里找到了一篇介绍Bayesian评分系统的旧文,觉得非常科学,大致翻译一下。
    很多网站都有用户评分功能。比如,你可以给某篇文章打分,1分表示这篇文章太烂了,10分表示你爱死这篇文章了。有些网站用加号和减号来代替评分功能。点击“+”表示你喜欢这篇文章,点击“-”表示你不喜欢这篇文章。网站很可能会在首页醒目处加一行黑体二号加粗高亮发光的字,“评价最高的10篇文章”;然后在下面放上平均得分最高的几篇文章的链接,用来吸引点击率。这时,问题就出来了:评分最高的文章不一定真的是评价最高的文章。比如说,某篇文章特别无聊,没一个人评分,然后有个人不小心点错了链接进去了,又一个不小心点到了评分栏上的最后一颗五角星,于是此网站惊现平均得分高达满分的文章;再比如说,某人刚发了一篇文章,然后趁别人还没评分前自己先给自己评几个10分,于是又一篇满分文章横空出世。事实上,可以想到绝大多数新文章刚发表时平均得分不是极高就是极低,这是这种简单的评分机制的一个很突出的问题。应该怎样解决这个问题呢?我们可以分析一下问题的根源,集中思考解决这个问题根源的办法,然后用新的公式来定义一篇文章的最终得分。
    问题的根源是什么?问题的根源就是,样本少了会导致结果不可靠。某篇文章的评分人数越少,其平均得分越不可靠,我们应该想办法让得分越靠近所有文章的总平均得分。事实上,评分人数少正说明这篇文章既不受欢迎也没啥争议,它的得分应该接近所有文章的总平均分才对。要是有一种东西能够实现“票少了不算”、“得的票越多对最终得分的影响越大”之类的想法就好了。于是,我们想到了加权平均数。
    我们希望得票越少的文章,其得分越接近所有文章的总平均分;得票越多的文章,其得分越接近它本来的平均分。于是我们为所有文章的总平均分和这篇文章的平均分各设一个权值。这篇文章的平均分的权值就是该文的评分人数,这没话说。关键是所有文章总平均分的权值。这可以根据你的喜好来设:权值越小说明你对评分要求越不严格,影响文章得分所需要的票数越少;权值越大说明你越在意样本过少所带来的负面影响,同时说明参与评分的人数一定会很多。因此,这个权值应该由你的网站的总评分人数的多少来决定,用每篇文章的平均评分人数来当权值是一个不错的选择。因此,我们可以用以下公式来算出每篇文章的最终得分:

                 所有文章的总平均分*每篇文章的平均评分人数 + 这篇文章的平均分*这篇文章的评分人数
文章最终得分 =  ---------------------------------------------------------------------------------
                                  每篇文章的平均评分人数 + 这篇文章的评分人数


    这里,总平均分的权值用的是每篇文章的平均评分人数。你也可以自己设定一个合适的权值。
    这种评分方法叫做Bayesian评分。很多web 2.0站点都在用这种评分系统。
顺便记录一下今天的心情。今天我很开心,非常开心:) 原因嘛……秘密

Nov 8

    这个Blog的内容目前仍然比较乱,目前大概有这几个方面的内容:


    我想统计一下这个Blog最大的读者群(初步估计是OIer和ACMer),帮助我决定以后都更新一些什么内容。因此麻烦本Blog的读者朋友们尽可能都在下面留言,告诉我你喜欢那一类的文章。我会仔细地看大家的留言,每一个人都可能影响这个Blog今后的发展。

2007.11.10 前面43楼:
A:#############################
B:########################
C:#######################
D:####################
E:###############
F:#######
G:###################

果然大家都是搞信息学的,看来不喜欢这方面东西的人应该是少数吧,我就不必担心写informatics没人看了
我也不大想写和电影、美剧相关的东西了,除了一句话影评以外以后不再专门写这个了
感谢大家的支持。仍在潜水的人欢迎继续在下面留言

Oct 1

今天看Google分析时发现了一件和上次相比更加不可思议的事情。

Jun 22


今天早上登陆Google分析,发现昨天的网站点击来源里居然有这么一项……
有没有人能解释一下这是为什么?

« 更早的日志