Nov 26
汉字地图第二版
icon1 Matrix67 |icon2 Brain Storm | icon4 2011-11-26 21:13 | icon328 Comments »

    去年年初的时候,我曾经发布过某专业课期末作业研究过程中带来的一个有趣的副产品:汉字的字义网络图。不过,当时我是直接调用的 Mathematica 的相关函数,函数几乎不能调整参数,并且也无法处理边上权重不同的情况。最近在研究引力斥力绘图算法,突然想到把当时的数据重新画一张图。于是就有了汉字地图第二版(点击小图看大图):

   

查看更多 »

Oct 17

    昨天和同事聊到,汉语还真是奇怪,有“四分五裂”,有“五颜六色”,也有“七上八下”,但好像从没听说过六什么七什么的。于是想到,在汉语中,“数词 + 非数词 + 数词 + 非数词”的短语是怎样分布的呢?回到家后立即用 Mathematica 做了一个柱状图,绘出了九九八十一种数词短语模式在大规模真实语料中的出现频数。注意,这里统计的是总的出现频数,重复出现也会计算在内。另外,这是一个简单而机械的统计过程,因而 “三人一组”、“七天七夜”之类的非成语也被算了进来。

      

    嗯,对,没有任何意义,纯属无聊之作。

Sep 29

今天,我拿到了梦寐以求的大规模中文语料库,总大小超过 1 G ,覆盖了各个时代各种文体的中文资料。有了这个语料库后,我便能完成很多早就想做的事情,比方说,统计各种文体中出现频率最高的四字词。给定一段文本后,基本的统计过程如下:

  1. 统计所有连续四字的出现频数;
  2. 按频数对所有四字组合从高到低排序;
  3. 删掉所有包含非汉字字符(比如数字、标点)的四字组合;
  4. 删掉明显不成词或者不成词组的四字组合(这一步有人为因素,因此下面的数据并不是 100% 客观的);
  5. 列出频数最高的 10 个四字词。

所选用的统计对象基本上都是数十万字的篇幅,所有步骤都是用 Mathematica 实现的。下面是结果:
查看更多 »

Apr 27
蛋疼研究之单词等式
icon1 Matrix67 |icon2 Brain Storm | icon4 2011-04-27 11:39 | icon321 Comments »

    先给大家看两个“单词等式”:

ACT + DEAL = DONE
COIN + TRY = DIAL

    除了意义上说得通以外,从另外一个角度来看,这两个等式也是成立的。大家能猜到是什么吗?

查看更多 »

Feb 13

    首先,祝大家情人节快乐。不过,对于单身 Geek 来说,情人节或许并不快乐。情人节可以说是各种 Geek 们永久的伤痛了。即使是热爱数学的你,或许看到已经被转发到烂的“心之函数”今日再度走红,心中也会觉得不爽:我们发明出来的 Geek 玩物,竟然都被你们这些非 Geek 人士拿去装 Geek 泡妞用了,最终情人节宅在家里面向显示器编程度过平凡一天的反而还是我们这群 Geek 。

  

    于是乎,“订完全部大床房”、“买光影院单号位”、“扎破所有安全套”等经典段子年年少不了。当然,我也没有闲着。为什么有 Geek 式的爱情祝福,就没有 Geek 式的分手诅咒?我计划着创作一个“分手函数”,它的函数图像是一个裂成两半的心。

查看更多 »

Feb 3

    考虑复数域上的迭代公式 zn+1 = zn^2 + (- 0.123 + 0.745 i) 。取不同的初始值 z0 ,迭代后 zi 的发散速度是不一样的。对于复平面上的每个点,以它为初始值的数列发散速度越快,就染越深的颜色表示;如果以它为初始值数列发散缓慢甚至收敛,则用相对较浅的颜色来表示。那么,整个图形将会是什么样子呢?本人纯手工打造 Mathematica 代码两行,为大家送上这幅神奇的图形:

  

    难以置信,简单的公式竟然生成了如此复杂的分形图形,看上去仿佛是大大小小的兔子竖着耳朵跳出来给大家拜年一样。这个图形叫做 Douady 兔子,是由法国数学家 Adrien Douady 发现的。它是一种 Julia 集

Jan 24

    最近在做网站测试时,遇到了需要在输入框输入 3000 字的测试用例。联想到平时聊天时经常复制粘贴一堆笑脸刷屏讨 MM 欢心的行为,不由想到了一个有趣的问题:为了输入一定数量的字符,最少需要按多少个键?

    大家最常用的策略或许是, 先输一些字符,然后全选复制,粘贴到一定规模后,再全选复制,粘贴到一个新的数量级,如此反复。注意到进入全选状态(并且复制后),第一次粘贴将会覆盖掉选中的部分,第二次粘贴才会增加原来的文本长度。当然,全选复制后按一次向右键也可以消除选中状态,不过却并没有节省按键次数。因此我们规定,在输入字符时只有四种原子操作:

      1. 按一个按键,输入一个字符
      2. 按 Ctrl + A ,全选
      3. 按 Ctrl + C ,复制
      4. 按 Ctrl + V ,粘贴

查看更多 »

Dec 6

突然想到在网上查查三体问题进展究竟如何,于是摸到了这么一个地方:

   http://www.maia.ub.es/dsg/nbody

上面这个地方提供了多体问题中颇具代表性的 47 个解的数据,用的 gnuplot 格式。我选择了其中 30 个,用 Mathematica 读出数据,生成了 30 个直观的 gif 动画。大家将会看到,在引力的作用下,多颗星体可能会形成的一些极其诡异的轨道。后面的解越来越不平凡,可见多体问题之难。图片总共 7 M,服务器表示压力很大,转载勿盗链图片。

查看更多 »

« 更早的日志