引用第20楼zc1984于2007-03-24 20:26发表的:补充一点:这就类似于传统的数据库或者传统的文本搜索引擎中的处理方式——建立索引和快照~首先搜索的是索引,这样速度最快~然后进行乱七八糟的处理,最终返回结果~~不知道现在Google的服务器是什么配置了,反正2001年的时候就已经是单机6GB内存了~
引用第29楼jiju84于2007-03-25 12:59发表的Re:与程序设计有关的毕业设计的讨论楼~【可以问问题、炫耀,但是不能找[屏蔽]】讨论出来的毕设:都是牛人 偶做统计语言模型研究HMM但参数估计优化 EM算法,数据平滑.......
引用第34楼zc1984于2007-03-26 18:15发表的:Google Paper里面说的~~~可以到Google Paper的站点上面下载那篇论文哈~~Google自己声称自己最核心的东西其实是GFS——Google File System~~.......
引用第35楼zc1984于2007-03-26 18:17发表的Re:Re:与程序设计有关的毕业设计的讨论楼~【可以问问题、炫耀,但是不能找[屏蔽]】讨论出来的毕设:我这里有语料库~~纯文本:1141MB~~~压缩后大约522MB~~~.......
引用第39楼zc1984于2007-03-26 18:28发表的:大规模的计算机集群可以有效的利用大数定律来平抑风险~~~另外他们在加利福尼亚建立计算中心和数据中心也是选择了避开地震带,这是很明智的做法~~.......
引用第39楼zc1984于2007-03-26 18:28发表的:现在有种说法:Google已经把人类积累下来的一点点并行和分布式的知识用完了~现在都只有硬着头皮和理论界一起探究了~.......
引用第43楼zc1984于2007-03-26 18:37发表的:现在的设计天天都在修改~~刚开始啊~~等什么时候稳定了,可以见人了再拿出来献丑~~
引用第44楼zc1984于2007-03-26 18:39发表的:现在感觉Google有点飘飘然,做的事情也就开始失去方向了~~Maybe我的理解有问题~~公司运作需要钱,华尔街也盯着钱~~如果没有好的盈利模式,只有一些新奇的小玩意儿,市场不会买单的——by WallStreet 某XX
引用第47楼zc1984于2007-03-26 18:44发表的:相反,我个人认为在理论上还是理论界目前领先与产业界~~如果要说数据的话,欧洲高能研究所的每秒800GB的数据应该足够了吧~~一次高能物理实验就能产生6PB左右的数据~~.......
引用第48楼zc1984于2007-03-26 18:51发表的:简单一点说就是建立一个索引,索引的内容是单词(或者中文分词出来的词),记录一个单词被哪些文档所包含,同时记录单词在该文档中的位置。.......