Watch Star Fork

lewsn2008 / LBTSEC++

加入码云
与超过 300 万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
北大搜索引擎TSE完整源代码(索引+爬虫),加入我个人阅读代码的详细注释。
Loading...
README.md 1.32 KB

#LBTSE

本项目为北大搜索引擎TSE的完整源代码(包括索引和爬虫两个独立项目的源代码),TSE 为《搜索引擎——原理、技术与系统》一书介绍的实现原型,有兴趣的朋友可以参考该书学 习TSE。

《搜索引擎——原理、技术与系统》提供的源码下载地址http://sewm.pku.edu.cn/book/
经常不能访问,这里我将以前下载学习的加入详细注释的源代码开放出来,不仅有注释的 源代码,还有一份详细的学习笔记—— CSDN博客专栏地址为: http://blog.csdn.net/column/details/inside-tse.html ,希望对入门的朋友有一些帮 助。

目录说明:

tse081227 —— TSE的网页搜集子系统(爬虫)。

index —— TSE的预处理和查询服务子系统,该目录非常大,其实不是因为源代码大,而是 因为其中的 index/Data/Tianwang.raw.2559638448 非常大,该文件为爬虫爬 取的原始网页数据。

另外,原始的 index/Data/Tianwang.raw.2559638448 文件有三百多兆,上传时提示超出 了 git.oschina.net/ 文件的最大限制(100M),所以将文件内容删掉了很多,为了得到 较小的文件,这个对于整个系统的运行没有任何影响,因为它只是爬取的原始网页数据, 可以多可以少。

项目点评 ( 0 )

你可以在登录后,发表评论

搜索帮助