基于Java学院网页的搜索引擎设计和实现

2年前 (2022) 程序员胖胖胖虎阿
184 0 0

项目运行部署:

首先导入项目MyHeritrix

  1. 然后把jar包加到项目中
  2. 运行类Heritrix
  3. 访问地址http://localhost:8080/index.jsp
  4. 创建一个job 

基于Java学院网页的搜索引擎设计和实现

基于Java学院网页的搜索引擎设计和实现

6.然后写name和你自己的url

基于Java学院网页的搜索引擎设计和实现

7.然后修改modules,只需要修改select writes和select post processors

基于Java学院网页的搜索引擎设计和实现

后面导入第二个程序Preprocess

对学院网站进行抓取、建索、排序、搜索、摘要显示。是Web界面。

首先利用httpclient+多线程去模拟客户端去进行获取网页的内容,然后采用jsoup+多线程来进行解析网页内容并存储本地

项目主要使用技术

Httplcient、Jsoup、多线程、Lucene、、IKAnanyzer数据库dao模式、Javascript /jQuery
Bootstrip、和web网页技术等实现
 

这是从网页抓取数据,数据量比较大、一般建议从第一天晚上开始爬取!也可以在代码中加入其它的过滤条件、让爬取的文件小一点、最后保存在本地运行程序main方法建立索引

基于Java学院网页的搜索引擎设计和实现

运行Java程序 启动Tomcat 访问页面输入关键字就可以进行搜索

 基于Java学院网页的搜索引擎设计和实现

基于Java学院网页的搜索引擎设计和实现

好了,今天就到这儿吧,小伙伴们点赞、收藏、评论,一键三连走起呀,下期见~~

版权声明:程序员胖胖胖虎阿 发表于 2022年11月10日 下午9:16。
转载请注明:基于Java学院网页的搜索引擎设计和实现 | 胖虎的工具箱-编程导航

相关文章

暂无评论

暂无评论...