当前位置：首页 -> 技术开发 -> 其他相关 -> Java实现利用搜索引擎收集网址的程序

Java实现利用搜索引擎收集网址的程序

时间： 2021-07-31 作者：daque

我这边讲的不是如何运用探求引擎，而是如何让步调运用探求引擎来收集网址，这有什么用？很有效！网上动不动有人叫卖网址数据库，如颁布软硬件网址、邮件地方、乒坛网址、行业网址，那些网址是如何来的呢？不大概是人员工搜集而来的，都是让步调运用探求引擎取到的，即使您须要某类网址消息数据，就跟我来一道接洽一下，特殊大略。　　本文华用java谈话写成，以google和百度探求引擎为东西。　　咱们要运用google、百度探求引擎的探求准则中的两条，要害字探求和inurl探求。什么是inurl探求，即是你所要探求的网址中自己带有的要害字，比方http://www.xxx.com/post.asp ,这个网址就含有post.asp如许的要害字，在探求引擎中填写准则是 inurl:post.asp,这是搜集网址的要害，由于很多网址自己会带有一定的消息，比方软硬件颁布的网页网址消息中多含有 publish、submit、tuijian如许的消息，如http://www.xxx.com/publish.asp,如许的网址多是颁布消息的网页，在贯串网页中自己大概含有的要害字，就不妨用探求引擎探求出截止，而后咱们运用步调将截止取回，对html页面举行领会，去除没有效的消息，将有效的网址消息写入文献大概数据库，就不妨给其它运用步调大概人来运用了。　　第一步，用步调将探求截止取回，先以百度为例，比方咱们要探求软硬件颁布的网页，要害字沿用 “软硬件颁布本子 inurl:publish.asp",首先登场录百度看看，将要害字写入，而后提交，在地方栏就会看到 http://www.baidu.com/s?ie=gb2312&bs=%c8%ed%bc%fe%b7%a2%b2%bc+%c8%ed%bc%fe%b0%e6%b1%be+inurl%3apublish.asp&sr=&z=&cl=3&f=8&wd=%c8%ed%bc%fe%b7%a2%b2%bc+%b0%e6%b1%be+inurl%3apublish.asp&ct=0 ,华文要害字全都形成源代码了，没相关系，咱们在步调市直接用华文也是不妨的，个中多个要害字用＋号贯串，去掉少许没有效的消息，咱们不妨把地方优化成http://www.baidu.com/s?lm=0&si=&rn=20&ie=gb2312&ct=0&wd=软硬件颁布+本子+inurl%3apublish%2easp&pn=0&cl=0，个中rn表白一页表露几何个截止，wd=表白你要探求的要害字，pn表白从第几条发端表露，这个pn将是咱们步调轮回取截止的变量，每20条轮回一次。咱们用java写的步调来模仿这个探求的进程，用到的要害类为 java.net.httpurlconnection,java.net.url，先写一个提交探求的class,要害代码如次： class search { 　public url url; 　public httpurlconnection http; 　public java.io.inputstream urlstream; 　...... 　for(int i=0;i++;i <100) 　{ 　　...... 　　try { 　　　url = new url("http://www.baidu.com/s?lm=0&si=&rn=20&ie=gb2312&ct=0&wd=软硬件颁布+本子+inurl%3apublish%2easp&pn="+beginrecord+"&cl=0"); 　　}catch(exception ef){}; 　　try { 　　　http = (httpurlconnection) url.openconnection(); 　　　http.connect(); 　　　urlstream = http.getinputstream(); 　　}catch(exception ef){}; 　　java.io.bufferedreader l_reader = new java.io. 　　bufferedreader(new java.io.inputstreamreader(urlstream)); 　　try { 　　　while ((currentline = l_reader.readline()) != null) { 　　　　totalstring += currentline; 　　　} 　　} catch (ioexception ex3) {} 　　.... 　　//此次探求的截止仍旧放到totalstring中了，是少许html代码，须要下一步举行领会了。 } 　　再以google为例，略微有些各别，google对欣赏器举行了少许检验和测定，源代码也各别，url为http://www.google.com/search?q=软硬件颁布+本子+inurl:publish.asp&hl=zh-cn&lr=&newwindow=1&start=0&sa=n&ie=utf-8,个中源代码要用ie=utf-8,start表白从第几条记载表露，须要提防的是google对欣赏器还要查看，即使欣赏器不适合它的诉求，将归来缺点代码，以是在模仿欣赏器提交中，咱们要多加一条龙代码，窜改要害局部要将http属性中的user-agent树立为常用的欣赏器，比方mozilla/4.0,代码如次： try { 　http = (httpurlconnection) url.openconnection(); 　http.setrequestproperty("user-agent", "mozilla/4.0"); 　http.connect(); 　urlstream = http.getinputstream(); }catch(exception ef){}; 　　第二步，对取回的html源代码举行领会，掏出个中的有效网址消息，并写入文献大概数据库，因为那些探求引擎都有网页快速照相和一致网页等网址消息搀杂在html中，咱们要将那些网址消息剔除掉，剔除的要害即是找到个中的顺序，百度探求引擎中的网页快速照相和其它没有效的的地方都含有baidu这个要害字，而google中含有的无效网址消息含相关键字 google和cache,咱们就按照那些要害字剔除无效网址消息。在java中要对字符串举行领会必定要用到java.util.stringtokenize这个类，用来将字符串以一定的分割符划分，java.util.regex.pattern和java.util.regex.matcher用来配合字符串，要害代码如次： class comparestr { 　public boolean comparestring(string oristring,string tostring) 　{ 　　pattern p=null; //正则表白式　　matcher m=null; //操纵的字符串　　boolean b; 　　p = pattern.compile(oristring,pattern.case_insensitive); 　　m = p.matcher(tostring); 　　b = m.find(); 　　return b; 　} } class analyurl { 　...... 　stringtokenizer token = new stringtokenizer(totalstring," <> \""); 　string firstword; 　comparestrcompstr = new comparestr(); 　string dsturl = null; 　while (token.hasmoretokens()) 　{ 　　firstword = token.nexttoken(); 　　if (!compstr.comparestring("google.com", firstword) && !compstr.comparestring("cache",firstword)) 　　{ 　　　if (firstword.length() > 7) 　　　{ 　　　　dsturl = firstword.substring(6,firstword.length() - 1); 　　　　writeurl(dsturl); //胜利取到url，记载到文献中　　　} 　　} 　} } 　　经过之上步调，咱们就不妨搜集到本人要的网址消息了，还不妨再写其余一个运用步调，对搜集到的网址消息进一步领会，掏出本人须要的消息，这边就不复负担，原因都是一律的。结果需证明一点，google探求引擎探求所能归来的截止不许胜过1000条，过了1000条，就径直提醒“抱歉，google 为一切查问的截止数都不会胜过 1000 个。”，百度探求引擎归来的截止不许胜过700多条，以是咱们要探求时尽大概多加要害字，将截止范畴减少。

Java实现利用搜索引擎收集网址的程序

相关推荐

推荐下载

热门阅览

最新排行