项目地址:
https://gitee.com/suenmvaivh/GoogleCollGoogleColl

能兼容不同的搜索引擎,需要自写对应的采集脚本进行配置。

废话就不多说了,直接铁代码吧。

Bing搜索

    提取执行代码:

CollUrls();
function CollUrls() {

  var a_urls = document.getElementsByClassName("b_algo")
    var results=[];
        for ( var i = 0; i <a_urls.length; i++){
            try{
                 var link = a_urls[i].getElementsByTagName("a")[0].href;
            	 var title = a_urls[i].getElementsByTagName("a")[0].text;
                 var result=new Result(link,title);
                 results.push(result);
            }catch(err){}
           
    }
  return JSON.stringify(results);
}
function Result(url,title){ 
    this.url=url; 
    this.title=title;  
}

     翻页代码:

function next(){
	var p = document.getElementsByClassName("sw_next").length;
if (p == 1){
	document.getElementsByClassName("sw_next")[0].click();
	}	
}
function sleep1(ms, callback) {
	setTimeout(callback, ms);
}
	//random sleep 1-6 s
	var t = Math.floor(Math.random() * (6 - 1) + 1); 
	sleep1(t*1000, () => {
	console.log(t+"s");
	next();
	})

    添加配置

image.png

    访问https://cn.bing.com/ site:搜索关键字


    测试效果:

    image.png


    Google提取:

CollUrls();
function CollUrls() {
  var tags = document.getElementsByTagName('h3');
  var urls = document.getElementsByClassName('rc');
    var results=[];
        for(var i=0;i<tags.length;i++){
            try{
                 var as=urls[i].getElementsByTagName('a');
                 var url=as[0].href;
                 var title=tags[i].innerHTML;
                 var result=new Result(url,title);
                 results.push(result);
            }catch(err){}
           
    }
  return JSON.stringify(results);
}
function Result(url,title){ 
    this.url=url; 
    this.title=title;  
}


FOFA 提取:

CollUrls();
function CollUrls() {
  var a_urls = document.getElementsByClassName("list_sx1");
    var results=[];
        for ( var i = 0; i <a_urls.length; i++){
            try{
                var title = a_urls[i].getElementsByTagName('li')[0].textContent.replace(/\s+/g,"");
				var ip = a_urls[i].getElementsByTagName('li')[1].textContent.replace(/\s+/g,"");
		var link = a_urls[i].parentElement.parentElement.parentElement.parentElement.firstElementChild.firstElementChild.href.replace(/\s+/g,"");
                 var result=new Result(link,title);
                 results.push(result);
            }catch(err){}
           
    }
  return JSON.stringify(results);
}
function Result(url,title){ 
    this.url=url; 
    this.title=title;  
}


翻页代码:

function next(){
	var next_page = document.getElementsByClassName("next_page")[1].className;
	if (next_page != "next_page disabled"){
		 location.href=document.getElementsByClassName("next_page")[1].href;
	}
}

function sleep1(ms, callback) {
	setTimeout(callback, ms);
}
	//random sleep 1-6 s
	var t = Math.floor(Math.random() * (6 - 1) + 1); 
	sleep1(t*1000, () => {
	console.log(t+"s");
	next();
	})



这个工具仅在Windows下可以使用,无奈使用Mac的时候较多,在Mac上我用puppeteer同样也写了自动采集的脚本。就不在补充这个工具的采集代码了,还是把Mac上的完善好吧,争取做一个带UI的工具出来。。