歡迎來到 常識詞典網 , 一個專業的常識知識學習網站!
[ Ctrl + D 鍵 ]收藏本站
答案 1:
當下我采用的是簡單幼稚但還算有效的辦法----鏈接數目,超過閾值便處理為索引頁,否則判定為內容頁。答案 2:
我猜想可以這樣判斷:1、頁面子鏈個數很多。2、頁面子鏈的url形式(目錄)有一定共性。3、判斷錨文本占頁面所有文本比重很高。答案 3:
首先要區分問題解決的環境:如果是處理特定的站點,肯定是手工配url pattern,如果是大規模海量無共性站點,那么@鄭傳義的方法機上@Paul說的特征,毫無疑問是性價比最高的,當然如果你對自己自信,可以基于站點構型做挖掘最后,這些索引頁是幫你發現新鏈接的,如果做spider,怎么會沒用呢?答案 4:
我的想法是這樣的,如果有子url的就是目錄頁,如果沒有的基本都是內容頁。但是就是news.sina.cn/z/cjzxyz...,這個這樣下來就不大好辨別了下一篇:京九線運營至今,盈虧分析究竟如何?大家如何看待? 下一篇 【方向鍵 ( → )下一篇】
上一篇:一般而言,一天睡多少個小時才是正常的、健康的? 上一篇 【方向鍵 ( ← )上一篇】
快搜