浏览代码

huon sharepoint

Benjamin Harris 2 月之前
父节点
当前提交
a849bc8d52
共有 1 个文件被更改,包括 5 次插入3 次删除
  1. 5 3
      scrapers/huonvalley.rb

+ 5 - 3
scrapers/huonvalley.rb

@@ -26,10 +26,12 @@ DB.ensure_table!(TABLE)
 REF_RX = /\bDA[-\s]?\d{1,4}\/20\d{2}\b/i
 
 def abs_url(base, href)
-    return nil if href.to_s.strip.empty?
-    URI.join(base, href).to_s
+    h = href.to_s.strip
+    return nil if h.empty?
+    return h if h.start_with?("http://", "https://")
+    URI.join(base, h).to_s
 rescue URI::InvalidURIError
-    nil
+    h
 end
 
 def parse_page(html, base_url)