python正則怎么提取域名
問題描述
<script type='application/ld+json'>{ '@context': 'http://schema.org', '@type': 'SaleEvent', 'name': '10% Off First Orders', 'url': 'https://www.myvouchercodes.co.uk/coggles', 'image': 'https://mvp.tribesgds.com/dyn/oh/Ow/ohOwXIWglMg/_/mQR5xLX5go8/m0Ys/coggles-logo.png', 'startDate': '2017-02-17', 'endDate': '2017-12-31', 'location': {'@type': 'Place','name': 'Coggles','url': 'coggles.co.uk','address': 'Coggles' }, 'description': 'Get the top branded fashion items from Coggles at discounted prices. Apply this code and enjoy savings on your purchase.', 'eventStatus': 'EventScheduled'}</script>
怎么用python正則從這段腳本中提取coggles.co.uk域名呢,望各路高手指點顯示下身手...
問題解答
回答1:正則實現的話只要保證你的標定/特征是唯一的就好。但是'url'這個標志又不是唯一的。這個時候@prolifes的方法是很好的。
如果一定要正則實現呢,要用到零寬斷言(zero-width assertions),當然這個詞的翻譯比較直,帶來很多誤解。它其實意思是指定位置的匹配,位置的寬度就是0嘛。
這里我們可以看到我們所需的這個'url'在'location'里面,可以以此為位置信息。
代碼如下:
re.search(’(?<=location).+?'url': '([^']+)'’, string, re.DOTALL).group(1)
稍微解釋一下,(?<=location)這個地方就是指前面得有location。后面有的話這樣寫:(?=location)re.DOTALL這個是必須的,因為這些字符串已經跨行了。他的作用是將.的字符串匹配范圍擴大,包含換行符。'([^']+)'這個地方是我的習慣,[^']意指所有非'的字符,這就匹配了雙引號中所有的字符串。
回答2:這是一段挺標準的json,粗暴一點,直接轉換成json
import jsonstr = ’’’<script type='application/ld+json'>{ '@context': 'http://schema.org', '@type': 'SaleEvent', 'name': '10% Off First Orders', 'url': 'https://www.myvouchercodes.co.uk/coggles', 'image': 'https://mvp.tribesgds.com/dyn/oh/Ow/ohOwXIWglMg/_/mQR5xLX5go8/m0Ys/coggles-logo.png', 'startDate': '2017-02-17', 'endDate': '2017-12-31', 'location': {'@type': 'Place','name': 'Coggles','url': 'coggles.co.uk','address': 'Coggles' }, 'description': 'Get the top branded fashion items from Coggles at discounted prices. Apply this code and enjoy savings on your purchase.', 'eventStatus': 'EventScheduled'}</script>’’’d = json.loads(re.search(’({[sS]*})’, str).group(1))print d[’location’][’url’]
相關文章:
1. javascript - vscode alt+shift+f 格式化js代碼,通不過eslint的代碼風格檢查怎么辦。。。2. javascript - 如何將一個div始終固定在某個位置;無論屏幕和分辨率怎么變化;div位置始終不變3. html5 - 有可以一次性把所有 css外部樣式轉為html標簽內style=" "的方法嗎?4. javascript - 有什么比較好的網頁版shell前端組件?5. java - 如何寫一個intellij-idea插件,實現編譯時修改源代碼的目的6. javascript - 原生canvas中如何獲取到觸摸事件的canvas內坐標?7. java 中Long 類型如何轉換成Double?8. javascript - 求解答:實例對象調用constructor,此時constructor內的this的指向?9. html - vue項目中用到了elementUI問題10. javascript - [js]為什么畫布里不出現圖片呢?在線等
