提取url中的信息,可以使用python中的urlparse模块进行解析,但是有个缺陷是无法提取顶级域名。参考博文: https://blog.csdn.net/weixin_44799217/article/details/124591187

提取较为复杂的url信息,还可以使用tld模块。

安装方法:

通过tld模块可以提取一个url中的顶级域名(不包含后缀部分)、顶级域名(包含后缀部分)、域名后缀和子域名部分(不含后缀)。

注意: 使用tld模块时,域名中必须包含协议(HTTP等),否则会报错。

示例代码1:

import tld
url1 = 'www.baidu.com/test/index.php?username=dgw'
url2 = 'http://www.baidu.com/test/index.php?username=dgw'
ret = tld.get_fld(url1)
print(ret)

示例代码2:

import tld
url1 = 'www.baidu.com/test/index.php?username=dgw'
url2 = 'http://www.baidu.com/test/index.php?username=dgw'
ret = tld.get_fld(url2)
print(ret)

示例代码3:

import tld
url = 'http://www.baidu.com/test/index.php?username=dgw'
ret = tld.get_tld(url, as_object=True)
print(ret)
print(ret.domain)
print(ret.extension)
print(ret.fld)
print(ret.subdomain)
print(ret.suffix)

详见tld库: tld · PyPI

提取url中的信息,可以使用python中的urlparse模块进行解析,但是有个缺陷是无法提取顶级域名。参考博文:https://blog.csdn.net/weixin_44799217/article/details/124591187提取较为复杂的url信息,还可以使用tld模块。安装方法::通过tld模块可以提取一个url中的顶级域名(不包含后缀部分)、顶级域名(包含后缀部分)、域名后缀和子域名部分(不含后缀)。注意:使用tld模块时,域名中... http://www.baidu.com 后缀 支持: ".com", ".cn", ".com.cn", ".gov", ".net", ".edu.cn", ".net.cn", ".org.cn", ".co.jp", ".gov.cn", ".co.uk", "ac.cn", ".edu", ".tv",".info", ".ac", ".ag", ".am", ".at", ".be", ".biz", ".bz", ".cc", ".de", ".es", ".eu", ".fm", ".gs", ".hk", ".in", ".info", ".io", ".it", ".jp", ".la", ".md", ".ms", ".name", ".nl", ".nu", ".org", ".pl", ".ru", ".sc", ".se", ".sg", ".sh", ".tc", ".tk", ".tv", ".tw", ".us", ".co",".uk", ".vc", ".vg", ".ws", ".il", ".li", ".nz" from url lib.parse import url parse # url = "http://photographs.500px.com/kyle/09-09-201315-47-571378756077.jpg" # url = "https://img1.baidu.com/it/u=1845235267,872385921&fm=26&fmt=auto&gp=0.jpg" In [2]: str = "http://www.baidu.com/" In [3]: regular = re.compile(r'[a-zA-Z]+://[^\s]*[.com|.cn]') In [4]: re.findall(regular, str) ... https://google.com/#q=express http://www.bing.com/search?q=grunt&first=9 http://localhost:3000/about?test=1#history URL 由协议+主机名/ 域名 +端口+路径+查询字符串+信息片段组成。 协议:协议确定如何传输请求。我们主要是处理http和https。... **第一种方法:**查找到最后一个/的位置,从该位置的下一个字符切片直到末尾。 start = url .rindex(’/’) #find和index函数可以正向查找,并返回首次出现该字符的位置。而rfind和rindex则是从末尾往前查找。 name = url [start+1:] #切片到字符串结尾,冒号后不需要写参数。 **第二种方法:**以’/...
如果要 使用 Python 提取 DWG 文件 的坐标信息,你需要 使用 专业的 CAD 读取工具,例如 Autodesk AutoCAD、Teigha File Converter 等。这些工具可以将 DWG 文件转换成其他可读格式,如 DXF、PDF 等,然后再 使用 Python 读取其 的坐标信息。 如果你想直接读取 DWG 文件,可以 使用 ezdxf 库,它是一个开源的 Python 库,可以读写 DWG 文件。它的用法非常简单,你可以参考以下代码 提取 DWG 文件 的坐标信息: import ezdxf # 打开 DWG 文件 dwg = ezdxf.readfile("sample.dwg") # 获取图形模型 modelspace = dwg.modelspace() # 遍历图形模型 的所有图形 for entity in modelspace: # 判断是否是线段 if entity.dxftype() == 'LINE': # 提取 线段的起点坐标和终点坐标 start_point = entity.dxf.start end_point = entity.dxf.end print("Start Point:", start_point) print("End Point:", end_point) 请注意,如果你要 使用 ezdxf 库,请先安装它,可以 使用 以下命令安装: pip install ezdxf