提取url中的信息,可以使用python中的urlparse模块进行解析,但是有个缺陷是无法提取顶级域名。参考博文:
https://blog.csdn.net/weixin_44799217/article/details/124591187
提取较为复杂的url信息,还可以使用tld模块。
安装方法:
通过tld模块可以提取一个url中的顶级域名(不包含后缀部分)、顶级域名(包含后缀部分)、域名后缀和子域名部分(不含后缀)。
注意:
使用tld模块时,域名中必须包含协议(HTTP等),否则会报错。
示例代码1:
import tld
url1 = 'www.baidu.com/test/index.php?username=dgw'
url2 = 'http://www.baidu.com/test/index.php?username=dgw'
ret = tld.get_fld(url1)
print(ret)
示例代码2:
import tld
url1 = 'www.baidu.com/test/index.php?username=dgw'
url2 = 'http://www.baidu.com/test/index.php?username=dgw'
ret = tld.get_fld(url2)
print(ret)
示例代码3:
import tld
url = 'http://www.baidu.com/test/index.php?username=dgw'
ret = tld.get_tld(url, as_object=True)
print(ret)
print(ret.domain)
print(ret.extension)
print(ret.fld)
print(ret.subdomain)
print(ret.suffix)
详见tld库:
tld · PyPI
提取url中的信息,可以使用python中的urlparse模块进行解析,但是有个缺陷是无法提取顶级域名。参考博文:https://blog.csdn.net/weixin_44799217/article/details/124591187提取较为复杂的url信息,还可以使用tld模块。安装方法::通过tld模块可以提取一个url中的顶级域名(不包含后缀部分)、顶级域名(包含后缀部分)、域名后缀和子域名部分(不含后缀)。注意:使用tld模块时,域名中...
http://www.baidu.com
后缀
支持:
".com", ".cn", ".com.cn", ".gov", ".net", ".edu.cn", ".net.cn", ".org.cn", ".co.jp", ".gov.cn",
".co.uk", "ac.cn", ".edu", ".tv",".info", ".ac", ".ag", ".am", ".at", ".be", ".biz", ".bz",
".cc", ".de", ".es", ".eu", ".fm", ".gs", ".hk", ".in", ".info", ".io", ".it", ".jp", ".la",
".md", ".ms", ".name", ".nl", ".nu", ".org", ".pl", ".ru", ".sc", ".se", ".sg", ".sh", ".tc",
".tk", ".tv", ".tw", ".us", ".co",".uk", ".vc", ".vg", ".ws", ".il", ".li", ".nz"
from
url
lib.parse import
url
parse
#
url
= "http://photographs.500px.com/kyle/09-09-201315-47-571378756077.jpg"
#
url
= "https://img1.baidu.com/it/u=1845235267,872385921&fm=26&fmt=auto&gp=0.jpg"
In [2]: str = "http://www.baidu.com/"
In [3]: regular = re.compile(r'[a-zA-Z]+://[^\s]*[.com|.cn]')
In [4]: re.findall(regular, str) ...
https://google.com/#q=express
http://www.bing.com/search?q=grunt&first=9
http://localhost:3000/about?test=1#history
URL
由协议+主机名/
域名
+端口+路径+查询字符串+信息片段组成。
协议:协议确定如何传输请求。我们主要是处理http和https。...
**第一种方法:**查找到最后一个/的位置,从该位置的下一个字符切片直到末尾。
start =
url
.rindex(’/’)
#find和index函数可以正向查找,并返回首次出现该字符的位置。而rfind和rindex则是从末尾往前查找。
name =
url
[start+1:]
#切片到字符串结尾,冒号后不需要写参数。
**第二种方法:**以’/...
如果要
使用
Python
提取
DWG 文件
中
的坐标信息,你需要
使用
专业的 CAD 读取工具,例如 Autodesk AutoCAD、Teigha File Converter 等。这些工具可以将 DWG 文件转换成其他可读格式,如 DXF、PDF 等,然后再
使用
Python
读取其
中
的坐标信息。
如果你想直接读取 DWG 文件,可以
使用
ezdxf 库,它是一个开源的
Python
库,可以读写 DWG 文件。它的用法非常简单,你可以参考以下代码
提取
DWG 文件
中
的坐标信息:
import ezdxf
# 打开 DWG 文件
dwg = ezdxf.readfile("sample.dwg")
# 获取图形模型
modelspace = dwg.modelspace()
# 遍历图形模型
中
的所有图形
for entity in modelspace:
# 判断是否是线段
if entity.dxftype() == 'LINE':
#
提取
线段的起点坐标和终点坐标
start_point = entity.dxf.start
end_point = entity.dxf.end
print("Start Point:", start_point)
print("End Point:", end_point)
请注意,如果你要
使用
ezdxf 库,请先安装它,可以
使用
以下命令安装:
pip install ezdxf