易语言开发-抓取网页链接
简单的介绍一下易语言,易语言(EPL)是一门以中文作为程序代码编程语言,其以“易”著称,创始人为吴涛。易语言早期版本的名字为E语言。其最早的版本的发布可追溯至2000年9月11日。更多的内容可以自己查阅一下资料。
一、易语言编辑器安装
前往官网下载最新版本的易语言编辑器(21年10月14日最新版本为5.93),将压缩包解压,双击安装。很简单的不多说了。
二、功能脉络梳理
输入网址、点击触发按钮、获取网页源代码、正则解析网址、展现网址。
三、页面布局
四、代码编写
.版本 2 .支持库 RegEx .支持库 iconv .支持库 internet .支持库 iext .程序集 窗口程序集_启动窗口 .子程序 _开始_被单击 .局部变量 句柄, 整数型 .局部变量 转换结果, 字节集 .局部变量 成功标记, 逻辑型 .局部变量 代码, 文本型 .局部变量 正则, 正则表达式 .局部变量 搜索结果, 搜索结果, , "0" .局部变量 局_计次, 整数型 .局部变量 链接, 文本型 .局部变量 标识, 文本型 .局部变量 开始数, 整数型 .如果真 (取反 (域名输入框.内容 ≠ “”)) 信息框 (“请输入域名”, 16, , ) .如果真结束 进度.内容 = “开始抓取内容” ' 避免出现乱码情况 进度.内容 = “开始转码” 句柄 = 编码转换_打开 (#编码_UTF_8, #编码_GBK) 转换结果 = 编码转换_转换 (句柄, HTTP读文件 (域名输入框.内容), 成功标记) 编码转换_关闭 (句柄) 代码 = 到文本 (转换结果) 进度.内容 = “正则提取链接” ' 正则提取链接 正则.创建 (“a href=” + #引号 + “(.*?)” + #引号, 假) 开始数 = 1 搜索结果 = 正则.搜索全部 (代码) .计次循环首 (取数组成员数 (搜索结果), 局_计次) 域名数据集.插入表项 (, , , , , ) 链接 = 搜索结果 [局_计次].取子匹配文本 (代码, 1, ) 标识 = 取文本左边 (链接, 4) .如果真 (标识 ≠ “http”) 链接 = 域名输入框.内容 + 链接 .如果真结束 .如果真 (寻找文本 (链接, 域名输入框.内容, , 假) ≠ -1) 域名数据集.置标题 (局_计次 - 1, 1, 链接) 域名数据集.置标题 (开始数 - 1, 0, 到文本 (开始数)) 开始数 = 开始数 + 1 .如果真结束 .计次循环尾 () 进度.内容 = “运行完成”
备注:链接地址未去重、去空。