易语言开发-抓取网页链接

发布时间:2021-10-14 08:34:23 浏览量:2782 标签: 易语言

简单的介绍一下易语言,易语言(EPL)是一门以中文作为程序代码编程语言,其以“易”著称,创始人为吴涛。易语言早期版本的名字为E语言。其最早的版本的发布可追溯至2000年9月11日。更多的内容可以自己查阅一下资料。


一、易语言编辑器安装

前往官网下载最新版本的易语言编辑器(21年10月14日最新版本为5.93),将压缩包解压,双击安装。很简单的不多说了。


二、功能脉络梳理

输入网址、点击触发按钮、获取网页源代码、正则解析网址、展现网址。


三、页面布局


image.png


四、代码编写

.版本 2
.支持库 RegEx
.支持库 iconv
.支持库 internet
.支持库 iext

.程序集 窗口程序集_启动窗口

.子程序 _开始_被单击
.局部变量 句柄, 整数型
.局部变量 转换结果, 字节集
.局部变量 成功标记, 逻辑型
.局部变量 代码, 文本型
.局部变量 正则, 正则表达式
.局部变量 搜索结果, 搜索结果, , "0"
.局部变量 局_计次, 整数型
.局部变量 链接, 文本型
.局部变量 标识, 文本型
.局部变量 开始数, 整数型


.如果真 (取反 (域名输入框.内容 ≠ “”))
    信息框 (“请输入域名”, 16, , )
.如果真结束

进度.内容 = “开始抓取内容”
' 避免出现乱码情况
进度.内容 = “开始转码”
句柄 = 编码转换_打开 (#编码_UTF_8, #编码_GBK)
转换结果 = 编码转换_转换 (句柄, HTTP读文件 (域名输入框.内容), 成功标记)
编码转换_关闭 (句柄)
代码 = 到文本 (转换结果)
进度.内容 = “正则提取链接”
' 正则提取链接
正则.创建 (“a href=” + #引号 + “(.*?)” + #引号, 假)
开始数 = 1
搜索结果 = 正则.搜索全部 (代码)
.计次循环首 (取数组成员数 (搜索结果), 局_计次)
    域名数据集.插入表项 (, , , , , )
    链接 = 搜索结果 [局_计次].取子匹配文本 (代码, 1, )
    标识 = 取文本左边 (链接, 4)
    .如果真 (标识 ≠ “http”)
        链接 = 域名输入框.内容 + 链接
    .如果真结束
    .如果真 (寻找文本 (链接, 域名输入框.内容, , 假) ≠ -1)
        域名数据集.置标题 (局_计次 - 1, 1, 链接)
        域名数据集.置标题 (开始数 - 1, 0, 到文本 (开始数))
        开始数 = 开始数 + 1
    .如果真结束

.计次循环尾 ()
进度.内容 = “运行完成”


备注:链接地址未去重、去空。


评论
登录后才可以进行评论哦! QQ登录
验证码
评论内容