宿迁腾云网络网站建设公司

腾云网络 八年经验专注网站建设
  • 首页
  • 服务项目
    • 网站建设
    • 微信小程序
    • APP开发
    • SEO优化
  • 建站费用
  • 成功案例
    • 网站建设案例
    • 小程序案例
    • APP开发案例
    • SEO优化案例
  • 行业动态
    • 网站建设
    • SEO优化
    • 技术日志
  • 联系我们
    • 关于我们
首页 > 行业动态 > 技术日志 > php采集代码前几天做了个小说连载的程序,抓取别人网页内容php采集百度新闻标题

php采集代码前几天做了个小说连载的程序,抓取别人网页内容php采集百度新闻标题

2022-04-10

收集器,通常称为小偷程序,主要用于抓取他人网页的内容。关于集热器的制作,其实并不难。就是远程打开要采集的网页,然后用正则表达式匹配需要的内容。只要你有一点基本的正则表达式,你就可以制作自己的收集器。.

前几天,做了一个小说连载程序。因为怕更新麻烦,顺便写了个收集器收集八通中文网。功能比较简单,不能自定义规则。你可以自己扩展。

使用php作为收集器主要使用()和()两个函数,前者是远程读取网页内容,但只能在php5以上版本使用网站模板,后者是常规函数,用于提取所需的内容。

下面逐步介绍功能实现。

因为是小说合集,所以必须先提取出书名、作者、体裁,其他信息可以根据需要提取。

这里是《回归明朝当太子》的目标,首先打开参考书目页面,链接:

再翻几本书,你会发现书名的基本格式是:ISBN/.aspx,所以我们可以做一个起始页,定义一个,用它来输入要收藏的书号。以后可以用$['']等格式接收需要收藏的书号。收到书号后,接下来就是构建书目页面:$url=$['']/.aspx,当然这里是个例子,主要是为了解释方便,最好查一下$['' ] 合法性。

构建好 URL 后,就可以开始收集图书信息了。使用()函数打开参考书目页面:$=($url),这样就可以读出参考书目页面的内容了。下一步是匹配标题、作者和流派等信息。这里以书名为例网站制作,其他都一样。打开参考书目页面,查看源文件,找到《回明为王》,这是要提取的书名。正则表达式提取书名:/(.*?)\/is,使用()函数提取书名:("/(.*?)\/is",$,$); 所以 $[0] [0] 的内容就是我们想要的标题(函数的用法可以百度查到,这里就不详细解释了)。取出图书信息后,下一步是取章节的内容。取章节内容,首先要找到每一章节的地址,然后远程打开章节,使用正则取出内容php采集代码,存入库或者直接生成html静态文件。这是章节列表的地址: 可以看到这个和参考书目页面一样,可以定期找到:分类号/书号/List.shtm。之前已经获得了书号。这里的关键是找到分类号。分类号可以在之前的参考书目页面上找到。提取分类号:存入库或直接生成html静态文件。这是章节列表的地址: 可以看到这个和参考书目页面一样,可以定期找到:分类号/书号/List.shtm。之前已经获得了书号。这里的关键是找到分类号。分类号可以在之前的参考书目页面上找到。提取分类号:存入库或直接生成html静态文件。这是章节列表的地址: 可以看到这个和参考书目页面一样php采集代码,可以定期找到:分类号/书号/List.shtm。之前已经获得了书号。这里的关键是找到分类号。分类号可以在之前的参考书目页面上找到。提取分类号:

("/Html\/Book\/[0-9]{1,}\/[0-9]{1,}\/List\.shtm/is",$,$); 这还不够,还需要一个 cut 函数:

php采集代码前几天做了个小说连载的程序,抓取别人网页内容php采集百度新闻标题(图1)

[复制PHP代码] [-] PHP代码如下:

引用如下:

切($,$,$end){

$ = ($,$);

$ = ($end,$[1]); $[0];} 其中$是要剪切的内容,$是开头,$end是结尾。取出分类号:

$ = "HTML/书/";

$结束

= "列表.shtm";

$ = cut($[0][0],$,$end);

php采集代码前几天做了个小说连载的程序,抓取别人网页内容php采集百度新闻标题(图2)

$ = ("/",$);[/php]

这样,$[0] 就是我们要找的分类号。下一步是构造章节列表的地址:$ = $[0]/$['']/List.shtm。有了这个,你可以找到每一章的地址。方法如下:

引用如下:

$ = "\"";

$uend

= "\"";

//t的缩写

$ = ">";

$倾向于

= "

Tag: 采集 书名 章节
网站制作公众号

宿迁腾云网络网站建设公司 | 网站开发 | 网站制作 | 网站优化

咨询电话:13160355545

上一篇

返回栏目

下一篇

免责声明:本站所有文章和图片均来自用户分享和网络收集,文章和图片版权归原作者及原出处所有,仅供学习与参考,请勿用于商业用途,如果损害了您的权利,请联系网站客服处理。

热推

  • 潍坊“双招双引”硕果累累大项目频频签约
  • 360 php防注入代码 慢查询日志操作有什么用?为什么要用它呢?php pdo 防注入
  • 一种编程的思维吗?只不过是指令对应硬件?
  • 编程语言排行榜榜单:Top10编程语言指数走势(2002-2016)
  • 谷歌OS欢迎页面隐含了哪些新线索?(图)
  • php mysql 网站源代码海量精品网站源码免费下载!(92建站网)讲解
  • 完整教程的php框架 PHP的话基于Yii2高级框架的快速开发应用引擎/而生php框架yii教程
  • PHP开源软件开发人员编写单元测试时的常犯错误
  • php app接口开发步骤应用开发需求旺盛,企业、开发者转向低代码(组图)php支付宝app接口开发
  • php面试编程题牛客网在线面试无需下载任何APP,满足多场景面试需求php 笔试编程题

相关

网站后台管理系统php怎么用PHP采集才能快速收录以及关键词

免费php网站模板一键建站+行业内容采集+伪原创+主动推送给

简单php论坛开发免费采集插件怎么安装?站长必备采集工具(组

php采集网站数据
中国互联网信息中心发展状况统计报告(一)

php采集网站数据 中国互联网信息中心发展状况统计报告(一)

智能仪器与仪表综合设计(一):数据采集系统的结构原理

智能仪器与仪表综合设计(一):数据采集系统的结构原理

逛论坛不少,国内的php论坛一般采用Discuz!

php网站两个经典类库可以让你事半功倍,所以PHP工程师必须

如何修复被黑客篡改的网站代码与数据库?入侵迹象与范围评估指南

如何修复被黑客篡改的网站代码与数据库?入侵迹象与范围评估指南

了解常见PHP应用程序安全威胁,掌握6个常见安全性攻击

了解常见PHP应用程序安全威胁,掌握6个常见安全性攻击

微信支付SDK漏洞曝光!谁会用到它?商家必看

标签

seo(1182) 市场营销(661) 网站制作(573) 网站建设(564) 搜索引擎(553) 网站(482) PHP(361) 编程语言(345) 建站(294) 关键词排名优化(267) 网站建设公司(245) 优化(216) seo排名(207) 域名(190) 软件(171) 网站优化(148) 搜索引擎优化(146) 外链(141) 科技(136) 网站关键词(124) 网站排名优化(123) 域名服务器(120) 网站排名(107) 时政(103) 排名优化(95) 搜索引擎收录(93) 网站设计(92) 电子商务(88) 引擎(86) 移动互联网(85) 开发框架(79) 开发(75) 网站服务器(74) 框架(68) 前端开发(68) 网站分析(66) 网站建设方案(65) 关键(64) 流量(63) 源码(62) 百度优化(62) 网站权重(61) 开放源代码(59) seo培训(53) 网页设计(51) 百度(51) php框架(50) 网站建设知识(50) 大数据(50) 谷歌(49)
宿迁腾云网络网站建设公司
网站建设
  • 私人定制
  • 标准模板建站
  • 经济模板建站
精品模板

宿迁腾云网络网站建设公司

联系电话:13160355545

公司地址:江苏省宿迁市丽景湾华庭北门都市花园公寓9楼907

联系邮箱:admin@tyweb.net

全国分站
  • 北京
  • 广东
  • 东莞 广州 中山 深圳 惠州 江门 珠海 汕头 佛山 湛江 河源 肇庆 潮州 清远 韶关 揭阳 阳江 云浮 茂名 梅州 汕尾
  • 山东
  • 济南 青岛 临沂 济宁 菏泽 烟台 泰安 淄博 潍坊 日照 威海 滨州 东营 聊城 德州 莱芜 枣庄
  • 江苏
  • 苏州 徐州 盐城 无锡 南京 南通 连云港 常州 扬州 镇江 淮安 泰州 宿迁
  • 河南
  • 郑州 南阳 新乡 安阳 洛阳 信阳 平顶山 周口 商丘 开封 焦作 驻马店 濮阳 三门峡 漯河 许昌 鹤壁 济源
  • 上海
  • 河北
  • 石家庄 唐山 保定 邯郸 邢台 沧州 秦皇岛 张家口 衡水 廊坊 承德
  • 浙江
  • 温州 宁波 杭州 台州 嘉兴 金华 湖州 绍兴 舟山 丽水 衢州
  • 陕西
  • 西安 咸阳 宝鸡 汉中 渭南 安康 榆林 商洛 延安 铜川
  • 湖南
  • 长沙 邵阳 常德 衡阳 株洲 湘潭 永州 岳阳 怀化 郴州 娄底 益阳 张家界 湘西
  • 重庆
  • 福建
  • 漳州 泉州 厦门 福州 莆田 宁德 三明 南平 龙岩
  • 天津
  • 云南
  • 昆明 红河 大理 文山 德宏 曲靖 昭通 楚雄 保山 玉溪 丽江 临沧 思茅 西双版纳 怒江 迪庆
  • 四川
  • 成都 绵阳 广元 达州 南充 德阳 广安 阿坝 巴中 遂宁 内江 凉山 攀枝花 乐山 自贡 泸州 雅安 宜宾 资阳 眉山 甘孜
  • 广西
  • 贵港 玉林 北海 南宁 柳州 桂林 梧州 钦州 来宾 河池 百色 贺州 崇左 防城港
  • 安徽
  • 芜湖 合肥 六安 宿州 阜阳 安庆 马鞍山 蚌埠 淮北 淮南 宣城 黄山 铜陵 亳州 池州 巢湖 滁州
  • 海南
  • 三亚 海口 琼海 文昌 东方
  • 江西
  • 南昌 赣州 上饶 吉安 九江 新余 抚州 宜春 景德镇 萍乡 鹰潭
  • 湖北
  • 武汉 宜昌 襄樊 荆州 恩施 孝感 黄冈 十堰 咸宁 黄石 仙桃 随州 天门 荆门 潜江 鄂州 神农架
  • 山西
  • 太原 大同 运城 长治 晋城 忻州 临汾 吕梁 晋中 阳泉 朔州
  • 辽宁
  • 大连 沈阳 丹东 辽阳 葫芦岛 锦州 朝阳 营口 鞍山 抚顺 阜新 本溪 盘锦 铁岭
  • 黑龙江
  • 齐齐哈尔 哈尔滨 大庆 佳木斯 双鸭山 牡丹江 鸡西 黑河 绥化 鹤岗 伊春 大兴安岭 七台河
  • 内蒙古
  • 赤峰 包头 通辽 呼和浩特 乌海 鄂尔多斯 呼伦贝尔
  • 贵州
  • 贵阳 黔东 黔南 遵义 黔西 毕节 铜仁 安顺 六盘水
  • 甘肃
  • 兰州 天水 庆阳 武威 酒泉 张掖 陇南 白银 定西 平凉 嘉峪关 临夏 金昌 甘南
  • 青海
  • 西宁 海西 海东 海北 果洛 玉树 黄南
  • 新疆
  • 乌鲁木齐 伊犁 昌吉 石河子 哈密
  • 西藏
  • 拉萨 山南 林芝 日喀则
  • 吉林
  • 长春 白山 白城 延边 松原 辽源 通化 四平
  • 宁夏
  • 银川 吴忠 中卫 石嘴山 固原
SiteMap
网站地图
TAG标签
Copyright © 2017-2025 TYWEB.NET 宿迁腾云网络科技有限公司 ALL RIGHTS RESERVED.   苏ICP备17033535号-1

热门搜索

百度 下载 2025 2024 2026 货源 货货源 虚拟 禅道 报名 金蝶KIS旗舰版
  • 客服

    在线客服

  • 电话

    13160355545

  • 微信

精品模板
建站费用
成功案例
联系我们