Tech、Food & Life

  • 首页
  • 软件下载
    • 电脑和软件
    • Mac软件
    • windows软件
  • Telegram电报
  • 网站资源推荐
  • 海外流媒体
    • netflix
    • Youtube
    • Disney+
    • HBO
  • 生活日常
    • COVID19疫情相关
    • 德国驾照和车
    • 电脑和软件
    • 花花草草
  • 烘焙
  • 关于我
Tech Food & Life
爱技术,爱美食,爱生活
  1. 首页
  2. 生活日常
  3. 电脑和软件
  4. 正文

自己动手写PTCMS小说采集规则

2021年3月10日 3649点热度 2人点赞 0条评论

本文参考了PTCMS官方文档和唯一度博客的原创教程,添加了一点点自己的心得。


准备

运行环境:CentOS7+Nginx 1.19+PHP7.3+MySQL AliSQL

程序源码:PTCMS_V4.3.0(Build 20200910)

注:本教程只讲解采集规则,程序源码以及如何安装请“百度一下”。

 

 

在chrome浏览器里,按ctrl+U即可查看html文件的内容。

 

常用正则表达:

'[内容]' => '(.*?)',就是我们需要获取的东西

'[数字]' => '\d*',这是纯数字

'[空白]' => '\s*',这是用在换行的地方,包括换行、空格、\r \n

'[任意]' => '.*?',这就是任意字符

'[参数]' => '[^\>\<]*?',这是html代码中的参数 如alt="标题" 这样的

'[属性]' => '[^\>\<\'"]*?',这是html代码中参数的属性 对于上述例子中的alt="标题" ,可以代替标题

注:如果想要获取内容就需要在正则表达示外加括号(英文状态下的),比如(.*?) 、(\d*),括号同时只能存在一个。

注意:加粗的部分非常重要,其实我们采集最主要的表达式就是[内容]和[数字]

 

以https://www.txtbook.org/shuku/0_all_0_0_0_0_2_0_1.html为例讲解

 

一、先找一个你想采集的网站,这里我也以唯一度博客所用的txtbook.org为例,先在站点管理那里添加站点。注意添加新书那里一定要打开。

二、采集规则详细步骤

1、添加规则(规则管理-->添加);

2、规则名称根据实际情况填写;

3、所属站点选择上面添加的;其它默认就可以。

5、更新列表规则

通过分析得出如下规则

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

6、小说名称

根据“唯一”原则找到

分析这段代码获取我需要的数据,写规则;

方法一:

方法二:

这两种方法的区别在于方法需要替换掉《》,我用了方法二。

 

 

 

 

 

 

 

7、小说书号

分析代码

规则

\d* 表示纯数字,(\d*)表达我们要获取这里数字。

 

8、信息页地址

根据URL分析,是https://www.txtbook.org/book/+书号。

在官方教程文档中有相应的参数,

[subnovelid] == 分类ID

[novelid] == 小说ID

[chapterid] == 章节ID

 

 

8、小说名称、小说作者、小说封面、小说分类、小说简介、小说进度

这些规则都很好找不再多写,直接看下面图片。主要说一下小说进度,也是这次为什么用这个网站作为案例讲解的原因。

在源代码查到不到连载,通过小说图片左上角的“连载中”小图标找到代码

再找一本完结的小说对比一下
然后我们获取1、2再进行规则替换

 

 

 

 

 

 

 

 

 

 

 

 

 

9、通过上面学习之后,章节以及内容就很容易写了。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

最后附上写好的采集规则:

ptcms_电子书_202103101809

标签: 暂无
最后更新:2021年3月10日

sunqi.org

这个人很懒,什么都没留下

点赞
下一篇 >

文章评论

razz evil exclaim smile redface biggrin eek confused idea lol mad twisted rolleyes wink cool arrow neutral cry mrgreen drooling persevering
取消回复

COPYRIGHT © 2020-2025 SUNQI.ORG ALL RIGHTS RESERVED. 本站部分资源来源于网络,如有侵权请联系删除,谢谢。

Theme Kratos Made By Seaton Jiang