微信扫一扫 分享朋友圈

已有 19 人浏览分享

磁力搜索PHP源码 Python抓取<i></i>

[复制链接]

6406

主题

0

回帖

1万

积分

管理员

积分
14907

最佳新人活跃会员热心会员推广达人宣传达人灌水之王突出贡献优秀版主荣誉管理论坛元老

发表于 2025-5-10 17:02:50 | 显示全部楼层 | 阅读模式
蓝奏云下载百度云下载

百度云提取码为:gqud,建议通过蓝奏云下载,蓝奏云如果失效可选择百度云或联系管理员补更。

  1. ## 开始部署

  2. ### 创建数据库

  3. 创建名为`pan`的数据库,编码设为`utf-8`。然后导入`sql`,完成表的创建。



  4. ### 网站部署

  5. 支持`nginx`,`apache` 服务器。

  6. __apache__ 需要开启 *mod_rewrite* 。

  7. __nginx__  配置如下

  8. ```
  9. location /
  10. {   
  11.         index index.php;
  12.         try_files $uri $uri/ /index.php/$uri;
  13. }
  14. location ~ [^/]\.php(/|$)
  15. {
  16.         fastcgi_pass  127.0.0.1:9000;
  17.         fastcgi_index index.php;
  18.         include fastcgi.conf;
  19.         include pathinfo.conf;
  20. }
  21. ```



  22. ####  配置文件修改

  23. `config.php` 文件修改网站标题,描述等信息

  24. `database.php` 修改数据库账号,密码等信息

  25. > 网站是基于CodeIgniter 框架开发的,如安装,部署,或二次开发有问题,请参考[官网文档]( http://codeigniter.org.cn/user_guide/general/welcome.html)


  26. ### 启动爬虫

  27. 进入 `spider/`目录,修改`spider.py` 中数据库信息。

  28. __如果你是第一次部署,需运行下面命令,完成做种__

  29. ```
  30. python spider.py --seed-user
  31. ```

  32. 上面其实就是抓取百度云热门分享用户的相关信息,然后从他们开始入手爬取数据

  33. 然后运行

  34. ```
  35. python spider.py
  36. ```

  37. 此时爬虫已经开始工作了



  38. ### 安装xunsearch

  39. 目前使用__xunsearch__作为搜索引擎,后面会更换为`elasticsearch`。

  40. 安装过程请参考(不需要安装,PHP SDK,我已经整合到web里了)

  41. http://xunsearch.com/doc/php/guide/start.installation



  42. ### 索引数据
  43. 上面我们完成了爬虫的数据抓取,网站的搭建,但还不能搜索,下面开始最后一步,索引的建立。

  44. 进入 `indexer/`目录,在`indexer.php`中将$prefix,替换为你web的根路径
  45. ```
  46. require '$prefix/application/helpers/xs/lib/XS.php';
  47. ```
  48. 并修改数据库账号密码

  49. 然后运行
  50. ```
  51. python ./index.php
  52. ```
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

0

关注

0

粉丝

6406

主题
  • 微信公众平台

  • 扫描访问手机版

Archiver|手机版|小黑屋|永恒资源网

GMT+8, 2025-7-18 12:00 , Processed in 0.137125 second(s), 32 queries .

Powered by 永恒资源网

Copyright © 2001-2025, Tencent Cloud.