java黑洞网首页博客问答站长公众号 pdf 视频游戏脚本实战其它资源

写博客注册

程序员最近都爱上了这个网站程序员们快来瞅瞅吧！ it98k网:it98k.com

本站消息

站长简介/公众号

出租广告位,需要合作请联系站长

黑洞官方问答小能手

609358

文章

309200688

访问

+关注

分类

暂无分类

标签

日期归档

暂无数据

抓取问题（data-reactid）

发布于2022-05-19 07:39 阅读(410) 评论(0) 点赞(13) 收藏(1)

我正在尝试抓取网站并根据我提取的数据编译电子表格。
我要抓取的网站是WEARVR。
我对抓取没有太多经验，但我的方法是在 html 标签中找到独特的属性，然后用它来抓取我想要的东西。
因此，对于这个网站，我的方法是首先抓取您在单击其中一种体验时被带到的页面的 URL 列表，例如：https ://www.wearvr.com/#game_id=game_1041 ，
然后其次，循环遍历这个列表，每次都刮取相关属性。但是，我被困在第一步，因为我没有使用简单的“a href”标签，而是遇到了混淆问题的“data-reactid”标签。

我使用 iMacros 进行抓取，但我现在在 Java 方面相当不错，因此如果需要，我会学习 Java 抓取（这似乎很可能因为 iMacros 非常有限）。

我的问题是，这些“data-reactid”标签是如何工作的，因此我如何将它们用于我的抓取目的？

此外，如果这是一个 XY 问题，请告诉我并提出更好的方法。

谢谢阅读！

解决方案

处理抓取的最简单方法是将页面视为一个大字符串（因为最终，它就是这样）。您可以在该字符串中搜索某些内容（例如 href=）以获取链接。您还可以明智地假设 a 标签中的任何内容都与链接相关并抓住它。

您实际上不必了解 HTML，也不必了解页面或任何其他 css 或标记是如何工作的，您只需要确定您想要的文本周围有哪些可识别的字符串组合。我会说这可能比使用 IMacro 更容易在 Java 中实现，并且可能更准确。

您可以处理它的另一种方法（需要更多的 HTML 和 XML 知识）是将整个页面视为 XML 文档。这...并不总是适用于 HTML，特别是如果它较旧或格式不正确，因此字符串方法更容易。您可以从现有的各种 XML 地图库中获得一些实用程序，但除此之外，它与上述类似。

2022年最受欢迎的8大编程语言

为什么都说程序员找不到女朋友，但是身边程序猿的却没一个单身的

30岁以上你还死磕技术，别说拿高薪，可能你连饭碗都会保不住

程序员被开除，老板：“有你参与的项目全黄了！”

笑话：一个测试工程师走进一家酒吧

趣图：程序员头疼的4种原因

笑话：面试官：请拿出一段体现你水平的代码。我： sudo rm -rf /*面试官：这体现了你哪方面能力？

java精选：SSO单点登录】JWT入门概述&&残留的安全问题

网友说：做开发，不被领导喜欢怎么办？

网友说：我奉劝各位，一定不能在职场透露自己的家庭条件

所属网站分类: 技术文章 > 问答

作者：黑洞官方问答小能手

链接：http://www.javaheidong.com/blog/article/442844/02cf24675e3ff9e06dc3/

来源：java黑洞网

任何形式的转载都请注明出处,如有侵权一经发现必将追究其法律责任

13 0

收藏该文

昵称:

评论内容：(最多支持255个字符)

---无人问津也好，技不如人也罢，你都要试着安静下来，去做自己该做的事，而不是让内心的烦躁、焦虑，坏掉你本来就不多的热情和定力

程序员的那些事(new) 更多>

2022年最受欢迎的8大编程语言

为什么都说程序员找不到女朋友，但是身边程序猿的却没一个单身的

30岁以上你还死磕技术，别说拿高薪，可能你连饭碗都会保不住

程序员被开除，老板：“有你参与的项目全黄了！”

笑话：一个测试工程师走进一家酒吧

趣图：程序员头疼的4种原因

笑话：面试官：请拿出一段体现你水平的代码。我： sudo rm -rf /*面试官：这体现了你哪方面能力？

java精选：SSO单点登录】JWT入门概述&&残留的安全问题

网友说：做开发，不被领导喜欢怎么办？

网友说：我奉劝各位，一定不能在职场透露自己的家庭条件

电子书(new)

java jdk8 学习笔记

深入剖析Tomcat pdf下载

Java与模式 pdf下载

深入理解Java虚拟机：JVM高级特性与最佳实践(第2版) pdf 下载

数据结构与算法分析：Java语言描述(原书第3版) pdf 下载

Java并发编程实战中文版 PDF扫描版[9MB]

数据结构与算法分析：Java语言描述(原书第3版) 中文完整pdf扫描版[47MB] 附源码

Hadoop权威指南 pdf下载

重构改善既有代码的设计 pdf下载

JAVA编程思想 pdf下载

脚本(new)

输入一个数据n，计算斐波那契数列(Fibonacci)的第n个值

求 a+aa+aaa+.......+aaaaaaaaa=?

输出所有的水仙花数，把谓水仙花数是指一个数3位数，其各各位数字立方和等于其本身，

利用for循环打印 9*9 表?

编写程序求 1+3+5+7+……+99 的和值。

给定一个百分制的分数，输出相应的等级

编写程序，判断给定的某个年份是否是闰年

一些有趣的java小程序

菱形的图形生成器，2到100以内的质数-java实用小程序

java代码游戏编写

博客(new)

Android Studio App开发实战项目之广告轮播（附源码可用于大作业）

【Java 基础】Java SPI 二之 Java APT原理及APT实战 - 一步步教你写ButterKnife

Android程序设计之音乐播放器实现

原力计划

学生管理系统（Java实现）

书评 | 《深入理解高并发编程：JDK核心技术》

springboot整合sharding-jdbc实现分库分表详解

【熬夜送书 | 第三期】清华社赞助 | 《Java系列丛书》

Spring Security 6 配置方法，废弃 WebSecurityConfigurerAdapter

原力计划

视频教程(new)

由浅入深，全面解析ThreadLocal

超全面讲解Spring Cloud Alibaba技术栈，java视频教程下载

三天全面系统学习ZooKeeper

2020年JavaSE强化系列教程泛型全剖析，java视频教程下载

详讲编码与解码，灵活解决乱码难题，java 视频教程下载

2020年抗疫之作java基础进阶13天

系统学习让你轻松定义java类加载器-java视频教程下载

真小白福音，完全从0带你掌握计算机与编程基础

java零基础入门到精通（2019版）

2020JAVA基础-深入系统的学习数据结构与算法

项目实战(new)

JSP+SSM+Mysql实现的学生成绩管理系统

JSP+Structs+JDBC+mysql实现的诚欣电子商城

JSP+SSH+Mysql+DBCP实现的租车系统

博客系统java项目

这是一个在线考试系统,java项目实战源码下载

简单状态机

Java Web编程课程中开发的项目

银行账户项目样本用Java完成的一个简单项目

一个使用Java开发在线概述用户管理平台

JAVAWeb项目 JAVA-WEB开发的一些练手项目，这些也适合初学者进行练习

问答(new)

启动一个使用Rapid miner的java项目

如何通过 Apache POI 3.9 从 xls/xlsx 读取时间格式？

如何将自定义菜单栏项放置在地图菜单中的所需位置

我们如何在 Jess 规则中从终端选择默认值

无法在远程系统上使用 Windows 身份验证连接到 MS sql 服务器

Spring - 如何选择依赖bean的属性？

Java - MousePress Hold 和 Release 事件侦听器

将分页与 Struts 2 和 Hibernate 一起使用

Java：运动，需要放慢速度

如何正确调用同一个类中的方法内的方法？

游戏(new)

2人对战游戏，java游戏

java小游戏-数学英雄

java游戏-蛙人

经典骰子游戏,java游戏源码下载

一些java小游戏

java小游戏-抓住这只球

二十一点，java小游戏源码下载

java小游戏集合下载

java五子棋游戏源码下载

java贪吃蛇游戏

其他资源(new)

某公司的雇员分为以下若干类： Employee：这是所有员工总的父类，属性：员工的姓名和生日月份。方法：getSalary(int month) 根据参数月份来确定工资，如果该月员工过生日，

判断随机整数是否是素数产生100个0-999之间的随机整数，然后判断这100个随机整数哪些是素数，哪些不是？

完成九宫格程序

. 定义一个int型的一维数组，包含10个元素，分别赋一些随机整数，然后求出所有元素的最大值

歌德巴赫猜想,任何一个大于六的偶数可以拆分成两个质数的和

在屏幕上打印出n行的金字塔图案，如，若n=5,则图案如下

计算圆周率

利用程序输出如下图形:

求 2/1+3/2+5/3+8/5+13/8.....前20项之和？

Nutch入门教程 pdf下载