程序员最近都爱上了这个网站  程序员们快来瞅瞅吧!  it98k网:it98k.com

本站消息

站长简介/公众号

  出租广告位,需要合作请联系站长


+关注
已关注

分类  

暂无分类

标签  

暂无标签

日期归档  

暂无数据

抓取问题(data-reactid)

发布于2022-05-19 07:39     阅读(410)     评论(0)     点赞(13)     收藏(1)


我正在尝试抓取网站并根据我提取的数据编译电子表格。
我要抓取的网站是WEARVR
我对抓取没有太多经验,但我的方法是在 html 标签中找到独特的属性,然后用它来抓取我想要的东西。
因此,对于这个网站,我的方法是首先抓取您在单击其中一种体验时被带到的页面的 URL 列表,例如:https ://www.wearvr.com/#game_id=game_1041 ,
然后其次,循环遍历这个列表,每次都刮取相关属性。但是,我被困在第一步,因为我没有使用简单的“a href”标签,而是遇到了混淆问题的“data-reactid”标签。

我使用 iMacros 进行抓取,但我现在在 Java 方面相当不错,因此如果需要,我会学习 Java 抓取(这似乎很可能因为 iMacros 非常有限)。

我的问题是,这些“data-reactid”标签是如何工作的,因此我如何将它们用于我的抓取目的?

此外,如果这是一个 XY 问题,请告诉我并提出更好的方法。

谢谢阅读!


解决方案


处理抓取的最简单方法是将页面视为一个大字符串(因为最终,它就是这样)。您可以在该字符串中搜索某些内容(例如 href=)以获取链接。您还可以明智地假设 a 标签中的任何内容都与链接相关并抓住它。

您实际上不必了解 HTML,也不必了解页面或任何其他 css 或标记是如何工作的,您只需要确定您想要的文本周围有哪些可识别的字符串组合。我会说这可能比使用 IMacro 更容易在 Java 中实现,并且可能更准确。

您可以处理它的另一种方法(需要更多的 HTML 和 XML 知识)是将整个页面视为 XML 文档。这...并不总是适用于 HTML,特别是如果它较旧或格式不正确,因此字符串方法更容易。您可以从现有的各种 XML 地图库中获得一些实用程序,但除此之外,它与上述类似。



所属网站分类: 技术文章 > 问答

作者:黑洞官方问答小能手

链接:http://www.javaheidong.com/blog/article/442844/02cf24675e3ff9e06dc3/

来源:java黑洞网

任何形式的转载都请注明出处,如有侵权 一经发现 必将追究其法律责任

13 0
收藏该文
已收藏

评论内容:(最多支持255个字符)