发布于2022-05-19 07:39 阅读(410) 评论(0) 点赞(13) 收藏(1)
我正在尝试抓取网站并根据我提取的数据编译电子表格。
我要抓取的网站是WEARVR。
我对抓取没有太多经验,但我的方法是在 html 标签中找到独特的属性,然后用它来抓取我想要的东西。
因此,对于这个网站,我的方法是首先抓取您在单击其中一种体验时被带到的页面的 URL 列表,例如:https ://www.wearvr.com/#game_id=game_1041 ,
然后其次,循环遍历这个列表,每次都刮取相关属性。但是,我被困在第一步,因为我没有使用简单的“a href”标签,而是遇到了混淆问题的“data-reactid”标签。
我使用 iMacros 进行抓取,但我现在在 Java 方面相当不错,因此如果需要,我会学习 Java 抓取(这似乎很可能因为 iMacros 非常有限)。
我的问题是,这些“data-reactid”标签是如何工作的,因此我如何将它们用于我的抓取目的?
此外,如果这是一个 XY 问题,请告诉我并提出更好的方法。
谢谢阅读!
处理抓取的最简单方法是将页面视为一个大字符串(因为最终,它就是这样)。您可以在该字符串中搜索某些内容(例如 href=)以获取链接。您还可以明智地假设 a 标签中的任何内容都与链接相关并抓住它。
您实际上不必了解 HTML,也不必了解页面或任何其他 css 或标记是如何工作的,您只需要确定您想要的文本周围有哪些可识别的字符串组合。我会说这可能比使用 IMacro 更容易在 Java 中实现,并且可能更准确。
您可以处理它的另一种方法(需要更多的 HTML 和 XML 知识)是将整个页面视为 XML 文档。这...并不总是适用于 HTML,特别是如果它较旧或格式不正确,因此字符串方法更容易。您可以从现有的各种 XML 地图库中获得一些实用程序,但除此之外,它与上述类似。
作者:黑洞官方问答小能手
链接:http://www.javaheidong.com/blog/article/442844/02cf24675e3ff9e06dc3/
来源:java黑洞网
任何形式的转载都请注明出处,如有侵权 一经发现 必将追究其法律责任
昵称:
评论内容:(最多支持255个字符)
---无人问津也好,技不如人也罢,你都要试着安静下来,去做自己该做的事,而不是让内心的烦躁、焦虑,坏掉你本来就不多的热情和定力
Copyright © 2018-2021 java黑洞网 All Rights Reserved 版权所有,并保留所有权利。京ICP备18063182号-2
投诉与举报,广告合作请联系vgs_info@163.com或QQ3083709327
免责声明:网站文章均由用户上传,仅供读者学习交流使用,禁止用做商业用途。若文章涉及色情,反动,侵权等违法信息,请向我们举报,一经核实我们会立即删除!