[已解决] power query 网抓时怎么找到真实的地址?

  [复制链接]
查看237158 | 回复176 | 2020-9-16 06:02:20 | 显示全部楼层 |阅读模式
请教各位http://data.eastmoney.com/cjsj/newhouse.html这个网页用power query 网抓时怎么找到真实的地址,实现翻页合并了?
回复

使用道具 举报

非法操作 | 2020-9-16 06:09:21 | 显示全部楼层
首先,关于网抓时怎么找到真实地址,是一个很专业的问题,通常需要比较专业的人员来完成这项任务。
但是,对于你给出的网址,简单看了一下,这个网址里的数据没有做任何的防爬,链接很直接,就是这个:

9915012147541.png
通过Power Query直接读取该链接数据,表格都是现成的,如下图所示:
9915012147542.png
至于多页数据怎么整合,请参考文章:《Excel PQ爬取A股实时信息——多页整合篇
回复

使用道具 举报

michyy | 2020-9-16 06:14:21 | 显示全部楼层
昨晚刚才在练习这个多页抓取,看了几个都较复杂,我把A股的三千多数据全抓了下来
回复

使用道具 举报

kinki_L | 2020-9-16 06:18:21 | 显示全部楼层
通过CHROME很容易就抓到了规则,细看就成,别整些复杂没用的东西
回复

使用道具 举报

paranoid | 2020-9-16 06:25:21 | 显示全部楼层
昨晚刚才在练习这个多页抓取,看了几个都较复杂,我把A股的三千多数据全抓了下来


我一直找不到翻页的,能分享下么
回复

使用道具 举报

玉米卡 | 2020-9-16 06:28:22 | 显示全部楼层
我一直找不到翻页的,能分享下么
  1. let

  2.   函数 = (page)=> Web.Page(Web.Contents("http://data.eastmoney.com/cjsj/newhousepriceindex.aspx?p="& page &"")){0}[Data]

  3. ,

  4.   分页 = {1..5},

  5.   转换为表 = Table.FromList(分页, Splitter.SplitByNothing(), null, null, ExtraValues.Error),

  6.   重命名的列 = Table.RenameColumns(转换为表,{{"Column1", "page"}}),

  7.   更改的类型 = Table.TransformColumnTypes(重命名的列,{{"page", type text}}),

  8.   已添加自定义 = Table.AddColumn(更改的类型, "分页数据", each 函数()),

  9.   #"展开的“分页数据”" = Table.ExpandTableColumn(已添加自定义, "分页数据", {"日期", "城市", "新建住宅价格指数 环比", "新建住宅价格指数 同比", "新建住宅价格指数 定基", "新建商品住宅价格指数 环比", "新建商品住宅价格指数 同比", "新建商品住宅价格指数 定基", "二手住宅价格指数 环比", "二手住宅价格指数 同比", "二手住宅价格指数 定基"}, {"分页数据.日期", "分页数据.城市", "分页数据.新建住宅价格指数 环比", "分页数据.新建住宅价格指数 同比", "分页数据.新建住宅价格指数 定基", "分页数据.新建商品住宅价格指数 环比", "分页数据.新建商品住宅价格指数 同比", "分页数据.新建商品住宅价格指数 定基", "分页数据.二手住宅价格指数 环比", "分页数据.二手住宅价格指数 同比", "分页数据.二手住宅价格指数 定基"})

  10. in

  11.   #"展开的“分页数据”"
复制代码
回复

使用道具 举报

花落无声 | 2020-9-16 06:36:22 | 显示全部楼层
9915012147543.png 不知是不是你想要的数据

  1. let

  2.   函数 = (page)=> Web.Page(Web.Contents("http://data.eastmoney.com/cjsj/newhousepriceindex.aspx?p="& page &"")){0}[Data]

  3. ,

  4.   分页 = {1..5},

  5.   转换为表 = Table.FromList(分页, Splitter.SplitByNothing(), null, null, ExtraValues.Error),

  6.   重命名的列 = Table.RenameColumns(转换为表,{{"Column1", "page"}}),

  7.   更改的类型 = Table.TransformColumnTypes(重命名的列,{{"page", type text}}),

  8.   已添加自定义 = Table.AddColumn(更改的类型, "分页数据", each 函数()),

  9.   #"展开的“分页数据”" = Table.ExpandTableColumn(已添加自定义, "分页数据", {"日期", "城市", "新建住宅价格指数 环比", "新建住宅价格指数 同比", "新建住宅价格指数 定基", "新建商品住宅价格指数 环比", "新建商品住宅价格指数 同比", "新建商品住宅价格指数 定基", "二手住宅价格指数 环比", "二手住宅价格指数 同比", "二手住宅价格指数 定基"}, {"分页数据.日期", "分页数据.城市", "分页数据.新建住宅价格指数 环比", "分页数据.新建住宅价格指数 同比", "分页数据.新建住宅价格指数 定基", "分页数据.新建商品住宅价格指数 环比", "分页数据.新建商品住宅价格指数 同比", "分页数据.新建商品住宅价格指数 定基", "分页数据.二手住宅价格指数 环比", "分页数据.二手住宅价格指数 同比", "分页数据.二手住宅价格指数 定基"})

  10. in

  11.   #"展开的“分页数据”"
复制代码
回复

使用道具 举报

虫子 | 2020-9-16 06:39:22 | 显示全部楼层
网抓标配:fiddler
回复

使用道具 举报

bobby | 2020-9-16 06:46:23 | 显示全部楼层
这么麻烦,
回复

使用道具 举报

gnosecn | 2020-9-16 06:49:23 | 显示全部楼层
首先,关于网抓时怎么找到真实地址,是一个很专业的问题,通常需要比较专业的人员来完成这项任务。
但是, ...


高手你好,我网页保存HTML文件,在导入会出错,1.HTML这个正常,2.HTML这个导入会出错,不知道为什么

9915012147544.zip (311.72 KB, 下载次数: 0)
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则