[分享] 一个不规则的提取引发的PowerQuery中的M语言的练习

  [复制链接]
查看210547 | 回复166 | 2021-2-19 02:49:40 | 显示全部楼层 |阅读模式
来混个脸熟顺便分享篇自己整理的内容

需要解决的问题:
我们提取网址中的页面ID,页面ID在任意两个"/"之间,但是位置不固定,前后字符不固定,长度不固定,唯一的特征是开头是{“pw-”,“py-”,“my-”,“mw-”}



解决方法1 正则表达式1(效率一般)使用M语言+正则表达式的方式提取Web.Page("")[Data]{0}[Children]{0}[Children]{1}[Text]{0}

方法2 正则表达式2(效率一般)Web.Page("")[Data]{0}[Children]{0}[Children]{1}[Text]{0}

方法3List.RemoveNulls(List.Transform(  {"pw-","mw-","my","py-"},  (x)=>[a=Text.BetweenDelimiters([网址],x,"/"),b=if a"" then x&a else null]  )){0}?

方法4 目前测试效率最高List.RemoveNulls(List.TransformMany(  Text.Split([网址],"/"),  each {"py","pw","my","mw"},  (x,y) => if Text.StartsWith(x,y) then x else null )){0}?

List.Max(List.TransformMany(  Text.Split([网址],"/"),  each {"py","pw","my","mw"},  (x,y) => if Text.StartsWith(x,y) then x else null ) )


方法5List.Mode(Text.Split([网址],"/")&{"py","pw","my","mw"," "},(x)=>Text.Start(x,2))


方法6 效率与方法4相当List.Accumulate(Text.Split([网址],"/"),"",(x,y)=>x&(if List.Contains({"py","pw","my","mw"},y,(a,b)=>Text.StartsWith(b,a)) then y else ""))

特别说明:以上方法来自群讨论各位大神的方法,有需要的小伙伴可以自行学习
回复

使用道具 举报

浅草 | 2021-2-19 02:56:40 | 显示全部楼层
再来个相对常规思路的解法:
=List.Select(
Text.Split([网址],"/"),
(x)=>List.AnyTrue(
     List.Transform(
     {"pw-","mw-","my-","py-"},
     (y)=>Text.StartsWith(x,y)
     )
   )
)

最后在展开结果列表。
回复

使用道具 举报

风云1号 | 2021-2-19 03:01:41 | 显示全部楼层
都是高手呀!受教了!
回复

使用道具 举报

yunfeng | 2021-2-19 03:06:41 | 显示全部楼层
Text.BetweenDelimiters(文本,"/","/",{1,0})
Text.BeforeDelimiter()函数的第4参数修改一下,文本都是第2个“/”,和 第3个“/”之间的字符,很适合这个题 有1个不规则的数据需要另外处理一下 这样算不算投机取巧了
回复

使用道具 举报

金竹坑 | 2021-2-19 03:12:41 | 显示全部楼层
上述JS正则的写法要改一下,可以实现秒速加载十万行。
回复

使用道具 举报

fdy | 2021-2-19 03:17:41 | 显示全部楼层
再来个相对常规思路的解法:
=List.Select(
Text.Split([网址],"/"),


大海老师这个套路用的太绝妙了,学习了
回复

使用道具 举报

刘文钟 | 2021-2-19 03:19:42 | 显示全部楼层
赞,学习了
回复

使用道具 举报

夕风 | 2021-5-17 12:35:54 来自手机 | 显示全部楼层
打酱油的人拉,回复下赚取积分
回复

使用道具 举报

姑苏小子 | 2021-6-13 07:52:52 来自手机 | 显示全部楼层
是爷们的娘们的都帮顶!大力支持
回复

使用道具 举报

马可波罗 | 2021-6-23 16:59:47 来自手机 | 显示全部楼层
小白一个 顶一下
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则