一个不规则的提取引发的PowerQuery中的M语言的练习

显示全部楼层 · 2021-2-19 02:49:40

来混个脸熟顺便分享篇自己整理的内容

需要解决的问题：
我们提取网址中的页面ID，页面ID在任意两个"/"之间，但是位置不固定，前后字符不固定，长度不固定，唯一的特征是开头是{“pw-”，“py-”，“my-”，“mw-”}

解决方法1 正则表达式1(效率一般)使用M语言+正则表达式的方式提取Web.Page("")[Data]{0}[Children]{0}[Children]{1}[Text]{0}

方法2 正则表达式2(效率一般)Web.Page("")[Data]{0}[Children]{0}[Children]{1}[Text]{0}

方法3List.RemoveNulls(List.Transform(  {"pw-","mw-","my","py-"},  (x)=>[a=Text.BetweenDelimiters([网址],x,"/"),b=if a"" then x&a else null]  )){0}?

方法4 目前测试效率最高List.RemoveNulls(List.TransformMany(  Text.Split([网址],"/"),  each {"py","pw","my","mw"},  (x,y) => if Text.StartsWith(x,y) then x else null )){0}?

List.Max(List.TransformMany(  Text.Split([网址],"/"),  each {"py","pw","my","mw"},  (x,y) => if Text.StartsWith(x,y) then x else null ) )

方法5List.Mode(Text.Split([网址],"/")&{"py","pw","my","mw"," "},(x)=>Text.Start(x,2))

方法6 效率与方法4相当List.Accumulate(Text.Split([网址],"/"),"",(x,y)=>x&(if List.Contains({"py","pw","my","mw"},y,(a,b)=>Text.StartsWith(b,a)) then y else ""))

特别说明：以上方法来自群讨论各位大神的方法，有需要的小伙伴可以自行学习

浅草 · 2021-2-19 02:56:40

再来个相对常规思路的解法：
=List.Select(
Text.Split([网址],"/"),
(x)=>List.AnyTrue(
   List.Transform(
   {"pw-","mw-","my-","py-"},
   (y)=>Text.StartsWith(x,y)
   )
)
)

最后在展开结果列表。