Tidyverse| XX_join ：多個數據表（文件）之間的各種連接

本文首發於公眾號："生信補給站" Tidyverse| XX_join ：多個數據表（文件）之間的各種連接

前面分享了單個文件中的select列，filter行，列拆分等，實際中經常是多個數據表，綜合使用才能回答你所感興趣的問題。

本次簡單的介紹多個表（文件）連接的方法。

一載入數據，R包

library(tidyverse)
x <- tribble(
  ~key, ~val_x,
     1, "x1",
     2, "x2",
     3, "x3"
)
y <- tribble(
  ~key, ~val_y,
     1, "y1",
     2, "y2",
     4, "y3"
)

二合併數據

向數據框中加入新變量，新變量的值是另一個數據框中的匹配觀測。

1 連接方式

1）內連接 `inner_join`

內連接是最簡單的一種連接，只要兩個觀測的鍵是相等的，即可匹配。

註釋：匹配在實際的連接操作中是用圓點表示的。圓點的數量 = 匹配的數量 = 結果中行的數量。下同

x %>% 
  inner_join(y, by = "key")
# A tibble: 2 x 3
     key val_x val_y
   <dbl> <chr> <chr>
 1     1 x1    y1   
 2     2 x2    y2

內連接最重要的性質是，沒有匹配的行不會包含在結果中。容易丟失觀測，慎用。

2）外連接

外連接則保留至少存在於一個表中的觀測。外連接有 3 種類型： • 左連接 left_join：保留 x 中的所有觀測。 • 右連接 right_join：保留 y 中的所有觀測 • 全連接 full_join：保留 x 和 y 中的所有觀測。

x %>%
left_join(y, by = "key")
# A tibble: 3 x 3
    key val_x val_y
  <dbl> <chr> <chr>
1     1 x1    y1   
2     2 x2    y2   
3     3 x3    <NA>

x %>%
right_join(y, by = "key")
# A tibble: 3 x 3
    key val_x val_y
  <dbl> <chr> <chr>
1     1 x1    y1   
2     2 x2    y2   
3     4 <NA>  y3

x %>%
full_join(y, by = "key")
# A tibble: 4 x 3
    key val_x val_y
  <dbl> <chr> <chr>
1     1 x1    y1   
2     2 x2    y2   
3     3 x3    <NA> 
4     4 <NA>  y3

2 重複鍵

以上均假設鍵具有唯一性，但情況並非總是如此。

如果x中的key變量，在y中有多個同樣的key，那麼所有的結合可能都會羅列出來

x1 <- tribble(
  ~key, ~val_x,
     1, "x1",
     2, "x2",
     2, "x3",
     1, "x4"
)
y1 <- tribble(
  ~key, ~val_y,
     1, "y1",
     2, "y2"
)
left_join(x1, y1, by = "key")
 # A tibble: 4 x 3
     key val_x val_y
   <dbl> <chr> <chr>
 1     1 x1    y1   
 2     2 x2    y2   
 3     2 x3    y2   
 4     1 x4    y1

3 定義連接鍵

1) 默認值 by = NULL

使用存在於兩個表中的所有變量，這種方式稱為自然連接。

left_join(x, y)
Joining, by = "key"
# A tibble: 3 x 3
    key val_x val_y
  <dbl> <chr> <chr>
1     1 x1    y1   
2     2 x2    y2   
3     3 x3    <NA>

2) 定義匹配鍵 by = c("a" = "b")

匹配 x 表中的 a 變量和 y 表中的 b 變量，輸出結果中使用的是 x 表中的變量。

y_1 <- tribble(
  ~key2, ~val_y,
     1, "y1",
     2, "y2"
)
left_join(x, y_1, by = c("key" = "key2"))
# A tibble: 3 x 3
    key val_x val_y
  <dbl> <chr> <chr>
1     1 x1    y1   
2     2 x2    y2   
3     3 x3    <NA>

3) 多個匹配鍵

x2 <- tribble(
  ~key,~key1, ~val_x,
     1, 2018,"x1",
     2, 2019,"x2",
     3, 2019,"x3"
)
y2 <- tribble(
  ~key, ~key1,~val_y,
     1, 2018,"y1",
     2, 2018,"y2",
     4, 2019,"y3"
)
inner_join(x2,y2,by = c("key","key1"))
# A tibble: 1 x 4
    key  key1 val_x val_y
  <dbl> <dbl> <chr> <chr>
1     1  2018 x1    y1

三篩選連接

篩選連接匹配觀測的方式與合併連接相同，但前者影響的是觀測，而不是變量。篩選連接有兩種類型。

semi_join函數

保留 x 表中與 y 表中的觀測相匹配的所有觀測

semi_join(x, y, by = "key")
# A tibble: 2 x 2
    key val_x
  <dbl> <chr>
1     1 x1   
2     2 x2

anti_join函數

丟棄 x 表中與 y 表中的觀測相匹配的所有觀測。

anti_join(x, y, by = "key")
# A tibble: 1 x 2
    key val_x
  <dbl> <chr>
1     3 x3

參考資料：

https://r4ds.had.co.nz/

《R數據科學》

【覺得不錯，右下角點個"在看"，期待您的轉發，謝謝！】

本站聲明:網站內容來源於博客園,如有侵權,請聯繫我們,我們將及時處理

【其他文章推薦】

※網頁設計一頭霧水該從何著手呢? 台北網頁設計公司幫您輕鬆架站!

※台北網頁設計公司全省服務真心推薦

※想知道最厲害的網頁設計公司"嚨底家"!

※推薦評價好的iphone維修中心

※網頁設計最專業,超強功能平台可客製化

※別再煩惱如何寫文案,掌握八大原則!

Orignal From: Tidyverse| XX_join ：多個數據表（文件）之間的各種連接

發燒車訊

搜尋此網誌