跳到主要內容

Tidyverse| XX_join :多個數據表(文件)之間的各種連接

本文首發於公眾號:"生信補給站" Tidyverse| XX_join :多個數據表(文件)之間的各種連接


前面分享了單個文件中的select列filter行列拆分等,實際中經常是多個數據表,綜合使用才能回答你所感興趣的問題。


本次簡單的介紹多個表(文件)連接的方法。


一 載入數據,R包


library(tidyverse)
x <- tribble(
 ~key, ~val_x,
    1, "x1",
    2, "x2",
    3, "x3"
)
y <- tribble(
 ~key, ~val_y,
    1, "y1",
    2, "y2",
    4, "y3"
)

 


二 合併數據


向數據框中加入新變量,新變量的值是另一個數據框中的匹配觀測。


 


1 連接方式


1) 內連接 inner_join


內連接是最簡單的一種連接,只要兩個觀測的鍵是相等的,即可匹配。



 


註釋:匹配在實際的連接操作中是用圓點表示的。圓點的數量 = 匹配的數量 = 結果中行的數量。下同


x %>% 
 inner_join(y, by = "key")
# A tibble: 2 x 3
    key val_x val_y
  <dbl> <chr> <chr>
1     1 x1    y1  
2     2 x2    y2

內連接最重要的性質是,沒有匹配的行不會包含在結果中。容易丟失觀測,慎用。


 


2) 外連接


外連接則保留至少存在於一個表中的觀測。外連接有 3 種類型: • 左連接 left_join:保留 x 中的所有觀測。 • 右連接 right_join:保留 y 中的所有觀測 • 全連接 full_join:保留 x 和 y 中的所有觀測。



x %>%
left_join(y, by = "key")
# A tibble: 3 x 3
   key val_x val_y
 <dbl> <chr> <chr>
1     1 x1    y1  
2     2 x2    y2  
3     3 x3    <NA>

x %>%
right_join(y, by = "key")
# A tibble: 3 x 3
   key val_x val_y
 <dbl> <chr> <chr>
1     1 x1    y1  
2     2 x2    y2  
3     4 <NA>  y3

x %>%
full_join(y, by = "key")
# A tibble: 4 x 3
   key val_x val_y
 <dbl> <chr> <chr>
1     1 x1    y1  
2     2 x2    y2  
3     3 x3    <NA>
4     4 <NA>  y3

 


 


2 重複鍵


以上均假設鍵具有唯一性,但情況並非總是如此。


如果x中的key變量,在y中有多個同樣的key,那麼所有的結合可能都會羅列出來



x1 <- tribble(
 ~key, ~val_x,
    1, "x1",
    2, "x2",
    2, "x3",
    1, "x4"
)
y1 <- tribble(
 ~key, ~val_y,
    1, "y1",
    2, "y2"
)
left_join(x1, y1, by = "key")
# A tibble: 4 x 3
    key val_x val_y
  <dbl> <chr> <chr>
1     1 x1    y1  
2     2 x2    y2  
3     2 x3    y2  
4     1 x4    y1

 


3 定義連接鍵


1) 默認值 by = NULL


使用存在於兩個表中的所有變量,這種方式稱為自然連接。


left_join(x, y)
Joining, by = "key"
# A tibble: 3 x 3
   key val_x val_y
 <dbl> <chr> <chr>
1     1 x1    y1  
2     2 x2    y2  
3     3 x3    <NA>

 


2) 定義匹配鍵 by = c("a" = "b")


匹配 x 表中的 a 變量和 y 表中的 b 變量,輸出結果中使用的是 x 表中的變量。


y_1 <- tribble(
 ~key2, ~val_y,
    1, "y1",
    2, "y2"
)
left_join(x, y_1, by = c("key" = "key2"))
# A tibble: 3 x 3
   key val_x val_y
 <dbl> <chr> <chr>
1     1 x1    y1  
2     2 x2    y2  
3     3 x3    <NA>

 


3) 多個匹配鍵


x2 <- tribble(
 ~key,~key1, ~val_x,
    1, 2018,"x1",
    2, 2019,"x2",
    3, 2019,"x3"
)
y2 <- tribble(
 ~key, ~key1,~val_y,
    1, 2018,"y1",
    2, 2018,"y2",
    4, 2019,"y3"
)
inner_join(x2,y2,by = c("key","key1"))
# A tibble: 1 x 4
   key  key1 val_x val_y
 <dbl> <dbl> <chr> <chr>
1     1  2018 x1    y1  

 


三 篩選連接


篩選連接匹配觀測的方式與合併連接相同,但前者影響的是觀測,而不是變量。篩選連接 有兩種類型。


semi_join函數


  • 保留 x 表中與 y 表中的觀測相匹配的所有觀測




semi_join(x, y, by = "key")
# A tibble: 2 x 2
   key val_x
 <dbl> <chr>
1     1 x1  
2     2 x2

 


anti_join函數


  • 丟棄 x 表中與 y 表中的觀測相匹配的所有觀測。




 


anti_join(x, y, by = "key")
# A tibble: 1 x 2
   key val_x
 <dbl> <chr>
1     3 x3

 


參考資料:

https://r4ds.had.co.nz/


《R數據科學》


 


【覺得不錯,右下角點個"在看",期待您的轉發,謝謝!】


 

本站聲明:網站內容來源於博客園,如有侵權,請聯繫我們,我們將及時處理

【其他文章推薦】



網頁設計一頭霧水該從何著手呢? 台北網頁設計公司幫您輕鬆架站!



※台北網頁設計公司全省服務真心推薦



※想知道最厲害的網頁設計公司"嚨底家"!



※推薦評價好的iphone維修中心



網頁設計最專業,超強功能平台可客製化



※別再煩惱如何寫文案,掌握八大原則!



Orignal From: Tidyverse| XX_join :多個數據表(文件)之間的各種連接

留言

這個網誌中的熱門文章

架構設計 | 異步處理流程,多種實現模式詳解

本文源碼:GitHub·點這裏 || GitEE·點這裏 一、異步處理 1、異步概念 異步處理不用阻塞當前線程來等待處理完成,而是允許後續操作,直至其它線程將處理完成,並回調通知此線程。 必須強調一個基礎邏輯,異步是一種設計理念,異步操作不等於多線程,MQ中間件,或者消息廣播,這些是可以實現異步處理的方式。 同步處理和異步處理相對,需要實時處理並響應,一旦超過時間會結束會話,在該過程中調用方一直在等待響應方處理完成並返回。同步類似電話溝通,需要實時對話,異步則類似短信交流,發送消息之後無需保持等待狀態。 2、異步處理優點 雖然異步處理不能實時響應,但是處理複雜業務場景,多數情況都會使用異步處理。 異步可以解耦業務間的流程關聯,降低耦合度; 降低接口響應時間,例如用戶註冊,異步生成相關信息表; 異步可以提高系統性能,提升吞吐量; 流量削峰即把請求先承接下來,然後在異步處理; 異步用在不同服務間,可以隔離服務,避免雪崩; 異步處理的實現方式有很多種,常見多線程,消息中間件,發布訂閱的廣播模式,其根據邏輯在於先把請求承接下來,放入容器中,在從容器中把請求取出,統一調度處理。 注意 :一定要監控任務是否產生積壓過度情況,任務如果積壓到雪崩之勢的地步,你會感覺每一片雪花都想勇闖天涯。 3、異步處理模式 異步流程處理的實現有好多方式,但是實際開發中常用的就那麼幾種,例如: 基於接口異步響應,常用在第三方對接流程; 基於消息生產和消費模式,解耦複雜流程; 基於發布和訂閱的廣播模式,常見系統通知 異步適用的業務場景,對數據強一致性的要求不高,異步處理的數據更多時候追求的是最終一致性。 二、接口響應異步 1、流程描述 基於接口異步響應的方式,有一個本地業務服務,第三方接口服務,流程如下: 本地服務發起請求,調用第三方服務接口; 請求包含業務參數,和成功或失敗的回調地址; 第三方服務實時響應流水號,作為該調用的標識; 之後第三方服務處理請求,得到最終處理結果; 如果處理成功,回調本地服務的成功通知接口; 如果處理失敗,回調本地服務的失敗通知接口; 整個流程基於部分異步和部分實時的模式,完整處理; 注意 :如...

.NET Core前後端分離快速開發框架(Core.3.0+AntdVue)

.NET Core前後端分離快速開發框架(Core.3.0+AntdVue) 目錄 引言 時間真快,轉眼今年又要過去了。回想今年,依次開源發布了 Colder.Fx.Net.AdminLTE(254Star) 、 Colder.Fx.Core.AdminLTE(335Star) 、 DotNettySocket(82Star) 、 IdHelper(47Star) ,這些框架及組件都是本着以實際出發,實事求是的態度,力求提高開發效率(我自己都是第一個使用者),目前來看反響不錯。但是隨着前端和後端技術的不斷變革,尤其是前端,目前大環境已經是前後端完全分離為主的開發模式,在這樣的大環境和必然趨勢之下,傳統的MVC就顯得有些落伍了。在這樣的背景下,一款前後端分離的.NET開發框架就顯得尤為必要,由此便定了框架的升級目標: 前後端分離 。 首先後端技術的選擇,從目前的數據來看,.NET Core的發展遠遠快於.NET Framework,最簡單的分析就是Colder.Fx.Core.AdminLTE發布比Colder.Fx.Net.AdminLTE晚,但是星星卻後來居上而且比前者多30%,並且這個差距在不斷擴大,由點及面的分析可以看出我們廣大.NET開發人員學習的熱情和积極向上的態度,並不是某些人所認為的那麼不堪( 走自己的路,讓別人說去吧 )。大環境上微軟积極擁抱開源,大力發展.NET Core, 可以說前途一片光明。因此後端決定採用 .NET Core3.0 ,不再浪費精力去支持.NET Framework。 然後是前端技術選擇,首選是三大js框架選擇,也是從實際出發,Vue相對其它而言更加容易上手,並且功能也毫不遜色,深得各種大小公司喜歡,如果偏要說缺點的話,那就是對TS支持不行,但是即將發布Vue3.0肯定會改變這一缺陷。選擇了Vue之後,然後就是UI框架的選擇了,這裏的選擇更多了,我選擇了Ant Design Vue,理由便是簡潔方便,十分符合我的設計理念。 技術選型完畢之後便...

請問一下純電動汽車快充接頭上的PE,CC,CP,NC1,NC2什麼意思呢?

其實不難董,以下是每一個的解釋 1、CP CC代表充電控制和連接檢測,主要是協議線。 2、L是三相輸入U線。 3、NC1是三相輸入V線。 4、NC2是三相輸入W線。 5、N是三項輸入中線。 6、PE代表接地線。 台中電動車     潭子電動車 Orignal From: 請問一下純電動汽車快充接頭上的PE,CC,CP,NC1,NC2什麼意思呢?