主頁 > 後端開發 > Pandas 加載資料的方法和技巧

Pandas 加載資料的方法和技巧

2023-05-30 07:43:31 後端開發

哈嘍大家好,我是咸魚

相信小伙伴們在學習 python 資料分析的程序中或多或少都會聽說或者使用過 pandas

pandas 是 python 的一個拓展庫,常用于資料分析

今天咸魚將介紹幾個關于 pandas 匯入資料的方法和技巧

從 URL 獲取 csv 資料

關于 pandas 匯入 csv 資料,使用的是下面這個方法

pandas.read_csv()

但是這個方法可以通過 HTTP 從 URL 來獲取 CSV 資料

關于通過 HTTP 從 URL 來獲取 CSV 資料,我在之前的文章《為什么訪問同一個網址卻回傳不同的內容》有介紹過

例如下面的例子將展示如何通過 URL 獲取 csv 檔案
image

url = 'https://raw.githubusercontent.com/scikit-learn/scikit-learn/main/sklearn/datasets/data/boston_house_prices.csv'

df = pandas.read_csv(url)

通過 URL 來獲取 CSV 資料,可以省去了需要先將 CSV 檔案保存在本地這一步驟

從網站獲取 HTML table 資料

pandas.read_html() 用于獲取 HTML 檔案中的 table 資料(即<table>標簽的表格資料)

我們看下面的例子

import pandas as pd

url = 'http://weather.sina.com.cn/china/shanghaishi/'
df_tables = pd.read_html(url)
print(df_tables)

image
通過 pandas.read_html() 可以實作簡易爬蟲

JSON 資料格式化

有時候我們在處理 JSON 資料的時候,會發現 JSON 資料通常都是嵌套好多層

如果我們想要將 JSON 資料轉換成表格資料,使其扁平化,我們可以用下面的方法來實作

pandas.json_normalize()

看下面的例子

impor pandas as pd

data =https://www.cnblogs.com/edisonfish/archive/2023/05/29/[
    {"id": "A001",
      "name": "咸魚運維雜談",
      "url": "https://www.cnblogs.com/edisonfish/",
      "likes": 61
    },
    {
      "id": "A002",
      "name": "Google",
      "url": "www.google.com",
      "likes": 124
    },
    {
      "id": "A003",
      "name": "淘寶",
      "url": "www.taobao.com",
      "likes": 45
    }
  ]

df = pd.json_normalize(data)
print(df)

結果如下

     id    name      url                                    likes
0  A001  咸魚運維雜談  https://www.cnblogs.com/edisonfish/    61
1  A002  Google      www.google.com                         124
2  A003   淘寶        www.taobao.com                         45

接下來,讓我們嘗試讀取更復雜的 JSON 資料,該資料嵌套了串列和字典

import pandas as pd

data =https://www.cnblogs.com/edisonfish/archive/2023/05/29/{"school_name": "local primary school",
    "class": "Year 1",
    "info": {
      "president": "John Kasich",
      "address": "ABC road, London, UK",
      "contacts": {
        "email": "[email protected]",
        "tel": "123456789"
      }
    },
    "students": [
    {
        "id": "A001",
        "name": "Tom",
        "math": 60,
        "physics": 66,
        "chemistry": 61
    },
    {
        "id": "A002",
        "name": "James",
        "math": 89,
        "physics": 76,
        "chemistry": 51
    },
    {
        "id": "A003",
        "name": "Jenny",
        "math": 79,
        "physics": 90,
        "chemistry": 78
    }]
}


# 展平資料
df = pd.json_normalize(
    data,
    record_path =['students'],
    meta=[
        'class',
        ['info', 'president'],
        ['info', 'contacts', 'tel']
    ]
)
print(df)

結果如下

     id   name  math  ...   class  info.president info.contacts.tel
0  A001    Tom    60  ...  Year 1     John Kasich         123456789
1  A002  James    89  ...  Year 1     John Kasich         123456789
2  A003  Jenny    79  ...  Year 1     John Kasich         123456789

[3 rows x 8 columns]

從剪貼板獲取資料

pandas 的 read_clipboard() 方法可以獲取存盤在剪貼板上的任何資料

假設你將資料從網上要復制粘貼到本地,那么用 pandas 的 read_clipboard() 方法可以直接讀取剪貼板的內容

默認情況下采取正則運算式\s+ 作為分隔值的分隔符(即匹配一個或多個空格、制表符、換行符等空白字符作為分隔符),然后將剪貼板上的資料分割成表格資料

import pandas as pd

df = pd.read_clipboard()

print(df)

參考文章:https://jrashford.com/2022/08/02/loading-data-into-pandas-5-tips-and-tricks-you-may-or-may-not-know/

轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/553740.html

標籤:其他

上一篇:Angular Highcharts教程_編程入門自學教程_菜鳥教程-免費教程分享

下一篇:返回列表

標籤雲
其他(159932) Python(38185) JavaScript(25462) Java(18151) C(15233) 區塊鏈(8268) C#(7972) AI(7469) 爪哇(7425) MySQL(7215) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5873) 数组(5741) R(5409) Linux(5344) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4578) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2434) ASP.NET(2403) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) .NET技术(1977) 功能(1967) Web開發(1951) HtmlCss(1949) C++(1926) python-3.x(1918) 弹簧靴(1913) xml(1889) PostgreSQL(1878) .NETCore(1862) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 【C++】Microsoft C++、C 和匯編程式檔案

    ......

    uj5u.com 2020-09-10 00:57:23 more
  • 例外宣告

    相比于斷言適用于排除邏輯上不可能存在的狀態,例外通常是用于邏輯上可能發生的錯誤。 例外宣告 Item 1:當函式不可能拋出例外或不能接受拋出例外時,使用noexcept 理由 如果不打算拋出例外的話,程式就會認為無法處理這種錯誤,并且應當盡早終止,如此可以有效地阻止例外的傳播與擴散。 示例 //不可 ......

    uj5u.com 2020-09-10 00:57:27 more
  • Codeforces 1400E Clear the Multiset(貪心 + 分治)

    鏈接:https://codeforces.com/problemset/problem/1400/E 來源:Codeforces 思路:給你一個陣列,現在你可以進行兩種操作,操作1:將一段沒有 0 的區間進行減一的操作,操作2:將 i 位置上的元素歸零。最終問:將這個陣列的全部元素歸零后操作的最少 ......

    uj5u.com 2020-09-10 00:57:30 more
  • UVA11610 【Reverse Prime】

    本人看到此題沒有翻譯,就附帶了一個自己的翻譯版本 思考 這一題,它的第一個要求是找出所有 $7$ 位反向質數及其質因數的個數。 我們應該需要質數篩篩選1~$10^{7}$的所有數,這里就不慢慢介紹了。但是,重讀題,我們突然發現反向質數都是 $7$ 位,而將它反過來后的數字卻是 $6$ 位數,這就說明 ......

    uj5u.com 2020-09-10 00:57:36 more
  • 統計區間素數數量

    1 #pragma GCC optimize(2) 2 #include <bits/stdc++.h> 3 using namespace std; 4 bool isprime[1000000010]; 5 vector<int> prime; 6 inline int getlist(int ......

    uj5u.com 2020-09-10 00:57:47 more
  • C/C++編程筆記:C++中的 const 變數詳解,教你正確認識const用法

    1、C中的const 1、區域const變數存放在堆疊區中,會分配記憶體(也就是說可以通過地址間接修改變數的值)。測驗代碼如下: 運行結果: 2、全域const變數存放在只讀資料段(不能通過地址修改,會發生寫入錯誤), 默認為外部聯編,可以給其他源檔案使用(需要用extern關鍵字修飾) 運行結果: ......

    uj5u.com 2020-09-10 00:58:04 more
  • 【C++犯錯記錄】VS2019 MFC添加資源不懂如何修改資源宏ID

    1. 首先在資源視圖中,添加資源 2. 點擊新添加的資源,復制自動生成的ID 3. 在解決方案資源管理器中找到Resource.h檔案,編輯,使用整個專案搜索和替換的方式快速替換 宏宣告 4. Ctrl+Shift+F 全域搜索,點擊查找全部,然后逐個替換 5. 為什么使用搜索替換而不使用屬性視窗直 ......

    uj5u.com 2020-09-10 00:59:11 more
  • 【C++犯錯記錄】VS2019 MFC不懂的批量添加資源

    1. 打開資源頭檔案Resource.h,在其中預先定義好宏 ID(不清楚其實ID值應該設定多少,可以先新建一個相同的資源項,再在這個資源的ID值的基礎上遞增即可) 2. 在資源視圖中選中專案資源,按F7編輯資源檔案,按 ID 型別 相對路徑的形式添加 資源。(別忘了先把檔案拷貝到專案中的res檔案 ......

    uj5u.com 2020-09-10 01:00:19 more
  • C/C++編程筆記:關于C++的參考型別,專供新手入門使用

    今天要講的是C++中我最喜歡的一個用法——參考,也叫別名。 參考就是給一個變數名取一個變數名,方便我們間接地使用這個變數。我們可以給一個變數創建N個參考,這N + 1個變數共享了同一塊記憶體區域。(參考型別的變數會占用記憶體空間,占用的記憶體空間的大小和指標型別的大小是相同的。雖然參考是一個物件的別名,但 ......

    uj5u.com 2020-09-10 01:00:22 more
  • 【C/C++編程筆記】從頭開始學習C ++:初學者完整指南

    眾所周知,C ++的學習曲線陡峭,但是花時間學習這種語言將為您的職業帶來奇跡,并使您與其他開發人員區分開。您會更輕松地學習新語言,形成真正的解決問題的技能,并在編程的基礎上打下堅實的基礎。 C ++將幫助您養成良好的編程習慣(即清晰一致的編碼風格,在撰寫代碼時注釋代碼,并限制類內部的可見性),并且由 ......

    uj5u.com 2020-09-10 01:00:41 more
最新发布
  • Pandas 加載資料的方法和技巧

    哈嘍大家好,我是咸魚 相信小伙伴們在學習 python 資料分析的程序中或多或少都會聽說或者使用過 pandas pandas 是 python 的一個拓展庫,常用于資料分析 今天咸魚將介紹幾個關于 pandas 匯入資料的方法和技巧 ## 從 URL 獲取 csv 資料 關于 pandas 匯入 ......

    uj5u.com 2023-05-30 07:43:31 more
  • Angular Highcharts教程_編程入門自學教程_菜鳥教程-免費教程分

    ## 教程簡介 Angular Highcharts是一個基于Angular的開源組件,可在Angular應用程式中提供優雅且功能豐富的高圖表可視化,并可與Angular組件無縫配合使用。 [Angular Highcharts入門教程](https://www.itbaoku.cn/tutoria ......

    uj5u.com 2023-05-30 07:43:26 more
  • 面試官:MySQL 自增主鍵一定是連續的嗎?大部分人都會答錯!

    ## 測驗環境: > MySQL版本:8.0 資料庫表:T (主鍵id,唯一索引c,普通欄位d) ![](http://img.javastack.cn/1685072039483867.png) 如果你的業務設計依賴于自增主鍵的連續性,這個設計假設自增主鍵是連續的。但實際上,這樣的假設是錯的,因為 ......

    uj5u.com 2023-05-30 07:43:14 more
  • VST實體(5)節點(NODE) 二、節點的遍歷

    二、節點的遍歷 每一個節點都有一個index值,用于描述其在相同level,相同父節點下的序號,但是,遍歷時并不能利用這個值,因為這個值是變化的,當進行排序,插入節點、洗掉節點等等操作時,這個index會發生改變。 同樣的,vst.AbsoluteIndex(node)回傳的是某一節點在VST中的絕 ......

    uj5u.com 2023-05-30 07:43:05 more
  • c語言,函式的址傳遞例子

    編碼如下:#include <stdio.h> void swap(int* x,int* y ){ int tmp; tmp=*x; *x=*y; *y=tmp ; }; int main(){ int a=4; int b=5; printf("befer\n"); printf("a=%d\n ......

    uj5u.com 2023-05-30 07:43:01 more
  • Python日期帶時區轉換工具類總結

    @[TOC] # 1.背景 最近專案是國際專案,所以需要經常需要用到UTC時間和local時間的轉換。 所以整理了一下時間戳工具類,方便使用。 這里主要用到的包就是datatime、time、pytz。 # 2. 遇到的坑 直接看測驗案例 ```python tzinfo=pytz.timezone ......

    uj5u.com 2023-05-30 07:42:57 more
  • 詳談Java中Properties配置類怎么用

    本文將為大家詳細講解Java中Properties配置類怎么用,這是我們進行開發時經常用到的知識點,也是大家在學習Java中很重要的一個知識點,更是我們在面試時有可能會問到的問題!文章較長,干貨滿滿,建議大家收藏慢慢學習。文末有本文重點總結,主頁有全系列文章分享。技術類問題,歡迎大家和我們一起交流討... ......

    uj5u.com 2023-05-30 07:42:53 more
  • Python工具箱系列(三十四)

    SQLAlchemy是著名的ORM(Object Relational Mapping-物件關系映射)框架。其主要作用是在編程中,把面向物件的概念跟資料庫中表的概念對應起來。對許多語言(例如JAVA/PYTHON)來說就是定義一個物件,并且這個物件對應著一張資料庫的表。而這個物件的實體,就對應著表中... ......

    uj5u.com 2023-05-30 07:42:45 more
  • Python壓縮JS檔案,重點是 slimit

    摘要:Python Web程式員必看系列,學習如何壓縮 JS 代碼。 本文分享自華為云社區《Python壓縮JS檔案,PythonWeb程式員必看系列,重點是 slimit》,作者: 夢想橡皮擦 。 本篇博客將學習壓縮 JS 代碼,首先要學習的模塊是 jsmin。 jsmin 庫 Python 中的 ......

    uj5u.com 2023-05-30 07:42:36 more
  • 【重學C++】05 | 說透右值參考、移動語意、完美轉發(下)

    ## 文章首發 [【重學C++】05 | 說透右值參考、移動語意、完美轉發(下)](https://mp.weixin.qq.com/s/w7yXp6efE7_V0EHxXWJiJA) ## 引言 大家好,我是只講技術干貨的會玩code,今天是【重學C++】的第五講,在第四講《[【重學C++】04 ......

    uj5u.com 2023-05-30 07:42:31 more