19 Nov

Pandas nâng cao: Cẩm nang toàn diện dành cho những người đam mê dữ liệu

By t3h 0 Comments

Chúng ta sẽ khám phá các tính năng tổng hợp, phân tích, trực quan hóa dữ liệu nâng cao, xử lý dữ liệu chuỗi thời gian và hơn thế nữa. Đây là một cái nhìn thoáng qua về những gì ở phía trước!

1. Tổng hợp dữ liệu

Những hiểu biết sâu sắc có ý nghĩa sẽ không bao giờ được quan sát nếu không tổng hợp dữ liệu thích hợp, phải không? Trên thực tế, đó là lý do tại sao chúng ta sử dụng bảng tổng hợp rất nhiều trong excel. Vì vậy, chúng ta có thể nói rằng đây là một bước quan trọng trong phân tích dữ liệu và thường liên quan đến việc áp dụng các hàm tổng hợp như tổng, trung bình, đếm, v.v. cho các nhóm dữ liệu

1.1 Nhóm dữ liệu

groupbyvới một cột duy nhất: Phương pháp này cho phép bạn nhóm dữ liệu dựa trên một hoặc nhiều cột. Bạn có thể coi nó như một phiên bản mạnh mẽ của GROUP BYcâu lệnh SQL.

Trước tiên, bạn cần chuyển tên cột mà bạn muốn nhóm dữ liệu, Sau đó, bạn có thể sử dụng dữ liệu được nhóm và chọn cột mà bạn muốn so sánh dữ liệu được nhóm này, sau đó chọn hàm tổng hợp (nghĩa là, tổng, tối đa, tối thiểu, v.v.).

Khi bạn áp dụng hàm tổng hợp cho dữ liệu được nhóm mà không chỉ định cột, hàm đó sẽ được áp dụng cho tất cả các cột số trong DataFrame.

Ví dụ: Giả sử bạn có dữ liệu bán hàng và bạn muốn nhóm dữ liệu đó theo cột “Danh mục” và tính tổng doanh số trong mỗi danh mục.

import pandas as pd

# Sample DataFrame
data = {'Category': ['Electronics', 'Clothing', 'Electronics', 'Clothing'],
'Sales': [1000, 500, 800, 500]}
df = pd.DataFrame(data)

# Grouping by 'Category'
grouped_data = df.groupby('Category')

# Choosing sales column to compare with grouped data and using sum function
# This gives the total sales for each category.
total_sales = grouped_data['Sales'].sum()

print(total_sales)
--------------------------------------------------------------------------
output:

Category
Clothing 1000
Electronics 1800
Name: Sales, dtype: int64

groupbyvới nhiều cột: Bạn thậm chí có thể nhóm nhiều cột bằng cách chuyển danh sách các cột bạn muốn nhóm theo.

Ví dụ: Giả sử bạn có một tập dữ liệu chứa thông tin học sinh bao gồm điểm của họ ở các môn học khác nhau và bạn muốn nhóm dữ liệu theo cả hai cột “Lớp” và “Giới tính”, sau đó tính toán các số liệu thống kê như điểm trung bình, điểm tối thiểu và điểm tối đa cho môn Toán. điểm môn học.

Áp dụng hàm tổng hợp cho dữ liệu được nhóm mà không chỉ định cột:
Trong những trường hợp như vậy, hàm này sẽ được áp dụng cho tất cả các cột số trong DataFrame được nhóm.

import pandas as pd

# Sample DataFrame
data = {'Class': ['A', 'B', 'A', 'B', 'A', 'B'],
'Gender': ['Male', 'Male', 'Female', 'Female', 'Male', 'Female'],
'Math_Score': [85, 92, 78, 89, 90, 86],
'English_Score': [88, 94, 80, 92, 92, 88]}
df = pd.DataFrame(data)

# Grouping by 'Class' and 'Gender'
grouped_data = df.groupby(['Class', 'Gender'])

# Applying the mean aggregation function to all numeric columns
aggregated_data = grouped_data.mean()

print(aggregated_data)
----------------------------------------------------------------------
output:

Math_Score English_Score
Class Gender
A Female 82.000000 84.000000
Male 87.500000 90.000000
B Female 87.500000 90.000000
Male 92.000000 94.000000

1.2 Hàm tổng hợp

Các hàm tổng hợp rất cần thiết để tóm tắt dữ liệu trong các nhóm. Và các Hàm tổng hợp phổ biến là sum(), max(), min(), Mean(), middle(), count(), agg () — điều này cho phép bạn áp dụng các funcitons tổng hợp tùy chỉnh.

Ví dụ: Giả sử bạn muốn áp dụng nhiều hàm tổng hợp (trung bình, tối thiểu và tối đa) cùng một lúc cho Điểm Toán. Bạn cũng muốn kiểm tra nhiều hàm tổng hợp này cho hai chủ đề (đặc biệt là một số cột).

import pandas as pd

# Sample DataFrame
data = {'Class': ['A', 'B', 'A', 'B', 'A', 'B'],
'Gender': ['Male', 'Male', 'Female', 'Female', 'Male', 'Female'],
'Math_Score': [85, 92, 78, 89, 90, 86],
'English_Score': [88, 94, 80, 92, 92, 88],
'Physics_Score': [78, 90, 85, 92, 88, 84]}
df = pd.DataFrame(data)

# Grouping by 'Class' and 'Gender' and calculating statistics
grouped_data = df.groupby(['Class', 'Gender'])

# Calculate the mean, min, and max scores for Math_score
agg_results = grouped_data.Math_Score.agg(['mean', 'min', 'max'])

print(agg_results)

# Applying aggregation functions to 'Math_Score' and 'Physics_Score'
aggregated_data = grouped_data.agg({
'Math_Score': ['mean', 'min', 'max'],
'Physics_Score': ['mean', 'min', 'max']
})

print(aggregated_data)
----------------------------------------------------------------------
output:

mean min max
Class Gender
A Female 78.0 78 78
Male 87.5 85 90
B Female 87.5 86 89
Male 92.0 92 92
-----------------------------------------------------------------------

Math_Score Physics_Score
mean min max mean min max
Class Gender
A Female 82.000000 78 86 81.500000 78 85
Male 87.500000 85 90 83.000000 78 88
B Female 87.500000 86 89 88.000000 85 92
Male 92.000000 92 92 91.000000 88 92

1.3 Bảng tổng hợp và bảng chéo

Nếu bạn đã làm việc với Excel, bạn hẳn đã biết chúng hiệu quả như thế nào. Chúng cung cấp một cách có cấu trúc để sắp xếp và phân tích dữ liệu từ các góc độ khác nhau.

chúng ta có thể sử dụng pd.pivot_tableđể tạo bảng tổng hợp.
Bảng chéo (crosstabs) là một phương pháp khác để tổng hợp dữ liệu, đặc biệt khi xử lý các biến phân loại bằng cách sử dụngpd.crosstab

import pandas as pd

# Sample DataFrame with sales data
data = {'Category': ['Electronics', 'Clothing', 'Electronics', 'Clothing'],
'Region': ['North', 'South', 'North', 'South'],
'Sales': [1000, 500, 800, 750],
'Profit': [150, 50, 120, 100]}
df = pd.DataFrame(data)

# Pivot Table: Sum of Sales by Category and Region
pivot_table = pd.pivot_table(df, index='Category', columns='Region', values='Sales', aggfunc='sum')

# Cross-Tabulation: Count of Category by Region
cross_tab = pd.crosstab(df['Category'], df['Region'])

print("Pivot Table:")
print(pivot_table)

print("\nCross-Tabulation:")
print(cross_tab)
----------------------------------------------------------------------
Pivot Table:
Region North South
Category
Clothing NaN 1250
Electronics 1800 NaN

Cross-Tabulation:
Region North South
Category
Clothing 0 2
Electronics 2 0

Lô KDE (Ước tính mật độ hạt nhân):df['Value'].plot(kind='kde')
Sơ đồ mật độ:df['Value'].plot(kind='density')
Âm mưu Boxen:df.plot(y='Value', kind='boxen')

3. Xử lý dữ liệu chuỗi thời gian

Dữ liệu chuỗi thời gian bao gồm các điểm dữ liệu được thu thập hoặc ghi lại ở những khoảng thời gian cụ thể.

3.1 Làm việc với dữ liệu DateTime

Dữ liệu DateTime rất cần thiết cho việc phân tích chuỗi thời gian, với gấu trúc, chúng ta không phải lo lắng về việc phân tích đó nữa vì nó cung cấp sự hỗ trợ mạnh mẽ để làm việc với ngày và giờ.

pd.to_datetime: Phương pháp này cho phép bạn chuyển đổi chuỗi ngày giờ của mình thành chuỗi ngày giờ gấu trúc mà qua đó bạn có thể thực hiện nhiều phân tích liền mạch hơn. Bạn có thể nhận được năm, tháng, ngày và giờ.

import pandas as pd

# Sample DataFrame with a DateTime column
data = {'DateTime': ['2023-01-01 08:30:00', '2023-02-01 14:45:00', '2023-03-01 20:15:00']}
df = pd.DataFrame(data)

# Convert the 'DateTime' column to DateTime
df['DateTime'] = pd.to_datetime(df['DateTime'])

# Extract year, month, day, and hour
df['Year'] = df['DateTime'].dt.year
df['Month'] = df['DateTime'].dt.month
df['Day'] = df['DateTime'].dt.day
df['Hour'] = df['DateTime'].dt.hour

print(df)

Ource: https://python.plainenglish.io/pandas-demystified-a-comprehensive-handbo...

Viện Công nghệ Thông tin T3H Tại Ngày Hội Việc Làm - EPU’s Job Fair 2024: Kết Nối Tương Lai Cho Sinh Viên

May 02,2024

VIỆN CÔNG NGHỆ THÔNG TIN T3H ĐỒNG HÀNH CÙNG CUỘC THI OLYMPIC TIN HỌC SINH VIÊN UTC NĂM 2024

Apr 25,2024

VIỆN CÔNG NGHỆ THÔNG TIN T3H VUI MỪNG THÔNG BÁO CHƯƠNG TRÌNH HỢP TÁC ĐÀO TẠO VỚI FULLHOUSE DEV

Apr 24,2024

VIỆN CÔNG NGHỆ THÔNG TIN T3H THAM GIA LỄ BẾ GIẢNG, TRAO BẰNG TỐT NGHIỆP VÀ NGÀY HỘI VIỆC LÀM TẠI TRƯỜNG CĐ CÔNG NGHỆ THƯƠNG MẠI HÀ NỘI

Apr 12,2024

VIỆN CNTT T3H VÀ BLOCKCHAINWORK - Hành Trình Chinh Phục Sự Nghiệp Mới!

Apr 12,2024

Viện Công Nghệ Thông Tin T3H Gặp Gỡ và Trao Học Bổng cho Sinh Viên Trường Đại Học Giao Thông Vận Tải

Apr 07,2024

NHÌN LẠI NHỮNG HÌNH ẢNH ẤN TƯỢNG CỦA T3H TẠI NGÀY HỘI VIỆC LÀM - ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI 30/3/2024

Apr 02,2024

Viện Công nghệ thông tin T3H Ký kết hợp tác tuyển dụng và đào tạo nguồn nhân lực chất lượng sang Nhật

Mar 15,2024

CÙNG NHÌN LẠI NHỮNG HÌNH ẢNH ẤN TƯỢNG NHẤT CỦA BUỔI BẢO VỆ ĐỒ ÁN K37

Jan 16,2024

Với mình việc học ở T3H thực sự là điều rất thú vị, được tham gia các hoạt động, được học tập vui vẻ. Đừng ngại việc mình chưa có kinh nghiệm, đừng ngại thất bại, bởi vì các đồ án cũng được xem như là các dự án thực tế rồi. Hãy chuẩn bị cho mình 1 CV thật tốt.

Đinh Nhật Anh

Designer tại Dược mỹ phẩm Hàn Quốc GSC

Tại T3H mình đã được trải qua khoảng thời gian học tập và hoạt động thực sự đáng nhớ. Nó đã cho mình rất nhiều bài học và kinh nghiệm sống cũng như kỹ năng chuyên môn. Hãy mạnh dạn tham gia và làm những điều mà bạn chưa từng làm hoặc không phải thế mạnh của bạn, bạn sẽ biết về nó, tầm hiểu biết của bạn sẽ ngày càng mở rộng.

Nguyễn Việt Anh

Designer tại MP Group

T3H giống như bước đệm kiến thức và mối quan hệ của mình. Nhờ T3H mình có thể vừa học vừa tìm được những công việc tốt, kiếm được những đồng nghiệp, những partner ngay khi hoc cùng nhau.

Phạm Quang Linh

Team Leader tại Laptrinhluon.com

Với T3H, mình luôn biết ơn người thầy đã dìu dắt và dẫn lối mình khi mình bắt đầu vào trường, thầy Nguyễn Mạnh Tiền. Không chỉ hỗ trợ mình trong học tập, công việc mà còn trong cuộc sống và đạo đức. Thầy luôn phân tích và đưa ra hướng giải quyết nhờ đó mình có thể vượt qua những khó khăn khi sống ở 1 thành phố lớn.

Trần Đức Hiến

Design tại TMV Digital/ Design tại Maria Clinic

T3H là nơi đúng đắn để mình đặt chân tới. Từ những ngày đầu đặt chân đến đã thấy sự nhiệt tình của mọi người trong trường, ngoài việc học, ở T3H mình còn được tham gia các hoạt động chào đón tân sinh viên, các hoạt động mừng ngày lễ, gắn kết sinh viên. Chúc mọi người có thật nhiều thành công khi học tại T3H.

Đinh Xuân Phương

Học tại T3h rất tốt cho các bạn muốn theo đuổi ngành công nghệ thông tin, trau dồi kiến thức cho mình và hỏi mọi người, biến những đam mê của mình dần đạt được cái mình mong muốn, hãy hết mình vì cái mình đam mê và biến nó dần thành hiện thực.

Nguyễn Văn Tiến

Photo - Cameraman - Editor tại Pông Media

T3h đã cho tôi những trải nghiệm mới mẻ, đặc biệt là giúp tôi được thử thách và chứng tỏ bản thân mình. Nếu được chọn lại, tôi chắc chắn vẫn sẽ chọn là sinh viên T3h!!!

(Sinh viên lớp: K28DH)

Lê Hồng Nhung

Designer - Công ty công nghệ Lê Nam

Môi trường năng động, các bạn sinh viên nhiệt tình. Không có nhiều khoảng cách giữa sinh viên và giảng viên

(Sinh viên lớp: K28DH)

Lê Duy Ngọc

Developer .Net - Tập đoàn Đại Việt

Môi trường học tập tốt, một số thầy cô giáo giảng dạy rất có tâm, nhiệt tình với sinh viên. Sinh viên sau khi hoàn thành khóa học cũng dễ dàng tìm kiếm được công việc phù hợp.

(Sinh viên lớp: K29C _ DH1507)

Đỗ Thị Hải Hậu

Phụ trách Model 3D - Công ty GDL

T3H là một mái trường rất đáng yêu, bạn bè đáng yêu, đến thầy cô cũng đang yêu nốt

(Sinh viên lớp: K29A1_DH1507)

Phan Tiến Dũng

Designer - Công ty Hatch

Thật may mắn khi thầy cô giáo, anh chị Hội Sinh viên rất nhiệt tình, giúp đỡ chúng mình. T3H như là ngôi nhà thứ 2 của mình vậy đó.

(Sinh viên lớp: K29A_DH1507)

Nguyễn Thị Phương Thủy

Designer - Công ty tranh 3D

T3H thật sự là 1 gia đình, mọi người đều sẵn sàng dậy cho nhau 1 điều gì đó, một môi trường mà mọi người đều sẵn sàng chia sẻ và học hỏi lẫn nhau (Sinh viên lớp: K29A1_DH1507)

Lê Trung Kiên

Trưởng ban thiết kế - Công ty Skynetone Việt Nam

Một môi trường hoàn toàn năng động và có ứng dụng thực tế hơn rất nhiều ngôi trường khác. (Sinh viên lớp: K29A_DH1507)

Nguyễn Thị Bích Thảo

Chuyên viên diễn hoạt Animation - Công ty CP Global Dream Lad – Tổ chức giáo dục Hoa Kỳ.

T3H là nơi tôi được sống trọn với những đam mê, những sở thích, là nơi tôi có thể khám phá được những khả năng của bản thân. Tất cả là nhờ sự tận tâm, tận tình từ các thầy cô, anh chị, bạn bè. T3H đã thực sự trở thành mái nhà thứ 2 của tôi!!!

Nguyễn Mạnh Tiền

Cán bộ phòng Đào tạo Hitech Việt Nam

Đề tài Project java android xuất xắc, sinh viên tiêu biểu T3H - Framgia Vietnam nhận ngay trong hội đồng bảo vệ đồ án cuối khóa

Phạm Trung Đoan

FPT Software, Framgia Vietnam

"Tôi học ở T3h với những thầy cô nhiệt tình , quan tâm lo lắng cho Sinh viên. Môi trường năng động, bạn bè hòa đồng vui vẻ. Các bạn hãy đến với T3H Hà Nội để trải nghiệm nhé"

NGUYỄN VĂN DŨNG

Lớp K30A1DH

"Dẫu tưởng rằng T3h sẽ giống những trường đại học khác, khô khan và chỉ biết đến bản thân. Nhưng không khi đến đây và học tập rồi hoạt động em mới hiểu tại sao lại gọi là T3h family', những chiến binh hết mình với học tập"

Nguyễn Thảo Quỳnh

K29A1-DH1507

"Kiến thức, những người bạn lầy lội, những giảng vui tính là thứ mà tôi có được tại T3H. Nơi đây chính là cây cầu nối giữa tôi với niềm đam mê của mình về CNTT"

Nguyễn Tiến Tân

K30A4DH

"Môi trường học năng động trẻ chung, giáo viên rất nhiệt tình hướng dẫn, support đồ án cho sinh viên"

Nguyễn Minh Lân

K30A3DH

"Khi học tập ở T3H, tôi đã bổ sung cho mình được rất nhiều kiến thức để vận dụng công việc tốt hơn và định hướng được nghề nghiệp. Giảng viên rất nhiệt tình, nhiều kinh nghiệm, giúp đỡ tôi rất nhiều trong quá trình học. Cảm ơn T3H"

PHẠM TRUNG ĐOAN

Làm việc tại Samsung Electronic Việt Nam

"Thầy cô giảng viên và anh chị khóa trên rất thân thiện và tận tâm. Họ sẵn sàng, khi bạn cần giúp về vấn đề kĩ thuật hay học tập của bạn. Đây là điều em thích nhất ở T3H"

Đỗ Quang Linh

K30A3DH

T3H là ngôi nhà thứ hai của tôi, môi trường thoải mái, bạn bè thân thiện, thầy cô tâm huyết. Nơi đây đã cho tôi nhiêu bài học quý giá, nhiều kỉ niệm đẹp. Cám ơn T3H, tình yêu tuổi trẻ của tôi!.

VŨ THỊ QUỲNH

Designer tại Hitech Việt Nam

Nơi tôi cảm nhận được sự yêu thương, nhiệt huyết của các thầy cô. Nơi đã cho tôi cơ hội được phát triển, nơi giúp tôi trường thành, nơi cho tôi cuộc sống và sự nghiệp như ngày hôm nay.

Nguyễn Văn Thành

Designer tại Topica Edtech Group

Môi trường học tập thoải mái, thầy cô dễ gần, dễ tiếp xúc, kiến thức sát với thực tế. Nhà trường luôn luôn tạo nhiều điều kiện cho sinh viên phát triển!

Doãn Trọng Tài

TP Công nghệ cty D&D Việt Nam

Thầy cô nhiệt tình và tâm huyết với sinh viên. Các anh chị sinh viên có tinh thần giúp đỡ các em khóa dưới. Môi trường thoải mái, và cho sinh viên cơ hội phát triển.

Trần Thị Hoa

Hội sinh viên T3H

T3H nơi tôi cảm nhận được sự gần gũi, thân thương, là cái nôi đã giúp tôi trưởng thành như ngày hôm nay. Từ một sinh viên "KHÔNG BIẾT GÌ" về đồ họa, giờ tôi có thể tự tin mà nói rằng : I AM A PROFESSIONAL DESIGNER với công việc và mức lương tôi hằng mơ ước!

Phạm Ánh Duyên

Designer of HONG HA PRINTING .,JSC

"Trường luôn tạo điều kiện học tập tốt nhất cho sinh viên, các giảng viên thì nhiệt tình, tận tâm với sinh viên, hỗ trợ sinh viên hết mình! Ngoài việc học trên trường, hội sinh viên còn tổ chức ra nhiều chương trình, nhiều sự kiện để khuấy động phong trào trong sinh viên"

Nguyễn Thị Thu Hà

Thiết kế 2D - Công ty CP BĐS Rbland

Nguyễn Mạnh Tiền

Cán bộ phòng Đào tạo Hitech Việt Nam

Đề tài Project java android xuất xắc, sinh viên tiêu biểu T3H - Framgia Vietnam nhận ngay trong hội đồng bảo vệ đồ án cuối khóa

Phạm Trung Đoan

FPT Software, Framgia Vietnam

Thầy cô giảng viên và anh chị khóa trên rất thân thiện và tận tâm. Họ sẵn sàng, khi bạn cần giúp về vấn đề kĩ thuật hay học tập của bạn. Đây là điều em yêu hích nhất ở T3H"

Lê Trung Kiên

K29DH

"T3H là một môi trường giáo dục thực tế nhất mà em từng biết. Đã đào tạo thẳng vào chuyên ngành giúp cho sinh viên phát huy được hết các khả năng về chuyên ngành của mình"

Phạm Hồng Hà

K30A1DH

Search form