Sunday, August 23, 2020

여름방학(8월) 파이썬 워크샵

 안녕하세요:)

여름 방학도 어느덧 끝을 향해 달려가고 있습니다. 모두들 잘 지내고 계신가요? 

코로나로 인해 어수선한 시기이지만, 

배움을 게을리하지 않는 TELD선생님들은 이번 여름에도 새로운 도전을 하였답니다. 

교육측정평가 전공의 박현정 교수님 연구실과 함께 

'데이터 분석'을 주제로 워크샵을 진행하였습니다. 

TELD 연구실의 함윤희 선생님께서 준비해주셨어요! 감사합니다:) 


이번 워크샵은 총 3일간 진행되었습니다. 

1. 기본적인 그래프와 시각화(pandas, plotting 라이브러리)

2. 예측분석(sklearn 라이브러리)

3. 텍스트 마이닝(konlpy, nltk, gensim 라이브러리) 


먼저 첫째날(8/12)에는 기본적인 pandas 사용법(pandas library)을 다루었습니다. 

    * 그래프와 시각화(plotnine library) : scatter plot, histogram plot, box plot, line graph 

    * 두 그래프 조합하기

포르투갈의 한 학교에서 도출된 간단한 csv데이터를 활용하여 다양한 그래프를 그려보았습니다. 


기초 통계 연구방법론 수업에서도 통계 프로그램인 R을 활용하여 데이터 시각화를 간단히 해보았었는데요, 파이썬을 활용한 데이터 시각화는 다양한 라이브러리를 더욱 편하게 활용할 수 있다는 점에서 그 활용도가 더 높을것 같습니다. 정말 다양한 라이브러리와 시각화 방법이 있답니다!

두번째날(8/13)에는 파이썬의 sklearn 라이브러리를 활용해서 예측 분석을 해보았습니다. 

sklearn 라이브러리는 머신러닝을 하는 과정에서 널리 활용되는 라이브러리입니다.

특히 이번 워크샵에서는 
Train/test split, Logistic regression classifier, Linear Regression, Decision tree classifier 등 

회귀(regression)를 중심으로 다루어보았습니다. 데이터를 입력하여 기계학습을 실시하고, 학습 결과의 정확도를 분석하는 등 데이터 분석 시 유용하게 활용할 수 있는 방법에 대해 배우고 실습할 수 있는 시간이었습니다.  



마지막날(8/14)에는  konlpy, nltk, gensim 라이브러리를 활용해서 텍스트마이닝에 도전해보았습니다. 셋째날의 워크샵 내용이 가장 흥미로웠는데요, 실제로 네이*의 API(application programming interface)를 활용해서 뉴스 기사 데이터를 실시간으로 불러온 다음, 필요한 정보를 가지고 있는 데이터만 쏙쏙! 뽑아서 정리할 수 있었답니다. 이를테면 '온라인 교육'이라는 키워드를 포함한 기사들로 코퍼스(말뭉치)를 만들고, 이를 정제하여 효율성을 높이는 전처리 이후 형태소를 분석하는 텍스트 분석을 진행하였습니다. 


실제로 텍스트 마이닝에 도전해보니, 한국어 텍스트 마이닝이 참 어렵다는 것을 알게 되었습니다. 
교착어라는 특성 상 형태소 분석이 쉽지 않기 때문에, 더 많은 노력과 기술이 필요하기 때문입니다.
이를 위해 딥러닝 기반의 압축과 정보 추출 과정이 필요한데요,
워크샵에서는 신경망을 통해 특징 벡터 표현 방법을 학습하는 모델 'Word2Vec'모델을 만들어보았습니다. 간단히 얘기하면 비슷한 벡터값을 가진 단어들을 묶어낸 모델이라고 볼 수 있습니다. 
시각화를 해보니 비슷한 맥락에서 자주 언급되는 단어들끼리 가까이 위치한 것을 확인할 수 있었답니다. 


교육 데이터를 수집하고 분석하는 과정에서 이와 같은 데이터 분석 능력이 매우 필요할것 같습니다. 특히 학습 분석, 인공지능 활용 교수 설계, 데이터 기반 교수 설계 등 앞으로도 수요가 많을 것이라 예상되는 연구 분야에서 그 활용도가 높을 것 같죠? 



새로운 주제에 대해 친절히 알려주신 윤희선생님, 이런 기회를 만들어주신 교수님, 여름 방학임에도 3일 동안 열심히 참여해주신 선생님들 덕분에 워크샵이 성황리에 끝날 수 있었습니다.

이번 워크샵에서 배운 데이터 처리, 분석 기법을 활용해서  

실제로 연구에 잘 활용할 수 있다면 더 좋을것 같습니다.  

그럼 방학 마무리 잘하시고, 건강한 모습으로 2학기때 뵈어요 !:) 



No comments:

Post a Comment

Note: Only a member of this blog may post a comment.