서브메뉴

본문

이상치 검출과 처리 (R을 활용한)
이상치 검출과 처리 (R을 활용한)
저자 : 이상호
출판사 : 자유아카데미
출판년 : 2015
ISBN : 9791158080587

책소개

급속히 발전하는 과학기술 덕분에 모든 분야에서 편리함과 신속함 그리고 정확성을 성취해가고 있다. 하지만 심각한 문제는 발전하는 과학기술보다 더 빨리 변해가는 것이 현실의 상황이다. 매일 매일 엄청나게 생산되어 쏟아지는 정보들은 과학기술의 발전 속도를 능가한다.



또한 오염되었거나 심지어 올바르지 않은 목적을 위한 가짜 정보와 자료도 상대적으로 늘어가고 있다. 물론 많은 과학자들을 비롯하여 기술자들이 이러한 현상을 연구하고 대응해 왔다. 특히 정보의 홍수 속에서 살아가기 위해, 올바르고 가치 있는 정보를 찾는 좋은 방법과 기술을 개발하였고, 지금도 더 좋고 효율적인 것을 찾기 위한 노력이 지속되고 있다.
[알라딘에서 제공한 정보입니다.]

출판사 서평

급속히 발전하는 과학기술 덕분에 모든 분야에서 편리함과 신속함 그리고 정확성을 성취해가고 있다. 하지만 심각한 문제는 발전하는 과학기술보다 더 빨리 변해가는 것이 현실의 상황이다. 매일 매일 엄청나게 생산되어 쏟아지는 정보들은 과학기술의 발전 속도를 능가한다. 또한 오염되었거나 심지어 올바르지 않은 목적을 위한 가짜 정보와 자료도 상대적으로 늘어가고 있다. 물론 많은 과학자들을 비롯하여 기술자들이 이러한 현상을 연구하고 대응해 왔다. 특히 정보의 홍수 속에서 살아가기 위해, 올바르고 가치 있는 정보를 찾는 좋은 방법과 기술을 개발하였고, 지금도 더 좋고 효율적인 것을 찾기 위한 노력이 지속되고 있다.

정보 분석의 중요성을 인식하고 최근 몇 년 동안 통계학과 확률을 현장에 응용하고 적용하는 데 관심을 가지고 있었다. 대부분의 경우 아직도 아주 초보적인 통계나 기법 몇 가지를 이용하고 있으며, 전문적인 특정 분야에서는 누군가 한 번 사용한 방법과 절차를 계속 반복하여 형식적으로 사용하고 있다. 거기에는 여러 이유가 있지만 정확한 통계학적 지식 혹은 확률적 지식의 결여에서 나타나는 것이라고 본다. 해결 방법으로 공동연구가 좋은 방법이라고 생각하지만 연구자들 및 분석자들 사이에 성숙된 관계가 이루어지지 못해 실제적인 어려움이 있는 것 같다. 또 다른 방법으로는 연구자들을 포함한 사용자들이 좋은 결과를 도출할 수 있도록 그들이 직접 활용할 수 있는 좋은 안내서를 만드는 것이다. 이 경우는 사용자의 모든 가정과 상황을 맞출 수 없다는 문제점을 가지고 있지만 좋은 방법이라고 생각한다.

여러 해 동안 대한 금속?재료학회 회원으로 활동하면서 재료학 분야, 예를 들면 한국기계연구원(KIMM) 그리고 화학분야 특히 한국표준연구원(KRISS)의 측정분야에 종사하시거나 연구하시는 분들과 연구와 토론을 하는 과정에서 실제로 겪는 어려움을 이야기하시는 것들을 들었다. 그것을 요약하면, 산업계와 현장에서 종사하시는 분들과 연구자들이 겪는 어려움 중의 하나는 실험이나 연구과정에서 얻어진 자료에서 원하는 정보를 도출하고자 하는데 종종 마음에 들지 않는 자료라고 생각되는 것들 혹은 예상하지 못한 자료가 나타나고 발생하게 된다는 것이었다.

‘이런 자료들을 어떻게 처리해야 하는가’하는 심각한 상황이 발생하고, 고심하게 된다. 이와 같은 현상은 역사적 문제로 과학연구에 있어서 사회적 갈등을 낳는 윤리 문제와 관련이 있었다. 비용이나 시간을 들여서 얻은 자료와 정보인데 조작하거나 변조하자니 법과 양심에 걸리고, 그냥 버리자니 원하는 결론을 위해 좋은 자료들만 선별하고 선택했다는 오해를 받을 수 있다는 것이다. 실제로 과학계에서 유명한 학자들의 좋지 못한 기록들이 비평의 대상이 되어 왔다.

각종 실험과 관측 및 관찰 등을 통해 얻어진 자료들 전체에서 동떨어져 있거나 특이한 경향을 보이는 자료들이 나타난다. 이러한 자료를 이상치(outlier)라고 한다. 실험자와 연구자들은 이와 같은 자료들이 어떤 원인에 의해 발생한 것인지, 아니면 색다르고 중요한 특성을 가진 자료인지, 그것도 아니면 어쩔 수 없이 드물게 발생하는 오차가 큰 자료인지를 판단해야 할 것이다. 이상치의 검출과 제거 및 원인 파악을 하는 것이 중요한다. 이상치의 검출과 제거에 관한 통계학적인 방법에 대한 이론은 이미 많이 축척되었지만 실제로 정보와 자료 분석에 활용하기 위해서는 컴퓨터와 통계 소프트웨어의 도움이 있어야 한다.

통계 소프트웨어는 R-project(간단히 R)를 사용한다. R은 패키지(package)이며 언어(language)라 할 수 있다. 여러 가지 장점이 있지만 그 중에서 최고는 전 세계의 최고급연구가들이 직접 개발한 알고리즘(algorithm) 및 소스 코드(source code) 그리고 라이브러리(library)를 누구나 자유롭고 쉽게 사용하는 것뿐만 아니라 세계 모든 사람들이 함께 참여하고 얻어진 결과들을 함께 활용할 수 있다는 것이다. 인터넷 시대에 아주 잘 맞는 운영체제를 개발하고 운영하고 있는 것이다. 이 책의 내용을 잘 활용하기 위해서는 Kerns,(2011)의 Introduction to Probability and Statistics Using R. 정도를 다룰 수 있으면 좋을 것 같다.

해결해야 할 문제가 주어지면 먼저 이 문제와 관련된 자료를 인터넷에서 수집하고 분리 저장한다. 다음, 해결하고자 하는 문제와 관련된 이론들을 추출하고 문제에 적용시켜 본다. 얻어진 결과와 다른 사람들이 수행한 관련 연구와 결과들을 비교하여 문제의 정확한 해결책을 찾는다. 그리고 얻어진 결과를 확증하기 위하여 각종 도구를 사용하여, 특히 컴퓨터에 의하여 얻어진 해답의 옳고 그름을 확인한다.

이 책에서는 이러한 절차를 통해 자료에서 이상치를 찾아내는 것을 배우고 처리하는 방법을 연구하고 그 방법을 익히게 적용하는 것을 목표로 삼았다. 또한 자료를 생산하고 이용하는 여러 현장에서 유용하게 사용하여 올바르고 가치 있는 정보를 도출하는 데 도움이 되었으면 한다. 따라서 자료가 생산되는 모든 분야에서 활용하고 이용할 수 있는 이상치의 문제를 다루는 것이 이 책의 주된 목표이다.
[예스24에서 제공한 정보입니다.]

목차정보

1장 정보와 자료 그리고 이상치

1.1 실험과 분석(Experiment and Analysis)

1.2 자료의 분류(Data Classification)

1.3 오차와 이상치(Error and Outlier)

1.4 이상치의 검출 방법(Outlier Detection Method)

1.5 이상치의 처리(Outlier Treatment)



2장 일변량 이상치 검출

2.1 변수와 변량(Variables and Variates)

2.2 정규분포를 갖는 자료(Normal Distribution Case)

2.3 정규분포를 갖지 않는 경우(Abnormal Distribution Case)



3장 이변량 이상치 검출

3.1 산점도와 상관 분석(Scatter Plot and Correlation Analysis)

3.2 회귀분석과 잔차 분석(Regression and Residual Analysis)

3.3 이상치와 영향치 그리고 지레점(Outliers, Influential Values and Leverage Points)

3.4 이상치의 판단 기준(Criteria for Outliers)



4장 다변량 이상치 검출

4.1 다변량 자료의 이상치(Outliers in Multivariate Data)

4.2 거리에 의한 방법(Distance Method)

4.3 밀도에 근거한 방법(Density-Based Method)

4.4 군집화에 의한 방법(Method by Clustering)

4.5 주성분분석에 의한 방법(Principle Components Analysis Method)

4.6 그래프에 의한 방법(Graphic Method)



5장 결측값의 처리와 대체

5.1 완비 자료와 불완비 자료(Complete and Incomplete Data)

5.2 결측값 처리 및 대체(Treatment and Imputation of Missing Values)

5.3 불완비 자료에서의 이상치 검출(Outliers Detection from Incomplete Data)



6장 시계열 자료의 이상치 검출

6.1 시계열 자료(Tims Series Data)

6.2 시계열 자료의 모형(Models of Time Series)

6.3 시계열 분석(Analysis of Time Series)

6.4 시계열 자료의 이상치(Outliers in Time Series Data)



7장 분포의 적합

7.1 기초 통계적인 방법(Descriptive Methods)

7.2 통계적 검정에 의한 방법(Statistical Test Methods)

7.3 정규성 검정(Normality Test)

7.4 그래프에 의한 방법(Graphical Methods)

7.5 정규분포로의 변환(Transformation to Normal Distribution)

7.6 분포의 적합(Fitting Distribution)

7.7 다변량 정규성 검정(Multivariate Normality Test)



부록-R 코드 Andrews Curves

찾아보기
[알라딘에서 제공한 정보입니다.]