Jupitor's Blog

[모두를 위한 R데이터 분석 입문] 연습문제 6장 본문

IT/모두를 위한 R 데이터 분석 입문 연습문제

[모두를 위한 R데이터 분석 입문] 연습문제 6장

Jupitor6245 2020. 4. 19. 13:15

쉬워서 그런지 역시 하다보면 재밌는게 R인거 같네요.

 

이번장은 6장입니다.

 

마찬가지로 이전 문제와 너무 똑같거나 너무 반복이다 거나 싶은것들은 제쳐두고 풀었습니다.

 

수정이 필요한 부분이 있다면 댓글로 달아주세요~!

 

 

 

문1. 

<스크립트>

 

<결과>

 

두 변수의 상관관계를 알려주는 cor 지수의 절대값이 0.5 이상이므로 두 변수 spee와 dist의 상관관계는 높다고

볼 수 있겠습니다.

(책에 cor지수가 0.5 이상일 경우 상관관계를 인정할 수 있다고 나와있네요)

 

 

 

 

문2.

 

<스크립트>

 

 

<결과>

cor지수가 0.7544923으로 높습니다. 위와 마찬가지로 상관관계가 높다고 볼 수 있겠네요.

 

 

 

 

 

 

 

 

 

 

 

문3.

 

<스크립트>

 

 

<결과>

보통 x,y 그래프에서 산포도의 형태가 대각선을 그릴 경우 상관관계가 높다고 볼 수 있겠습니다.

그나마 Income과 Illiteracy(문맹률) 변수간의 상관 관계를 생각할 수 있겠네요.

하지만 Income과 Illiteracy 간의 cor 계수는 -0.4370752로 낮으므로 상관관계가 있다고 보기는 힘들 것 같네요.

나머지는 더욱 낮습니다.

Population과 Area의 경우를 볼까요? cor 계수는 0.02254384입니다.

 

 

 

 

 

문4.

 

<스크립트>

 

 

<결과>

 

 

 

 

 

 

 

 

 

 

문5.

 

<스크립트>

 

 

<결과>

교육기간과 수입간의 cor 지수는 0.7929108로 매우 높고 ( > 0.5) 0보다 크므로 두 변수간에는 비례관계가

성립한다고 볼 수 있겠습니다. 즉, 교육기간이 길수록 수입이 높아진다는거죠.

 

 

 

 

 

문7.

<스크립트>

 

<결과>

변수 mpg와 나머지 각 변수간의 cor지수를 구하고 그 절대값이 가장높은 변수를 구했습니다.

wt, 무게가 가장 상관 관계가 있네요.

 

 

 

 

 

문9.

 

<스크립트>

 

<결과>

 

 

 

 

 

 

 

 

 

 

 

 

 

문11.

 

<스크립트>

 

 

<결과>

검색해보니 rstudio에 색깔이 많길래 이것저것 써봤는데, 잘 안보이네요(....)

 

 

 

문12.

 

<스크립트 - (1),(2)>

 

안쪽 for문의 조건문이 약간 이상하다고 생각이 드실겁니다.

원래대로라면 1:(ncol(myds)-1) 이어야 되는데 말이죠.

그런데 그렇게 하면 Rstudio가 프로그래밍이 잘못되어서 그런지 해당 최대 인덱스를 넘어버립니다.

이중 for문이 제대로 안먹힙니다 -_-;

위 스크립트에서 i를 빼고 cat(i,j," ")를 실행해보시면 무슨얘긴지 바로 아실겁니다.

 

plot은 총 36개가 나오므로 3x3 격자를 취했습니다.

 

 

<결과 - (2)>

 

 

 

<스크립트 - (3)>

 

 

 

<결과 - (3) >

 

 

<스크립트 - (4)>

 

 

 

 

 

 

 

 

 

<결과 - (4)>

 

 

 

 

문13.

 

<스크립트>

 

 

<결과>

 

 

 

 

문14.

 

<스크립트>

 

 

<결과>

 

 

 

 

 

 

 

 

 

 

문15.

 

<스크립트>

 

 

<결과>