Python爬取赶集网北京二手房数据&ampamp;R对爬取的二手房房价做线性回归分析.doc

资源ID：3271937 资源大小：26.50KB 全文页数：5页
资源格式： DOC 下载积分：2元

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要2元

邮箱/手机：
温馨提示：	用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）
支付方式：
验证码：	换一换

加入VIP免费专享

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

Python爬取赶集网北京二手房数据&ampamp;R对爬取的二手房房价做线性回归分析.doc

Python爬取赶集网北京二手房数据&R对爬取的二手房房价做线性回归分析前言：本文主要分为两部分：Python爬取赶集网北京二手房数据">Part1：Python爬取赶集网北京二手房数据入门爬虫一个月，所以对每一个网站都使用Xpath、Beautiful Soup、正则三种方法分别爬取，用于练习巩固。数据来源如下：本文使用Beautiful Soup讲解。Xpath传送门：Xpath+requests爬取赶集网北京二手房数据import requestsimport refrom requests.exceptions import RequestExceptionfrom bs4 import BeautifulSoupimport csvimport timeheaders = User-Agent:Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36def get_one_page(url): try: response = requests.get(url,headers = headers) if response.status_code = 200: return response.text return None except RequestException: return Nonedef parse_one_page(content): try: soup = BeautifulSoup(content,html.parser) items = soup.find(div,class_=repile(js-tips-list) for div in items.find_all(div,class_=repile(ershoufang-list): yield Name:div.find(a,class_=repile(js-title).text, Type: div.find(dd, class_=repile(size).contents1.text,#tag的 .contents 属性可以将tag的子节点以列表的方式输出 Area:div.find(dd,class_=repile(size).contents5.text, Towards:div.find(dd,class_=repile(size).contents9.text, Floor:div.find(dd,class_=repile(size).contents13.text.replace(n,), Decorate:div.find(dd,class_=repile(size).contents17.text, Address:div.find(span,class_=repile(area).text.strip().replace( ,).replace(n,), TotalPrice:div.find(span,class_=repile(js-price).text+div.find(span,class_=repile(yue).text, Price:div.find(div,class_=repile(time).text #有一些二手房信息缺少部分信息，如：缺少装修信息，或者缺少楼层信息，这时候需要加个判断，不然爬取就会中断。 if divName, Type, Area, Towards, Floor, Decorate, Address, TotalPrice, Price = None: return None except Exception: return Nonedef main(): for i in range(1,50): url = http:/bj.ganji/fang5/o/.format(i) content = get_one_page(url) print(第页抓取完毕.format(i) for div in parse_one_page(content): print(div) with open(Data.csv, a, newline=) as f: # Data.csv 文件存储的路径,如果默认路径就直接写文件名即可。 fieldnames = Name, Type, Area, Towards, Floor, Decorate, Address, TotalPrice, Price writer = csv.DictWriter(f, fieldnames=fieldnames) writer.writeheader() for item in parse_one_page(content): writer.writerow(item) time.sleep(3)#设置爬取频率，一开始我就是爬取的太猛，导致网页需要验证。if _name_=_main_: main()对于小白容易遇见的一些问题：a、有一些房屋缺少部分信息，如缺少装修信息，这个时候需要加一个判断，如果不加判断，爬取就会自动终止。我在这里跌了很大的坑。b、Data.csv知识点存储文件路径默认是工作目录，关于工作目录传送门：python中如何查看工作目录c、爬虫打印的是字典形式，每一个房屋信息都是一个字典，由于对Python中excel相关库是我知识盲点，所以爬虫的时候将字典循环直接写入CSV。pycharm中打印如下：图一将字典循环直接写入CSV效果如下：图二d、很多初学者对于Address这种不知道如何处理，这里强调一下Beautiful Soup 中.contents的用法，亲身体会，我在这里花了好多时间才找到答案。图三Part2：R对爬取的二手房房价做一般线性回归分析下面我们用R对抓取的赶集网北京二手房数据做一些简单的分析。2.1、数据的说明Name：主要是商家的醒目标题，分析的时候没有啥参考意义Type：卧室数、客厅数、卫生间数Area：面积（平方米）Towards：朝向Floor：楼层Decorate：装修情况如：精装修、简单装修、毛坯房Address：二手房的地址TotalPrice：总价Price：均价（元/平方米）2.2、数据清洗data图四#在爬取的时候加入了判断，所以不知道爬取的数据中是否存在缺失值，这里检查一下colSums(is.na(DATA)图五#这里将Type的卧室客厅和卫生间分为三个不同的列#这里需要注意，有一些房屋没有客厅如：1室1卫这时候需要单独处理，还有一些没有厕所信息。library(tidyr)DATA=separate(data=DATA,col=Type,into = c("Bedrooms","Halls"),sep="室")DATA=separate(data=DATA,col=Halls,into = c("Halls","Toilet"),sep="厅")#将卫生间后面的汉字去掉DATA$Toilet图七#将数据转换格式DATA$Bedrooms图八以上数据清洗完毕。Part3：描述性分析主要思路是探究单个自变量对因变量的影响，对房价的影响因素进行模拟探究之前，首先对各变量进行描述性分析，已初步判断房价的影响因素。这里探究各个因素对总价影响。3.1探究Bedrooms与TotalPrice的关系table(DATA$Bedrooms) 1 2 3 4 5 6 7 9 541 1225 779 193 102 20 5 1 #由于拥有6、7、9个卧室数的数量较少，这里我们排出这些数据。DATA图九DATA$Bedrooms图十客厅数为3时候总价最高，客厅数为0、1和2的时候总价低于客厅数3和客厅数4。3.3探究Toilet与TotalPrice的关系#探究卫生间与总价的关系table(DATA$Toilet) 0 1 2 3 4 5 6 7 9 2 2142 470 116 74 26 7 2 0 #这里将卫生间数为0、6和7的去掉DATA图十一一般卧室数越多，卫生间数也越多，即卫生间数越多，总价越高。3.4探究Area与TotalPrice的关系ggplot(DATA, aes(x=Area, y=TotalPrice) + geom_point(col=red)图十二这个完全符合住房面积越大，总价越高。3.5探究Towards与TotalPrice的关系ggplot(DATA,aes(x=Towards,y=TotalPrice)+geom_boxplot(col="red")图十三3.6探究Floor与TotalPrice的关系ggplot(DATA,aes(x=Floor,y=TotalPrice)+geom_boxplot(col="red")图十四图中信息显示楼层一共只有1、2、3、地下的总价较高。3.7探究Decorate与TotalPrice的关系ggplot(DATA,aes(x=Decorate,y=TotalPrice)+geom_boxplot(col="red")图十五不同装修信息对总价影响较小。Part4：模型建立fit |t|) (Intercept) -112.7633 88.3010 -1.277 0.201697 Bedrooms2 -43.5934 16.2533 -2.682 0.007359 * Bedrooms3 -82.6565 20.7641 -3.981 7.04e-05 *Bedrooms4 -63.3096 34.9521 -1.811 0.070198 . Bedrooms5 79.0618 54.0763 1.462 0.143842 Halls1 -5.0663 64.2764 -0.079 0.937182 Halls2 -53.8905 65.4427 -0.823 0.410307 Halls3 -303.9750 79.2280 -3.837 0.000127 *Halls4 -528.5427 104.0849 -5.078 4.07e-07 *Toilet2 112.9566 19.1171 5.909 3.87e-09 *Toilet3 543.7304 38.8056 14.012 检验拒绝原假设，说明建立的模型是显著的；Ajusted R-squared 为0.6815，模型的拟合程度尚可接受。后面还有模型的检验，之后有机会会进行更深入的探讨。

注意事项

本文（Python爬取赶集网北京二手房数据&ampamp;R对爬取的二手房房价做线性回归分析.doc）为本站会员（白大夫）主动上传，三一文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三一文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。